-
Notifications
You must be signed in to change notification settings - Fork 82
Open
Description
您好,感谢你们开源 CogAgent,它在多模态 UI 理解任务中表现非常出色!
我正在将 CogAgent 应用于移动端 App 自动化测试场景,但在实际使用中发现了一些问题:
- 会误点击不可交互的元素(如灰化/禁用状态的按钮)
- 输入框的边界框识别范围过大或不精确
- 无法判断何时应该滑动而非点击(例如目标元素不在当前页面时)
为了提升模型在我们业务场景中的表现,我计划基于特定数据集进行微调。但在准备过程中遇到了以下几个问题,希望能得到一些建议:
-
数据收集效率低,尤其是边界框标注困难
目前缺乏高效的标注工具来精确标注 UI 元素(包括文本、坐标、是否可点击等)。请问是否有推荐的标注工具或工作流?例如支持移动端截图标注、可导出为 CogAgent 微调格式的工具? -
微调数据量有限,当前仅积累 20–30 条高质量样本
- 这样的数据量是否足以带来有效提升?
- 对于小样本场景,是否有推荐的策略?
- 针对 UI 导航类任务(如点击、滑动、输入),是否有推荐的最小数据量或训练实践?
-
如何在提升领域性能的同时,保留模型的通用能力?
我们希望在优化App 测试表现的同时,不破坏 CogAgent 原有的通用 UI 理解能力。是否有推荐的微调策略或配置?
Metadata
Metadata
Assignees
Labels
No labels