落地场景微调

您好，感谢你们开源 CogAgent，它在多模态 UI 理解任务中表现非常出色！

我正在将 CogAgent 应用于移动端 App 自动化测试场景，但在实际使用中发现了一些问题：

- 会误点击不可交互的元素（如灰化/禁用状态的按钮）
- 输入框的边界框识别范围过大或不精确
- 无法判断何时应该滑动而非点击（例如目标元素不在当前页面时）

为了提升模型在我们业务场景中的表现，我计划基于特定数据集进行微调。但在准备过程中遇到了以下几个问题，希望能得到一些建议：

1. 数据收集效率低，尤其是边界框标注困难
   目前缺乏高效的标注工具来精确标注 UI 元素（包括文本、坐标、是否可点击等）。请问是否有推荐的标注工具或工作流？例如支持移动端截图标注、可导出为 CogAgent 微调格式的工具？

2. 微调数据量有限，当前仅积累 20–30 条高质量样本
   - 这样的数据量是否足以带来有效提升？
   - 对于小样本场景，是否有推荐的策略？
   - 针对 UI 导航类任务（如点击、滑动、输入），是否有推荐的最小数据量或训练实践？

3. 如何在提升领域性能的同时，保留模型的通用能力？
   我们希望在优化App 测试表现的同时，不破坏 CogAgent 原有的通用 UI 理解能力。是否有推荐的微调策略或配置？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

落地场景微调 #55

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

落地场景微调 #55

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions