Skip to content

落地场景微调 #55

@yujin2021

Description

@yujin2021

您好,感谢你们开源 CogAgent,它在多模态 UI 理解任务中表现非常出色!

我正在将 CogAgent 应用于移动端 App 自动化测试场景,但在实际使用中发现了一些问题:

  • 会误点击不可交互的元素(如灰化/禁用状态的按钮)
  • 输入框的边界框识别范围过大或不精确
  • 无法判断何时应该滑动而非点击(例如目标元素不在当前页面时)

为了提升模型在我们业务场景中的表现,我计划基于特定数据集进行微调。但在准备过程中遇到了以下几个问题,希望能得到一些建议:

  1. 数据收集效率低,尤其是边界框标注困难
    目前缺乏高效的标注工具来精确标注 UI 元素(包括文本、坐标、是否可点击等)。请问是否有推荐的标注工具或工作流?例如支持移动端截图标注、可导出为 CogAgent 微调格式的工具?

  2. 微调数据量有限,当前仅积累 20–30 条高质量样本

    • 这样的数据量是否足以带来有效提升?
    • 对于小样本场景,是否有推荐的策略?
    • 针对 UI 导航类任务(如点击、滑动、输入),是否有推荐的最小数据量或训练实践?
  3. 如何在提升领域性能的同时,保留模型的通用能力?
    我们希望在优化App 测试表现的同时,不破坏 CogAgent 原有的通用 UI 理解能力。是否有推荐的微调策略或配置?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions