-
GUI-Thinker 是一款具备高自适应性与自我反思能力的桌面 GUI 智能体,能够在动态的图形界面环境中完成多种操作。
-
无需 Docker 或虚拟机,即可快速部署和运行。
-
更多详情点击了解WorldGUI。
User Query: 关闭'Battery saver'通知
GUI-Thinker:
GUI-Thinker 有哪些创新?
GUI-Thinker 在 GUI 自动化领域引入了自反思机制,我们对 GUI 自动化进行了系统性的研究,并构建了如下工作流程,其中包含三个关键的自反思模块:
- Planner-Critic:对初始生成的操作规划进行自我审查和修正,减少错误。
- Step-Check:在执行之前去除或修正冗余、不必要或无效的步骤。
- Actor-Critic:执行后对状态进行评估并校正操作,以保证任务顺利完成。
GUI-Thinker 整体框架
State-Aware Planner 和 Planner-Critic 模块
Step-Check 模块
Actor-Critic 模块
在WorldGUI基准测试(元任务)中,各智能体性能对比。
-
[2025.03.11] ⚡ 发布 快速版 GUI-Thinker:使用 Anthropic Claude-3.5 与 Claude-3.7 模型作为 Actor,无需 GUI Parser,显著提升操作速度。运行 test_guithinker_fast.py 即可体验!
-
[2025.03.08] 推出 GUI-Thinker 演示 Demo。
-
[2025.03.05] 😊 项目正式开源,支持在 Windows 本地部署,参见快速上手指南。
-
[2025.02.13] WorldGUI 论文在 arXiv 发布。
- 🏆 高性能:在 WorldGUI 基准测试中相比 Claude-3.5 Computer Use 提升 14.9%。
- 🌐 通用LMM支持:支持多种大型多模态模型(OpenAI, Anthropic, Gemini等)。
- 🔀 灵活交互方式:既支持教学视频输入,也支持无视频输入。
- 🚀 简单部署:无需 Docker 或虚拟机,只需执行
.\shells\start_server.bat
和python test_guithinker_custom.py
即可运行。
项目包含如下组件:
- GUI Parser:使用 Google OCR 与 PyAutoGUI 获取界面元素信息。
- State-Aware Planner:基于屏幕截图或教学视频生成操作规划。
- Planner-Critic:对 Planner 生成的初始步骤进行审校。
- Step-Check:预执行检查,移除多余或无效步骤。
- Actor:将文字描述转化为可以真正执行的鼠标键盘操作代码,如
click(100, 200)
。 - Actor-Critic:通过对比执行前后的界面截图来验证操作结果,并进行纠错。
- 教学视频输入模式: 可支持基于教学视频的任务执行。
- 非视频输入模式: 可直接依据用户指令执行操作。
- 前后端通信系统: 支持前后端分离,以灵活部署本地模型并与用户前端交互。
同时我们还发布了一个全新整理的Desktop GUI基准测试集 WorldGUI。
更多技术细节请参阅论文。
持续更新中,未来计划包括:
- ⚡ 快速版(Anthropic模型,无需GUI解析器)
- 👓 用户友好的Gradio前端界面
- 📊 支持本地运行模型(ShowUI、UI-TARS)
- 🎨 Huggingface在线演示
欢迎提出Issue或PR共同建设本项目!本项目会持续维护,定期发布新功能与修复问题。🚀
演示Demo视频(已加速版):
https://www.youtube.com/watch?v=RoJ-cbjfZmg
1080p版本:https://www.youtube.com/watch?v=RoJ-cbjfZmg
参见本地运行指南:快速上手
-
特别感谢 Difei Gao 对代码库开发的贡献。
-
感谢 Kaiming Yang、Mingyi Yan、Wendi Yu 等人的数据标注与测试工作。
-
OOTB (Computer Use):一套开箱即用(OOTB)的桌面GUI智能体解决方案,支持API模型(如Claude 3.5 Computer Use)以及本地运行模型(如ShowUI、UI-TARS)。
-
ShowUI:一个开源、端到端、轻量级的视觉-语言-动作(Vision-Language-Action)模型,适用于GUI智能体与电脑操作任务。
-
AssistGUI:首个专注于桌面生产力软件自动化使用的研究,涵盖超过100个真实的GUI任务场景。
-
VideoGUI:一个基于教学视频的GUI自动化基准测试,探索GUI智能体能否在图像示例和用户指令下实现类似人类的行为。
-
SWE-bench Multimodal:专为评估AI系统在视觉化软件工程任务中表现而设计的数据集。
如果你觉得我们的 WorldGUI 对你的研究或应用有帮助,请使用以下 BibTeX 进行引用:
@misc{zhao2025worldguidynamictestingcomprehensive,
title={WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation},
author={Henry Hengyuan Zhao and Difei Gao and Mike Zheng Shou},
year={2025},
eprint={2502.08047},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2502.08047},
}
如有疑问或建议,欢迎通过以下方式与我们联系:
-
在本仓库提 Issue:我们会及时回复,期待你的建议和贡献!