欢迎来到 GUI-Thinker！如果你觉得本项目有帮助，欢迎点个 Star ⭐ 支持我们一下！

English | 中文

项目概览

GUI-Thinker 是一款具备高自适应性与自我反思能力的桌面 GUI 智能体，能够在动态的图形界面环境中完成多种操作。
无需 Docker 或虚拟机，即可快速部署和运行。
更多详情点击了解WorldGUI。

User Query: 关闭'Battery saver'通知

GUI-Thinker:

项目介绍

GUI-Thinker 有哪些创新？

GUI-Thinker 在 GUI 自动化领域引入了自反思机制，我们对 GUI 自动化进行了系统性的研究，并构建了如下工作流程，其中包含三个关键的自反思模块：

Planner-Critic：对初始生成的操作规划进行自我审查和修正，减少错误。
Step-Check：在执行之前去除或修正冗余、不必要或无效的步骤。
Actor-Critic：执行后对状态进行评估并校正操作，以保证任务顺利完成。

技术细节

GUI-Thinker 整体框架

State-Aware Planner 和 Planner-Critic 模块

Step-Check 模块

Actor-Critic 模块

与现有最先进的GUI智能体比较

在WorldGUI基准测试（元任务）中，各智能体性能对比。

📢 更新日志

[2025.03.11] ⚡ 发布 快速版 GUI-Thinker：使用 Anthropic Claude-3.5 与 Claude-3.7 模型作为 Actor，无需 GUI Parser，显著提升操作速度。运行 test_guithinker_fast.py 即可体验！
[2025.03.08] 推出 GUI-Thinker 演示 Demo。
[2025.03.05] ⚡ GUI-Thinker 同时支持教学视频输入和无视频输入模式。
[2025.03.05] 😊 项目正式开源，支持在 Windows 本地部署，参见快速上手指南。
[2025.02.13] WorldGUI 论文在 arXiv 发布。

✨ 核心特性

🏆 高性能：在 WorldGUI 基准测试中相比 Claude-3.5 Computer Use 提升 14.9%。
🌐 通用LMM支持：支持多种大型多模态模型（OpenAI, Anthropic, Gemini等）。
🔀 灵活交互方式：既支持教学视频输入，也支持无视频输入。
🚀 简单部署：无需 Docker 或虚拟机，只需执行 .\shells\start_server.bat 和 python test_guithinker_custom.py 即可运行。

🤖 主要组件：

项目包含如下组件：

GUI Parser：使用 Google OCR 与 PyAutoGUI 获取界面元素信息。
State-Aware Planner：基于屏幕截图或教学视频生成操作规划。
Planner-Critic：对 Planner 生成的初始步骤进行审校。
Step-Check：预执行检查，移除多余或无效步骤。
Actor：将文字描述转化为可以真正执行的鼠标键盘操作代码，如 click(100, 200)。
Actor-Critic：通过对比执行前后的界面截图来验证操作结果，并进行纠错。
教学视频输入模式： 可支持基于教学视频的任务执行。
非视频输入模式： 可直接依据用户指令执行操作。
前后端通信系统： 支持前后端分离，以灵活部署本地模型并与用户前端交互。

同时我们还发布了一个全新整理的Desktop GUI基准测试集 WorldGUI。

更多技术细节请参阅论文。

✅ 待办事项

持续更新中，未来计划包括：

⚡ 快速版（Anthropic模型，无需GUI解析器）
👓 用户友好的Gradio前端界面
📊 支持本地运行模型（ShowUI、UI-TARS）
🎨 Huggingface在线演示

欢迎提出Issue或PR共同建设本项目！本项目会持续维护，定期发布新功能与修复问题。🚀

🖥️ 演示视频

演示Demo视频（已加速版）：

https://www.youtube.com/watch?v=RoJ-cbjfZmg

1080p版本：https://www.youtube.com/watch?v=RoJ-cbjfZmg

🚀 快速上手

参见本地运行指南：快速上手

❤ 致谢

特别感谢 Difei Gao 对代码库开发的贡献。
感谢 Kaiming Yang、Mingyi Yan、Wendi Yu 等人的数据标注与测试工作。
OOTB (Computer Use)：一套开箱即用（OOTB）的桌面GUI智能体解决方案，支持API模型（如Claude 3.5 Computer Use）以及本地运行模型（如ShowUI、UI-TARS）。
ShowUI：一个开源、端到端、轻量级的视觉-语言-动作（Vision-Language-Action）模型，适用于GUI智能体与电脑操作任务。
AssistGUI：首个专注于桌面生产力软件自动化使用的研究，涵盖超过100个真实的GUI任务场景。
VideoGUI：一个基于教学视频的GUI自动化基准测试，探索GUI智能体能否在图像示例和用户指令下实现类似人类的行为。
SWE-bench Multimodal：专为评估AI系统在视觉化软件工程任务中表现而设计的数据集。

🎓 引用方式

如果你觉得我们的 WorldGUI 对你的研究或应用有帮助，请使用以下 BibTeX 进行引用：

@misc{zhao2025worldguidynamictestingcomprehensive,
      title={WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation}, 
      author={Henry Hengyuan Zhao and Difei Gao and Mike Zheng Shou},
      year={2025},
      eprint={2502.08047},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2502.08047}, 
}

🌟 Star增长趋势

🔔 联系我们

如有疑问或建议，欢迎通过以下方式与我们联系：

邮箱：Henry Hengyuan Zhao (hubylidayuan@gmail.com)
在本仓库提 Issue：我们会及时回复，期待你的建议和贡献！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh.md

README_zh.md

欢迎来到 GUI-Thinker！如果你觉得本项目有帮助，欢迎点个 Star ⭐ 支持我们一下！

English | 中文

项目概览

项目介绍

技术细节

与现有最先进的GUI智能体比较

📢 更新日志

✨ 核心特性

🤖 主要组件：

✅ 待办事项

🖥️ 演示视频

🚀 快速上手

❤ 致谢

🎓 引用方式

🌟 Star增长趋势

🔔 联系我们

Files

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

欢迎来到 GUI-Thinker！如果你觉得本项目有帮助，欢迎点个 Star ⭐ 支持我们一下！

English | 中文

项目概览

项目介绍

技术细节

与现有最先进的GUI智能体比较

📢 更新日志

✨ 核心特性

🤖 主要组件：

✅ 待办事项

🖥️ 演示视频

🚀 快速上手

❤ 致谢

🎓 引用方式

🌟 Star增长趋势

🔔 联系我们