AI-PPT Flow 是一个基于大语言模型 (LLM) 和视觉语言模型 (VLM) 的自动化PPT生成系统。
它不仅仅是生成文字,更能理解视觉风格。通过上传一张参考图,系统能自动克隆其配色、构图和材质,并将您的文档内容转化为风格统一、图文并茂的专业 PPT。
拒绝千篇一律的模版。上传任意一张您喜欢的图片作为参考,系统会自动提取其配色方案、光影质感、构图逻辑,并将其应用到生成的每一页幻灯片中。
输入一段长文档或简单的想法,内置的 AI 编剧会自动将其拆解为结构清晰的幻灯片大纲(封面、目录、内容页、封底),并为每一页设计专属的画面描述。
利用最新的 Google Gemini 3 Pro 模型,生成的不仅仅是背景图,而是包含可读文字和精准图表的完整幻灯片画面。文字与图像完美融合,告别"图文分离"的割裂感。
内置多进程并发引擎,支持 10+ 页幻灯片同时生成。相比传统串行生成,速度提升 5-10 倍。5 页精美 PPT,仅需数十秒。
提供完整的可视化工作区。支持实时修改提示词、重新生成单页、调整幻灯片比例(16:9, 4:3, 手机竖屏等),并一键导出为 .pptx 文件。
---
上传参考图,AI 自动提取风格特征,并根据文档生成分页大纲。
实时预览生成的幻灯片,支持多进程批量并发生成,实时显示进度。
AI-PPT Flow 采用现代化的前后端分离架构:
- 前端: React 18 + TypeScript + Vite + Tailwind CSS (状态管理: Zustand)
- 后端: FastAPI + Python 3.10 (ProcessPoolExecutor 多进程架构)
- AI 服务: OpenRouter (Gemini 3 Pro Preview / Image Mode)
- 核心 Pipeline:
StyleAnalyzer: 像素分析 + LLM 风格提取OutlineGenerator: 文本结构化拆解PromptBuilder: 风格 + 内容 + 约束组装BatchImageGenerator: 多进程并发图像生成PPTXExporter: 最终文件合成
- Python 3.10+
- Node.js 18+
- OpenRouter API Key (支持 Gemini 3 Pro)
cd backend
# 安装依赖
pip install -r requirements.txt
# 配置环境变量 (复制 .env.example)
cp .env.example .env
# 编辑 .env 填入 LLM_API_KEY / 或者在前端设置界面配置
# 启动服务
uvicorn app.main:app --reload --port 8000cd frontend
# 安装依赖
npm install
# 启动开发服务器
npm run dev访问 http://localhost:5173 即可开始使用。
为了简化启动流程,我们提供了一键启动脚本:
# 在项目根目录执行
start.bat# 在项目根目录执行
chmod +x start.sh
./start.sh脚本会自动:
- 检查并安装后端依赖
- 启动后端服务(端口 8000)
- 检查并安装前端依赖
- 启动前端开发服务器(端口 5173)
项目支持通过 Web 界面动态修改配置,无需重启服务:
- AI 模型: 支持切换 Chat 模型和 Image 模型。
- 并发数: 建议根据服务器性能调整
Max Workers(推荐 3-5)。 - 存储路径: 自定义图片和项目文件的保存位置。
配置文件默认位于 backend/data/config.json。
- v1.0: 基础流程跑通 (风格分析 -> 大纲 -> 单图生成 -> 导出)
- v1.1: 批量生成 (多进程优化) & 前端体验升级
- v1.2: 项目管理 (自动保存/历史记录) & 系统配置中心
- v1.3: 图片ppt——》可编辑PPTX解析
- v2.0: 多人协作编辑 & 更多 AI 模型支持 (Midjourney/DALL-E 3)
欢迎提交 Issue 和 Pull Request!
- Fork 本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交改动 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 提交 Pull Request
本项目采用 MIT 许可证。











