注意:本项目当前暂不接受 Pull Request。 如果您有任何建议或发现任何问题,欢迎通过 Issue 进行反馈。
本项目是一个从传统 NLP 到大语言模型(LLM)的全栈式学习教程,旨在为开发者提供一条从理论入门到工程实战的清晰路径。
在 LLM 爆发的今天,许多开发者直接上手调用 API 或微调大模型,却往往忽视了底层的自然语言处理(NLP)基础。本项目主张 “Base NLP is all you need”,通过系统性地回顾 NLP 发展历程中的核心技术——从早期的词向量、循环神经网络(RNN),到变革性的 Transformer 架构,再到如今的 BERT、GPT 及 Llama 系列大模型——帮助读者构建坚实的技术护城河。
核心内容覆盖:
- NLP 理论基石:深入浅出地讲解分词、词向量(Word2Vec)、RNN/LSTM 等经典算法。
- Transformer 架构:剖析 Attention 机制,详解 Encoder-Decoder 架构,奠定大模型认知基础。
- 预训练语言模型:全面覆盖 BERT、GPT、T5 等里程碑式模型的设计与应用。
- 大模型进阶实战:从零手搓 Llama2 模型,掌握参数高效微调(PEFT/LoRA)、RLHF 等前沿技术。
- 工程化落地:涵盖模型量化、推理加速、Docker 容器化及服务部署的全流程实战。
- 大模型安全与多模态:探索模型安全挑战、伦理问题,以及图文多模态模型的前沿技术。
随着人工智能技术的飞速发展,掌握大语言模型已成为 AI 工程师的必备技能。然而,市面上的教程往往存在断层。要么过于偏重学术理论,晦涩难懂;要么仅停留在 API 调用的应用层,缺乏底层原理的支撑。
本项目致力于填补这一空白,通过理论与代码并重的方式,帮助开发者:
- 打通知识脉络:理解技术演进的内在逻辑(如:为什么从 RNN 发展到 Transformer?)。
- 掌握核心原理:不仅会用,更懂其“所以然”,具备排查复杂问题和优化模型结构的能力。
- 学习代码演进:采用“提出问题-迭代重构”的教学模式,展示从简易脚本到工业级框架的演变过程,培养真正的工程化思维。
- 提升工程能力:通过 NER、文本分类及 LLM 微调部署等实战项目,积累生产环境下的开发经验。
- 拓宽技术视野:探索大模型安全、多模态等前沿领域,紧跟 AI 技术发展的最新趋势。
本项目适合以下人群学习:
- 🎓 在校学生:希望系统学习 NLP 知识,为科研或求职打下基础。
- 💻 AI 算法工程师:需要从传统机器学习/深度学习转型到大模型领域的开发者。
- 🤔 LLM 爱好者:对大模型底层原理感兴趣,希望深入理解大模型架构运行机制的极客。
- 🔬 研究人员:需要快速回顾 NLP 经典算法或寻找基线代码实现的学者。
前置要求:
- 🟢 Python 基础:熟练掌握 Python 语法及常用数据结构。
- 🔵 PyTorch 框架:具备基本的 PyTorch 深度学习框架使用经验。
- 🟡 数学基础:了解基本的线性代数、概率论及梯度下降等深度学习概念。
- 体系化进阶路径:从基础的文本表示到 RLHF 和量化技术,内容层层递进。
- 手写核心代码:拒绝"调包侠",带领读者手写 Llama2、Transformer 等核心架构代码。
- 实战导向:包含文本分类、命名实体识别(NER)、私有数据微调 Qwen2.5 等多个完整项目。
- 全流程覆盖:不仅教你怎么训练,还教你怎么用 Docker 和 FastAPI 将模型部署成服务。
- 图文并茂:配合大量图解,将抽象的算法原理可视化,降低学习门槛。
- 直观易懂:尽量弱化复杂的数学公式推导,让数学基础薄弱的读者也能轻松掌握算法原理。
- 第1章:NLP简介
- 第2章:文本表示与词向量
- 第3章:循环神经网络
- 第4章:注意力机制与Transformer
- 第5章:语言模型
- 第6章:深入大模型架构
- 手搓一个大模型
- [MOE 架构解析]
- 第1章:文本分类
- 第2章:命名实体识别
- 第1章:参数高效微调
- 第2章:高级微调技术
- 第3章:大模型训练与量化
- 第1章:模型服务部署
- 第2章:自动化与性能优化
- [搭建 Jenkins CI/CD 自动化部署流水线]
- [运用 TensorRT 加速模型推理]
核心贡献者
- dalvqw-项目负责人(项目发起人与主要贡献者)
- 感谢 @Sm1les 对本项目的帮助与支持
- 感谢所有为本项目做出贡献的开发者们
- 感谢开源社区提供的优秀工具和框架支持
- 特别感谢以下为教程做出贡献的开发者!
Made with contrib.rocks.
- 发现问题请提交 Issue。
如果这个项目对你有帮助,请给我们一个 ⭐️
让更多人发现这个项目(护食?发来!)
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
