Skip to content

AIFoundation 主要是指AI系统遇到大模型,从底层到上层如何系统级地支持大模型训练和推理,全栈的核心技术。

License

Apache-2.0, MIT licenses found

Licenses found

Apache-2.0
LICENSE
MIT
LICENSE-CODE
Notifications You must be signed in to change notification settings

chenzomi12/AIFoundation

Repository files navigation

AIFoundation

课程背景

聚焦 AI Foundation,大模型系统。大模型是基于 AI 集群的全栈软硬件性能优化,通过最小的每一块 AI 芯片组成的 AI 集群,编译器使能到上层的 AI 框架,训练过程需要分布式并行、集群通信等算法支持,而且在大模型领域最近持续演进如智能体等新技术。

大模型系统全栈

课程内容大纲

课程主要包括以下模块,内容陆续更新中,欢迎贡献:

序列 教程内容 简介 地址
01 AI 芯片原理(完结) AI 芯片主要介绍 AI 的硬件体系架构,包括从芯片基础到 AI 芯片的原理与架构,芯片设计需要考虑 AI 算法与编程体系,以应对 AI 快速的发展。 [Slides]
02 通信&存储 大模型训练和推理的过程中都严重依赖于网络通信,因此会重点介绍通信原理、网络拓扑、组网方案、高速互联通信的内容。存储则是会从节点内的存储到存储 POD 进行介绍。 [Slides]
03 AI 集群 大模型虽然已经慢慢在端测设备开始落地,但是总体对云端的依赖仍然很重很重,AI 集群会介绍集群运维管理、集群性能、训练推理一体化拓扑流程等内容。 [Slides]
04 计算架构 [Slides]
05 通信架构(完结) 通信架构主要是指各种类型的 XCCL 集合通信库,大模型在推理的PD 分离和分布式训练,都对集合通信库有很强烈的诉求,网络模型的参数需要相互传递,因此 XCCL 极大帮助大模型更好地训练和推理。 [Slides]
06 大模型算法 Transformer起源于NLP领域,近期统治了 CV/NLP/多模态的大模型,我们将深入地探讨 Scaling Law 背后的原理。在大模型算法背后数据和算法的评估也是核心的内容之一,如何实现 Prompt 和通过 Prompt 提升模型效果。 [Slides]
07 大模型训练 [Slides]
08 大模型推理 [Slides]
09 热点技术剖析 当前大模型技术已进入快速迭代期。这一时期的显著特点就是技术的更新换代速度极快,新算法、新模型层出不穷。因此本节内容将会紧跟大模型的时事内容,进行深度技术分析。 [Slides]

知识清单

大模型系统全栈

课程细节

课程设立目的

本课程主要为本科生高年级、硕博研究生、AI 系统从业者设计,帮助大家:

  1. 完整了解 AI 的计算机系统架构,并通过实际问题和案例,来了解 AI 完整生命周期下的系统设计。

  2. 介绍前沿系统架构和 AI 相结合的研究工作,了解主流框架、平台和工具来了解 AI 系统。

课程部分

编号 名称 具体内容
1 AI 计算体系 神经网络等 AI 技术的计算模式和计算体系架构
2 AI 芯片基础 CPU、GPU、NPU 等芯片体系架构基础原理
3 图形处理器 GPU GPU 的基本原理,英伟达 GPU 的架构发展
4 英伟达 GPU 详解 英伟达 GPU 的 Tensor Core、NVLink 深度剖析
5 国外 AI 处理器 谷歌、特斯拉等专用 AI 处理器核心原理
6 国内 AI 处理器 寒武纪、燧原科技等专用 AI 处理器核心原理
7 AI 芯片黄金 10 年 对 AI 芯片的编程模式和发展进行总结
编号 名称 具体内容
1 集合通信原理 通信域、通信算法、集合通信原语
2 集合通信库 深入地剖析 NCCL/HCCL 实现算法、对外 API
编号 名称 具体内容
1 时事热点 OpenAI o1、WWDC 大会发布
2 AIAgent 智能体 AI Agent 智能体的原理、架构
3 自动驾驶 端到端自动驾驶和萝卜快跑
4 具身智能 具身智能的原理、架构和产业思考
5 生成推荐 推荐领域的革命发展历程
6 隐私计算 发展过程与 Apple 引入隐私计算

备注

这个仓已经到达疯狂的 10G 啦(ZOMI 把所有制作过程、高清图片都原封不动提供),如果你要 git clone 会非常的慢,因此建议优先到 Releases · chenzomi12/AIFoundation 来下载你需要的内容

非常希望您也参与到这个开源课程中,B 站给 ZOMI 留言哦!

欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦!

请大家尊重开源和 ZOMI 的努力,引用 PPT 的内容请规范转载标明出处哦!

About

AIFoundation 主要是指AI系统遇到大模型,从底层到上层如何系统级地支持大模型训练和推理,全栈的核心技术。

Resources

License

Apache-2.0, MIT licenses found

Licenses found

Apache-2.0
LICENSE
MIT
LICENSE-CODE

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published