Skip to content

zhaochenyang20/Awesome-ML-SYS-Tutorial

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Awesome-ML-SYS-Tutorial

My learning notes/codes for ML SYS.

一直以来对 ML + SYS 很感兴趣,苦于本科没有学好 ML,更没学好 SYS,但是读博了觉得自己应该可以在这方面试一试。

有如此打算,一来是我发觉组里很多能力出众的高年级学长们做的是 ML Theory + Application。不过,真的把一个 Theory 落到一个良好的 Application 上,即便是他们这样让我敬佩的 theory researcher,也有着一定挑战。在我入学前,组里有两篇让我眼前一亮的工作 SPINSPPO。工作本身都有非常棒的价值,但是如果在工程/系统上优化好,想来可以有更好的影响力。

此外,博士入学前的暑假,我和组里同学做了一个 In-context Learning for Agent 的工作 COPS,比较符合我的审美。我们就两个人主力干活,一个大哥推理论,而我负责在工程/系统上实现。这种工作模式让我的体感非常舒适,基于此,我甚至得出一个粗糙的结论:

$$ \dfrac{\text{Theory}+\text{System}}{2}=\text{Application} $$

这就是我想做 ML + SYS 的初衷了。所以从 2024 年的夏季开始,我开始慢慢上手 ML + SYS 这个尚且方兴未艾的领域。需要学习的实在太多了,有的在一些平台(譬如知乎和 HuggingFace Blog)上已经有了很好的资料,但是其他部分仍有所欠缺。所以,这个 repo 主要记载了我自己的一些学习笔记/读后感/思索/参考过的资料 etc,我姑且按照自己的大版图进行分类,也欢迎大家 PR。每一个大的板块,倒叙阅读就是我的学习过程,欢迎大家参考此路径上手。

RLHF System 开发笔记

SGLang 学习笔记

Scheduling and Routing

ML System 基本功

开发指南

未公开部分

之前的笔记大多写于 2024 年年底,经过了半年时间,我的仓库已略年久失修。一方面我自己更多在项目中负责推动 + delivery,反而自己很少写代码;另一方面,多多少少不少朋友向我们的仓库贡献了笔记,但我完全没有来得及整理。这段时间会不断完成整理并发布。这里索性列举下这些尚未完全的笔记,希望大家多多指正。

  • NCCL and SGLang:其实和中文内容非常接近,但是额外刊载了一些并行策略的内容。我应该不会修缮完成这个笔记,而是单独写笔记来记录并行策略。

About

My learning notes/codes for ML SYS.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages