A collection of research resources on DeepSeek
-
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng [Paper]
-
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [Paper] [Code]
-
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding [Paper] [Code]
-
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation [Paper] [Code]
-
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling [Paper] [Code]
-
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation [Paper] [Code]
-
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence [Paper] [Code]
-
Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [Paper] [Code]
-
DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search [Paper] [Code]
-
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence [Paper] [Code]
-
DeepSeek-VL: Towards Real-World Vision-Language Understanding [Paper] [Code]
-
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [Paper] [Code]
-
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models [Paper] [Code]
-
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism [Paper] [Code]
- https://github.com/Unakar/Logic-RL
- https://github.com/huggingface/open-r1
- [https://github.com/EvolvingLMMs-Lab/open-r1-multimodal]
- https://github.com/Deep-Agent/R1-V
- https://github.com/hkust-nlp/simpleRL-reason
- https://github.com/ZiyuGuo99/Image-Generation-CoT
- s1: Simple test-time scaling, Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto [Paper] [Code]
- Code-R1: Reproducing R1 for Code with Reliable Rewards [Github]
- R1-Zero’s “Aha Moment” in Visual Reasoning on an 2B Non-SFT Model [Blog] [Code]
---------------------------------------- DeepSeek 论文解析
- 【中文】EZ撸paper: DeepSeek-V3 技术报告详细解读 part1 | 开源最强模型 | 性价比之王 Youtube
- 【中文】EZ撸paper: DeepSeek-V3 技术报告详细解读 part2 | 开源最强模型 | 性价比之王的核心技术MLA Youtube
- 【中文】EZ撸paper: DeepSeek-V3 论文中的隐藏细节 (part 3):你不知道的关键点!| 可能存在的问题 | 论文深度解读+独家分析 Youtube
- 【中文】EZ撸paper: DeepSeek-V3 论文中的隐藏细节 (part 4):从入门到精通DeepSeek multi-token prediction | 论文深度解读+独家分析 Youtube
- 【中文】EZ撸paper: DeepSeek-R1 论文详解 part 1:比肩 OpenAI-o1,如何做到的?| 论文深度解读+独家分析 #deepseek Youtube
- 【中文】EZ撸paper: DeepSeek-R1 论文详解 part 2:AGI是什么? | Reinforcement Learning快速入门 | AlphaGo介绍 #deepseek Youtube
- 【中文】EZ撸paper: DeepSeek-R1 论文详解 part 3:GPT发展史 | scaling law | 训练范式 | emergent ability #deepseek Youtube
---------------------------------------- DeepSeek 本地部署 + RAG + 微调
- DeepSeek R1本地部署+搭建企业级知识库+本地化RAG知识库+Lora微调训练 [Youtube]
- 教你搭建一个无限制、可联网、带本地知识库的私人 DeepSeek! [Youtube]
- 【全748集】清华大佬终于把AI大模型(LLM+RAG+GPT 4o+Op)讲清楚了!零基础易学1 [Youtube]
- 【全748集】清华大佬终于把AI大模型(LLM+RAG+GPT 4o+Op)讲清楚了!零基础易学2 [Youtube]
---------------------------------------- 浙江大学DeepSeek系列公开课
- 浙江大学DeepSeek系列公开课|吴飞教授:DeepSeek:回望AI三大主义与加强通识教育 [Youtube]
- 浙江大学DeepSeek系列公开课|陈文智教授:Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景 [Youtube]
- 浙江大学DeepSeek系列公开课|王则可研究员:DeepSeek模型优势:算力、成本角度解读 [Youtube]
- 浙江大学DeepSeek系列公开课|吴超副教授:走向数字社会:从Deepseek到群体智慧 [Youtube]
- 浙江大学DeepSeek系列公开课|陈静远研究员:语言解码双生花:人类经验与AI算法的镜像之旅 [Youtube]
- 浙江大学DeepSeek系列公开课|陈建海副教授:DeepSeek的本地化部署与AI通识教育之未来 [Youtube]
- 浙江大学DeepSeek系列公开课|朱朝阳老师:DeepSeek之火,可以燎原 [Youtube]
- 浙江大学DeepSeek系列公开课|肖俊教授:从大模型、智能体到复杂AI应用系统的构建——以产业大脑 [Youtube]
- 浙江大学DeepSeek系列公开课|朱强教授:DeepSeek技术溯源及前沿探索 [Youtube]
- 浙江大学DeepSeek系列公开课|朱霖潮研究员:人工智能重塑科学与工程研究 [Youtube]
- 浙江大学DeepSeek系列公开课|郑小林教授:智能金融:AI 驱动的金融变革 [Youtube]
- 浙江大学DeepSeek系列公开课|况琨副教授:生成式人工智能赋能智慧司法及相关思考 [Youtube]
- 浙江大学DeepSeek系列公开课|姚畅研究员:AI大模型如何破局传统医疗 [Youtube]
- 浙江大学DeepSeek系列公开课|杨洋教授:大模型:从单词接龙到行业落地 [Youtube]
- 浙江大学DeepSeek系列公开课|张圣宇研究员:大小模型端云协同赋能人机交互 [Youtube]
- 浙江大学DeepSeek系列公开课|马东方教授:走进海洋人工智能的未来 [Youtube]
- 浙江大学DeepSeek系列公开课|唐谈研究员:当艺术遇见AI:科艺融合的新探索 [Youtube]
----------------------------------------- 娱乐博主
- Youtube: 【震撼】引發全球大衝擊的DeepSeek,已經點燃中美之間一場沒有硝煙的戰爭 | 老高與小茉 Mr & Mrs Gao [Youtube]
- Youtube: Deep Dive into LLMs like ChatGPT
----------------------------------------- 其他
- DeepSeek大模型原理与落地应用——北京大学,北京大学博士 北京大学软件学院特约讲师,肖睿博士分享。DeepSeek创新分享,适合大模型领域小白整体了解大模型领域发展。 [Youtube]
- 哈尔滨工业大学“DeepSeek技术前沿与应用”专题讲座 [Youtube]
- 《DeepSeek的理论到应用讲解》主讲人:天津大学智算学部王征教授 [Youtube]
- 北京大学内部研讨系列DeepSeek原理与落地应用 北大数智教育发展沙龙 [Youtube]
- 【现场版】AI肖睿团队受邀北京大学图书馆讲座DeepSeek原理与落地应用 [Youtube]
- 【清华大学】DeepSeek从入门到精通精华版 [Youtube]