Skip to content

Latest commit

 

History

History
75 lines (65 loc) · 14.9 KB

File metadata and controls

75 lines (65 loc) · 14.9 KB

Datawhale开源教程内测组(试行)

成立初衷

随着社区的成长,积极参与开源教程撰写的贡献者日益增多,为了呵护贡献者们的创作热情,辅助贡献者们提升创作质量,特此成立开源项目内测小组。

开源教程贡献者须知

  • 开源教程内测小组仅是辅助作用,除了反馈的原则性问题(内容准确性问题、合规性问题)需要采纳外,其他建议均仅供贡献者参考,贡献者自行决定是否采纳。
  • 开源教程内测默认只进行一轮,贡献者可自行根据需要申请进行多轮内测。
  • 内测期间贡献者为主导人,可随时申请终止或者更换专项内测组成员。

职责

  1. 内容准确性校验:检查教程的知识点、步骤描述、示例代码等是否准确无误,避免技术性或事实性错误,验证操作流程的完整性与逻辑合理性,确保无遗漏或矛盾。
  2. 内容合规性校验:检查教程是否存在抄袭、盗图、洗稿、引用不规范、违规引用等侵权行为。
  3. 读者体验评估:按照教程要求模拟其目标读者视角,评估教程的易读性、易操作性、学习路径清晰度,识别待改进的部分,提出优化建议。
  4. 标准化反馈:使用统一模板提交反馈(开源教程内测反馈报告模板)在开源教程内测讨论区公开发布内测反馈。
  5. 积极配合:与贡献者和其他参与内测的人员保持沟通,确保反馈被准确理解。
  6. 效果追踪:对按照反馈修改后的内容进行二次验证,确保反馈生效。
  7. 客观中立:反馈基于教程自身情况,而非个人偏好,避免过度主观评价。
  8. 及时响应:在规定时间内完成评审,及时回应相关讨论。

加入机制

内测组成员采用邀请制,现任内测组成员担任邀请人,向组内提交被邀请人的简介以及邀请理由,全体组员进行投票,票数超过全体组员一半时即为邀请成功。加入方式:基于本文档,在下方的【内测组成员名单】后新增被邀请人的信息,然后提PR,附上邀请理由,等待投票结果即可。

退出机制

  • 连续6个月未参加内测的组员。
  • 违反上述职责所规定内容的组员。

内测流程

  1. 发布待内测的教程。
  2. 内测组成员根据自己背景和教程的匹配度申请参与内测。
  3. 贡献者在申请名单中挑选5-10名内测组成员成立专项内测组。
  4. 专项内测组预读教程。
  5. 专项内测组同教程贡献者进行预沟通,对齐内测目标、定位、内测排期等事项。
  6. 专项内测组在规定时间内完成内测并产出内测反馈。
  7. 贡献者对每个内测反馈打分并给出打分理由,打分标准为:0分——无效反馈、1分——有少量有效反馈、2分——大部分均为有效反馈、3分——全部为有效反馈
  8. 若内测反馈中有原则性问题,待贡献者修订后,内测组进行验收,验收通过则结束内测。
  9. 若内测反馈中无原则性问题,贡献者自行决定是否结束内测、是否增加验收环节以及是否开启下一轮内测。

内测组成员名单(排名不分先后)

姓名(GitHub用户名) 简介 擅长的领域
牧小熊(muxiaoxiong) Datawhale成员,AI算法工程师,阿里天池/科大讯飞竞赛平台特邀行业竞赛嘉宾 机器学习、深度学习、LLM、向量数据库、agent
王熠明(bald0wang) Datawhale成员,四大营教程输出数量第一 LLM应用开发、Agent应用开发
邹雨衡(logan-zou) Datawhale 成员,happy-llm、llm-cookbook 等 LLM 开源项目发起人、负责人,负责项目获 github star 7w+,现任某大厂 AI 工程师 LLM、NLP
李秀奇(li-xiu-qi) Datawhale成员,我是李秀奇,可以叫我筱可(xiaoke)。我专注于Python、JavaScript和Rust等语言,主要使用FastAPI和React框架。我非常擅长RAG系统开发、Agent系统开发、多模态Agent或RAG系统开发。我也会大语言模型(LLM)的微调和预训练(我曾复现过nanochat的LLM预训练流程),以及多模态模型的微调(如self-llm的Qwen3-VL-4B-Instruct LoRA 可视化微调案例 - LaTeXOCR)和embedding模型的微调(如代码检索场景微调实战,基于pytorch微调BGE-M3 embedding模型)。 LLM、Agent、RAG、AI编程
娄天奥(lta155) Datawhale成员,中国科学院大学计算机技术硕士在读,Llm-universe负责人,多次获得竞赛top,某大厂基础模型部实习中,self-llm、handy-ollama贡献者,多次担任datawhale组队学习讲师 LLM、RAG、RLHF
柯慕灵(1985312383) Datawhale成员,上海科技大学计算机硕士。常用语言、工具及框架:Python,pytorch,git,各数分、机器学习、深度学习工具,各ai生成工具的深度体验者(主要偏向llm,vibe coding,文生图) 机器学习、深度学习、CV、推荐、CT重建
胡锐锋(Relph1119) Datawhale成员,1.曾做过大型企业级项目的系统架构设计;2.深入研究过RagFlow、Dify项目源码;3.已完成李航《机器学习方法》的全部课后习题;4.在系统工程、系统架构设计领域有深入理解。 机器学习、RAG、LLM、深度学习、系统工程、系统架构设计
红星(SilverRiolu) Datawhale成员,世界五百强数据分析师、Datawhale《用Python做数据化运营》、《AI办公》、《AI数据分析》项目开发者 数据分析、机器学习、Agent
陈辅元(Fyuan0206) Datawhale成员,算法工程师,参与过agentic-ai、self-llm 、easy-vectordb 等LLM方向的开源项目,组织并举办多场 Datawhale 城市活动与高校行 深度学习、LLM、agent、RAG
陈安东(andongBlue) Datawhale成员,哈尔滨工业大学计算机科学与技术方向的博士研究生,研究方向是大语言模型(LLMs)在多语言与多模态推理中的方法、能力边界与系统性评测。主导并维护面向大模型学习与实践的开源项目,致力于将复杂模型方法进行结构化总结与可迁移沉淀。我关注研究问题本身的长期价值,倾向于以系统化视角理解模型能力,而非短期工程优化。 大模型、多模态大模型、Agent、基于大模型的强化学习、深度学习、自然语言处理、学术论文、互联网大厂算法
管柯琴(YangSuoly) Datawhale成员,清华大学数据科学和信息技术专业博士,参与了量化whalequant和undingable优化的教程 量化金融、图网络、大模型智能体
孙博辰(Micheal024) Datawhale成员,科班本科生,啃过南瓜书、蝴蝶书、动手学深度学习详解习题、hello-agent等教程,做过lora微调,连续参加五次2024年夏令营当运营助教,做过两场高校行 Agent、RAG、RL、深度学习、多智能体
黄玉琳(lynnhuang97) Datawhale成员,上海财经大学管理科学与工程本硕,2次上海市优秀毕业生。京东AI算法工程师,5年机器学习/深度学习/大模型经验,多次获得集团技术榜样等奖项。《ChatGPT原理与应用开发》作者。 统计、机器学习、深度学习、LLM、多模态、预训练、RLHF、强化学习
王翔(xiangking) Datawhale成员,医疗大模型领域的算法工程师,在学术创新平台和AI头部企业都分别任职,参与过从0到一的领域大模型研发,致力于AI技术前沿探索与落地普世。 NLP、LLM、医疗大模型
高立业(0-yy-0) Datawhale成员,搜索算法工程师,参与过多项开源项目,llm-universe、llm-cookbook、self-llm 等 机器学习、深度学习、LLM、搜索、RAG、Agent
黎佳佳(Deemakaice) Datawhale成员,目前从事具身智能领域AI产品经理3年,有机械臂产品、人形机器人产品化落地经验。主要负责本体软件功能设计、多模态交互模块的软硬件定义,以及业务场景商业化落地。 具身智能、智能硬件项目、AI应用产品、语音交互、多模态交互
蔡鋆捷(xinala-781) 负责开源多个教程,参与:happy-llm,中小学生AI通识课,open1+x来源文档,能够对教材的语言格式做出完好的修改建议与优化 机器学习、深度学习、强化学习、cv、agent
张翔宇(xgdyp) Datawhale成员,有丰富的ai infra建设、rag及agent本地化建设经验 llm
黎又榛(1iyouzhen) 我想着可以借助这个机会学习更多知识的同时也可以尽我所能可以给教程提出一些优化建议 深度学习、LLM
蔡昌豪(VEGE-C) 计算机科学与技术在校生,综合了解前端,后端,大模型等相关领域知识,知识涉及宽度较广,在校主要参与机器人和后端的相关开发工作,参与过大模型相关研究所实习(主要参与微调以及服务端测试),对新事物具有浓厚兴趣,从去年了解到Datawhale组织,参与过Happy-llm,Happy-agent等项目的学习 后端软件开发、机器视觉深度学习、机器人嵌入式等相关开发
谢好冉(ilovexsir) 参与过self-llm项目贡献,做过datawhale助教,了解学员在学习中有可能会遇到的问题。另外还做过华为云产品体验官,参与过多期产品体验任务,对测试产品和教程有一定的经验。 LLM
静静(lynnyulinlin-debug) 1. 12月份参考happy-llm 和 ai-hardware 项目打卡学习,均获得优秀学习者称号 2. 1月份继续参加base-llm项目, 认真学习中并逐步深入 3. 目前几个月在比较系统学习ai 系统相关内容,主要是并行计算、大模型训练和推理方向等,ai硬件方面,在端侧、边缘侧、云端均有涉及并不断深入学习 4. 技术栈比较全面。工作项目主要为感知算法,涉及信号处理算法和软硬件结合, 用过ros2操作系统、zynq等开发板,开发语言有c/c++, python,verilog等 5. 英语基础能力Ok LLM、深度学习、ai硬件、机器人操作系统、传统信号处理算法、多种开发语言等
傅谢懿(FuTseYi) 香港科技大学(全额奖学金研究生)。热衷开源文化,活跃于社区教程贡献与专业助教工作。拥有跨领域经验,聚焦端侧 AI 与特种机器人领域的全栈开发,擅长在 NVIDIA、瑞芯微及 RDK 等边缘设备上进行复杂算法的工程化落地与云边端协同部署。同时密切关注 AIGC 前沿,善于利用 LLM 等生成式工具赋能工程实践与技术创新。 DL、ML、CV、AIgo、LLM、Embedded、Edge AI、Frontend
江淋(jianglin-code) 对操作系统技术,图像处理技术比较熟悉;了解系统框架设计,技术方案评审和技术谈判。 近年成绩: 1、研发的安全操作系统,获得等保四级认证,华为鲲鹏兼容性认证 2、个人独立与华为2012实验室中央软件部合作,获得优秀项目称号 3、与武大网络安全实验室合作顶会论文,被ICSE2021、CCS2021各收录一篇(主要作者) 4、发表NSDI24会议论文一篇(一作&通讯作者) 操作系统、芯片、边缘计算、端侧推理等
王子慕(wangzimu31-arch) Datawhale鲸英助教,南京圆梦公益理事会委员,非科班本科生 机器学习、LLM、TTS、ComfyUI生图
左春生(LinChentang) Datawhale成员,llm-cookbook项目负责人 LLM、深度学习、单片机、具身智能
潘钲日(KinZivy) 曾多次担任 Datawhale 助教,凭借扎实负责的工作表现获评优秀助教;积极参与 hello-agents 内测工作,针对教程章节完成积极反馈并提出一些合理的建议。同时,自身具备严谨的事务处理思路与专业的问题分析能力,善于切换不同视角代入理解内测教程内容,乐于主动发表真实且有价值的见解。 机器学习、深度学习、蛋白质模型质量评估
谭斐然(frtanxidian) 1.我多次参加过组队学习,能够从学习者的角度来发现教程中可能存在的问题,以及提供一些更能够让学习者理解知识的方式 2.我多次参加过组队学习助教以及夏令营助教(运营助教、专业助教),熟悉组队学习流程,同时能够从助教的角度提出修改意见,减少助教和教程创作者的gap 3.我有过内测经验,例如Yolo-Master,我从内测开始提出了很多意见,一步一步成为该教程的贡献者 4.我现在在做的方向和语言模型微调(PEFT)相关,从专业角度也能够发现问题并提出修改意见 深度学习、联邦学习、LLM、CV、安全(对抗攻击等)、Python基本编程、前端
胡博毓(HuBoyu021124) Datawhale成员,对外经济贸易大学应用统计硕士研究生,有扎实的统计学,机器学习,深度学习基础,阅读过大量统计,机器学习,深度学习书籍与论文。 曾多次参与Datawhale组队学习活动,多次担任助教,理解Datawhale开源学习的理念,希望能为组织做更多。 机器学习、深度学习
毛慧昀(galaAella) Datawhale成员,编写过agent应用开发方面的教程,参加过组织多项项目的内测并提出建议,希望在参与项目内测提升自己的同时为项目的完善作出贡献。 机器学习、LLM、agent
李卓雅(ZhuoyaLi412) 数据科学家,康奈尔数据科学硕士,熟悉Python、Java、C++等编程语言。深入研究过RAG与Agent相关框架,如LangChain、LangGraph,具备实际构建多轮对话与工具调用流程的经验。熟悉Databricks、Spark、MLflow等工具链,具备从模型开发到部署的完整工程能力。 机器学习、RAG、LLM