- 一名AI爱好者(也是大模型研究员招募师),之前在字节跳动、小红书、美团任职,有多年技术人才招聘经验。
- 目前在Stepfun专注于 基础大模型+Infra方向招聘。
包括不限于LLM、多模态、语音、大模型训练推理等方向,部分JD如下: 大模型pre-train算法研究员 1、负责Model Architecture的研发、优化和创新,包括Attention、MoE等架构的改进,以及全新架构的探索。 2、负责下一代预训练范式的研究和创新,推动该技术的Scale up。 3、从算法的角度推动大模型训练和推理的低成本化,包括优化器的改进、量化、投机采样等技术。 4、研究通用智能的本质,设计和迭代通用智能的评估和观测方法,从而指导下一代范式的演进。 5、 负责大语言基座模型代码、数学、Reasoning能力的提升,系统性的增强模型的能力,实现数据飞轮。
Code大模型算法研究员 1、负责代码预训练数据的合成、清洗、权重分配、来源扩充等一系列工作,持续提高代码预训练、中程训练等阶段的数据质量;负责探究预训练小领域数据的配比和最终效果之间的关系;开发数据合成链路,解决代码模型中的关键问题; 2、负责探究深度推理技术,探究Test-time Compute和模型效果的Scaling laws,参与后训练奖励模型、强化学习算法的一系列优化流程,探究线上代码补全数据到RL过程的数据飞轮; 3、专注于代码强化学习中的奖励模型(Reward Model)的优化和创新;包括和SFT阶段配合解决判别能力较差的场景、探究合成数据进行代码奖励模型的预训练、组织标注人员进行代码奖励模型的标注、Critic的前沿探究、强化学习过程中的可执行代码与单元测试的质量过滤和扩充。
大语言模型post train算法研究员 1、参与通用推理大模型对齐(Alignment)方向的研发工作,涵盖数据循环体系的构建,以及在监督微调(SFT)与强化学习(RL)阶段中对数据使用策略的系统性探究。 2、深入探索对齐阶段(Alignment)的数据与算法在大规模训练中的可扩展性与优化路径; 3、参与构建世界领先的高性能通用推理大模型,在多项客观评测指标中保持行业领先。
Agent RL算法研究员 我们在构建基于多模态统一的DeepResearch智能体,专精整合搜索、浏览器、terminal、图片分析创作等工具的调用,深度思考智能体,实现长短期规划与分析; 1、利用强化学习方法改进智能体的规划、反思、利用工具的能力; 2、探索基于人机协同的高质量数据挖掘、合成,以加强智能体的规划和利用工具能力; 3、构建多模态智能体,提升多模态大模型 RLHF 中的训练效果; 4、构建智能体自动化评测。
- 邮箱:[email protected]
- 微信:HM-PMH:备注请说明来自 GitHub