handhans Handhans-max

👋 你好！我是 Hans

🚀 关于我

一名AI爱好者（也是大模型研究员招募师），之前在字节跳动、小红书、美团任职，有多年技术人才招聘经验。
目前在Stepfun专注于基础大模型+Infra方向招聘。

🌟 招聘职位

包括不限于LLM、多模态、语音、大模型训练推理等方向，部分JD如下：大模型pre-train算法研究员 1、负责Model Architecture的研发、优化和创新，包括Attention、MoE等架构的改进，以及全新架构的探索。 2、负责下一代预训练范式的研究和创新，推动该技术的Scale up。 3、从算法的角度推动大模型训练和推理的低成本化，包括优化器的改进、量化、投机采样等技术。 4、研究通用智能的本质，设计和迭代通用智能的评估和观测方法，从而指导下一代范式的演进。 5、负责大语言基座模型代码、数学、Reasoning能力的提升，系统性的增强模型的能力，实现数据飞轮。

Code大模型算法研究员 1、负责代码预训练数据的合成、清洗、权重分配、来源扩充等一系列工作，持续提高代码预训练、中程训练等阶段的数据质量；负责探究预训练小领域数据的配比和最终效果之间的关系；开发数据合成链路，解决代码模型中的关键问题； 2、负责探究深度推理技术，探究Test-time Compute和模型效果的Scaling laws，参与后训练奖励模型、强化学习算法的一系列优化流程，探究线上代码补全数据到RL过程的数据飞轮； 3、专注于代码强化学习中的奖励模型（Reward Model）的优化和创新；包括和SFT阶段配合解决判别能力较差的场景、探究合成数据进行代码奖励模型的预训练、组织标注人员进行代码奖励模型的标注、Critic的前沿探究、强化学习过程中的可执行代码与单元测试的质量过滤和扩充。

大语言模型post train算法研究员 1、参与通用推理大模型对齐（Alignment）方向的研发工作，涵盖数据循环体系的构建，以及在监督微调（SFT）与强化学习（RL）阶段中对数据使用策略的系统性探究。 2、深入探索对齐阶段（Alignment）的数据与算法在大规模训练中的可扩展性与优化路径； 3、参与构建世界领先的高性能通用推理大模型，在多项客观评测指标中保持行业领先。

Agent RL算法研究员我们在构建基于多模态统一的DeepResearch智能体，专精整合搜索、浏览器、terminal、图片分析创作等工具的调用，深度思考智能体，实现长短期规划与分析； 1、利用强化学习方法改进智能体的规划、反思、利用工具的能力； 2、探索基于人机协同的高质量数据挖掘、合成，以加强智能体的规划和利用工具能力； 3、构建多模态智能体，提升多模态大模型 RLHF 中的训练效果； 4、构建智能体自动化评测。

📫 联系我

邮箱：[email protected]
微信：HM-PMH：备注请说明来自 GitHub

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

handhans Handhans-max

Block or report Handhans-max

👋 你好！我是 Hans

🚀 关于我

🌟 招聘职位

📫 联系我

Popular repositories Loading

Uh oh!