Skip to content

Latest commit

 

History

History
195 lines (184 loc) · 21.8 KB

开源模型.MD

File metadata and controls

195 lines (184 loc) · 21.8 KB

模型评测

榜单 结果
Arena Hard Lmsys Org开源的大模型评估基准,与人类偏好排名有更高一致性
AlpacaEval 2.0:LLM-based automatic evaluation 开源模型王者vicuna,openchat, wizardlm
Huggingface Open LLM Leaderboard MMLU只评估开源模型,Falcon夺冠,在Eleuther AI4个评估集上评估的LLM模型榜单,vicuna夺冠
https://opencompass.org.cn/ 上海人工智能实验室推出的开源榜单
Berkley出品大模型排位赛榜有准中文榜单 Elo评分机制,GPT4自然是稳居第一,GPT4>Claude>GPT3.5>Vicuna>others
CMU开源聊天机器人评测应用 ChatGPT>Vicuna>others;在对话场景中训练可能很重要
Z-Bench中文真格基金评测 国产中文模型的编程可用性还相对较低,大家水平差不太多,两版ChatGLM提升明显
Chain-of-thought评估 GSM8k, MATH等复杂问题排行榜
InfoQ 大模型综合能力评估 面向中文,ChatGPT>文心一言> Claude>星火
ToolBench: 工具调用评估榜单 工具微调模型和ChatGPT进行对比,提供评测脚本
AgentBench: 推理决策评估榜单 清华联合多高校推出不同任务环境,例如购物,家居,操作系统等场景下模型推理决策能力
FlagEval 智源出品主观+客观LLM评分榜单
Bird-Bench 更贴合真实世界应用的超大数据库,需要领域知识的NL2SQL榜单,模型追赶人类尚有时日
kola 以世界知识为核心的评价基准,包括已知的百科知识和未知的近90天网络发布内容,评价知识记忆,理解,应用和创造能力
CEVAL 中文知识评估,覆盖52个学科,机器评价主要为多项选择
CMMLU 67个主题中文知识和推理能力评估,多项选择机器评估
LLMEval3 复旦推出的知识问答榜单,涵盖大学作业和考题,题库尽可能来自非互联网避免模型作弊
FinancelQ 度小满开源的金融多项选择评估数据集
SWE-bench 基于真实github问题和PR的模型编程能力评估
Awesome-MLLM 多模态大模型榜单
MTEB 向量模型榜单

国外开源模型

模型链接 模型描述
Phi-3-MINI-128K 还是质量>数量的训练逻辑,微软的3B小模型
LLama3 Open Meta带着可商用开源的羊驼3模型来了,重回王座~
WizardLM-2-8x22B 微软带着WizardLM-2也来了包括70B,7B 和8*22B
OpenSora 没等来OpenAI却等来了OpenSora这个梗不错哦
GROK 马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放
Gemma 谷歌商场开源模型2B,7B免费商用
Mixtral8*7B 法国“openai”开源基于MegaBlocks训练的MOE模型8*7B 32K
Mistral7B 法国“openai”开源Mistral,超过llama2当前最好7B模型
Idefics2 Hugging Face 推出 Idefics2 8B 多模态模型
Dolphin-2.2.1-Mistral-7B 基于Mistral7B使用dolphin数据集微调
Falcon Falcon由阿联酋技术研究所在超高质量1万亿Token上训练得到1B,7B,40B开源,免费商用!土豪们表示钱什么的格局小了
Vicuna Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型,提出了用GPT4来评测模型效果
OpenChat 80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机
Guanaco LLama 7B基座,在alpaca52K数据上加入534K多语言指令数据微调
MPT MosaicML开源的预训练+指令微调的新模型,可商用,支持84k tokens超长输入
RedPajama RedPajama项目既开源预训练数据后开源3B,7B的预训练+指令微调模型
koala 使用alpaca,HC3等开源指令集+ ShareGPT等ChatGPT数据微调llama,在榜单上排名较高
ChatLLaMA 基于RLHF微调了LLaMA
Alpaca 斯坦福开源的使用52k数据在7B的LLaMA上微调得到,
Alpaca-lora LORA微调的LLaMA
Dromedary IBM self-aligned model with the LLaMA base
ColossalChat HPC-AI Tech开源的Llama+RLHF微调
MiniGPT4 Vicuna+BLIP2 文本视觉融合
StackLLama LLama使用Stackexchange数据+SFT+RL
Cerebras Cerebras开源了1亿到130亿的7个模型,从预训练数据到参数全开源
Dolly-v2 可商用 7b指令微调开源模型在GPT-J-6B上微调
OpenChatKit openai研究员打造GPT-NoX-20B微调+6B审核模型过滤
MetaLM 微软开源的大规模自监督预训练模型
Amazon Titan 亚马逊在aws上增加自家大模型
OPT-IML Meta复刻GPT3,up to 175B, 不过效果并不及GPT3
Bloom BigScience出品,规模最大176B
BloomZ BigScience出品, 基于Bloom微调
Galacia 和Bloom相似,更针对科研领域训练的模型
T0 BigScience出品,3B~11B的在T5进行指令微调的模型
EXLLama Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight
LongChat llama-13b使用condensing rotary embedding technique微调的长文本模型
MPT-30B MosaicML开源的在8Ktoken上训练的大模型

国内开源模型

模型链接 模型描述
Qwen 2.5 Qwen最新系列模型
Yuan2.0-M32 原2.0 M32MOE 大模型
DeepSeek-v2 深度求索最新发布的21B MOE超强大模型降低KV-cache推理更高效
Qwen1.5-MoE-A2.7B Qwen推出MOE版本,推理更快
Qwen1.5 通义千问升级1.5,支持32K上文
Baichuan2 百川第二代也出第二个版本了,提供了7B/13B Base和chat的版本
ziya2 基于Llama2训练的ziya2它终于训练完了
InternLM2 7B+20B 商汤的书生模型2支持200K
InternLM-XComposer 最新多模态视觉大模型
Orion-14B-LongChat 猎户星空多语言模型支持320K
ChatGLM3 ChatGLM3发布,支持工具调用等更多功能,不过泛化性有待评估
Yuan-2.0 浪潮发布Yuan2.0 2B,51B,102B
YI-200K 元一智能开源超长200K的6B,34B模型
XVERSE-256K 元象发布13B免费商用大模型,虽然很长但是
LLama2-chinese 没等太久中文预训练微调后的llama2它来了~
YuLan-chat2 高瓴人工智能基于Llama-2中英双语继续预训练+指令微调/对话微调
BlueLM Vivo人工智能实验室开源大模型
zephyr-7B HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型
XWin-LM llama2 + SFT + RLHF
Skywork 昆仑万维集团·天工团队开源13B大模型可商用
Chinese-LLaMA-Alpaca 哈工大中文指令微调的LLaMA
Moss 为复旦正名!开源了预训练,指令微调的全部数据和模型。可商用
InternLM 书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型
Aquila2 智源更新Aquila2模型系列包括全新34B
Aquila 智源开源7B大模型可商用免费
UltraLM系列 面壁智能开源UltraLM13B,奖励模型UltraRM,和批评模型UltraCM
PandaLLM LLAMA2上中文wiki继续预训练+COIG指令微调
XVERSE 据说中文超越llama2的元象开源模型13B模型
BiLLa LLama词表·扩充预训练+预训练和任务1比1混合SFT+指令样本SFT三阶段训练
Phoenix 港中文开源凤凰和奇美拉LLM,Bloom基座,40+语言支持
Wombat-7B 达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座
TigerBot 虎博开源了7B 180B的模型以及预训练和微调语料
Luotuo 中文指令微调的LLaMA,和ChatGLM
OpenBuddy Llama 多语言对话微调模型
Chinese Vincuna LLama 7B基座,使用Belle+Guanaco数据训练
Linly Llama 7B基座,使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令微调数据集训练
Firefly 中文2.6B模型,提升模型中文写作,古文能力,待开源全部训练代码,当前只有模型
Baize 使用100k self-chat对话数据微调的LLama
BELLE 使用ChatGPT生成数据对开源模型进行中文优化
Chatyuan chatgpt出来后最早的国内开源对话模型,T5架构是下面PromptCLUE的衍生模型
PromptCLUE 多任务Prompt语言模型
PLUG 阿里达摩院发布的大模型,提交申请会给下载链接
CPM2.0 智源发布CPM2.0
GLM 清华发布的中英双语130B预训练模型
BayLing 基于LLama7B/13B,增强的语言对齐的英语/中文大语言模型

开源文生图模型

模型 描述
FLUX Stable difussion团队推出的开源AI生成模型
DeepFloyd IF StabilityAI 推出的文生图模型
playground 2.5 跨国团队推出的
Kolors 快手可图大模型

开源多模态模型

模型 描述
Kosmos-2.5 微软推出的多模态擅长识别多文字、表格图片
LLAVA-1.5 升级后的LLAVA 13B模型浙大出品
MiniGPT-4 认知类任务评分最高
InternLM-XComposer 书生浦语·灵笔2,擅长自由图文理解
mPLUG-DocOwl 阿里出品面向文档理解的多模态模型

垂直领域模型&进展

领域 模型链接 模型描述
医疗 MedGPT 医联发布的
医疗 MedPalm Google在Faln-PaLM的基础上通过多种类型的医疗QA数据进行prompt-tuning指令微调得到,同时构建了MultiMedQA
医疗 ChatDoctor 110K真实医患对话样本+5KChatGPT生成数据进行指令微调
医疗 Huatuo Med-ChatGLM 医学知识图谱和chatgpt构建中文医学指令数据集+医学文献和chatgpt构建多轮问答数据
医疗 Chinese-vicuna-med Chinese-vicuna在cMedQA2数据上微调
医疗 OpenBioMed 清华AIR开源轻量版BioMedGPT, 知识图谱&20+生物研究领域多模态预训练模型
医疗 DoctorGLM ChatDoctor+MedDialog+CMD 多轮对话+单轮指令样本微调GLM
医疗 MedicalGPT-zh 自建的医学数据库ChatGPT生成QA+16个情境下SELF构建情景对话
医疗 PMC-LLaMA 医疗论文微调Llama
医疗 PULSE Bloom微调+继续预训练
医疗 NHS-LLM Chatgpt生成的医疗问答,对话,微调模型
医疗 神农医疗大模型 以中医知识图谱的实体为中心生成的中医知识指令数据集11w+,微调LLama-7B
医疗 岐黄问道大模型 3个子模型构成,已确诊疾病的临床治疗模型+基于症状的临床诊疗模型+中医养生条理模型,看起来是要ToB落地
医疗 Zhongjing 基于Ziya-LLama+医疗预训练+SFT+RLHF的中文医学大模型
医疗 MeChat 心理咨询领域,通过chatgpt改写多轮对话56k
医疗 SoulChat 心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调 ChatGLM-6B
医疗 MindChat MindChat-Baichuan-13B,Qwen-7B,MindChat-InternLM-7B使用不同基座在模型安全,共情,人类价值观对其上进行了强化
医疗 DISC-MedLLM 疾病知识图谱构建QA对+QA对转化成单论对话+真实世界数据重构+人类偏好数据筛选,SFT微调baichuan
法律 LawGPT-zh 利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答+我们根据中华人民共和国法律手册上最核心的9k法律条文,利用ChatGPT联想生成具体的情景问答+知识问答使用ChatGPT基于文本构建QA对
法律 LawGPT 基于llama+扩充词表二次预训练+基于法律条款构建QA指令微调
法律 Lawyer Llama 法律指令微调数据集:咨询+法律考试+对话进行指令微调
法律 LexiLaw 法律指令微调数据集:问答+书籍概念解释,法条内容进行指令微调
法律 ChatLaw 北大推出的法律大模型,应用形式很新颖类似频道内流一切功能皆融合在对话形式内
法律 录问模型 在baichuan基础上40G二次预训练+100K指令微调,在知识库构建上采用了Emb+意图+关键词联想结合的方案
金融 OpenGPT 领域LLM指令样本生成+微调框架
金融 乾元BigBang金融2亿模型 金融领域预训练+任务微调
金融 度小满千亿金融大模型 在Bloom-176B的基础上进行金融+中文预训练和微调
金融 聚宝盆 基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型
金融 PIXIU 整理了多个金融任务数据集加入了时间序列数据进行指令微调
金融 FinGPT 金融传统任务微调 or chatgpt生成金融工具调用
金融 CFGPT 金融预训练+指令微调+RAG等检索任务增强
金融 DISC-FinLLM 复旦发布多微调模型组合金融系统,包括金融知识问答,金融NLP任务,金融计算,金融检索问答
金融 InvestLM CFA考试,SEC, StackExchange投资问题等构建的金融指令微调LLaMA-65+
金融 DeepMoney 基于yi-34b-200k使用金融研报进行微调
编程 Starcoder 80种编程语言+Issue+Commit训练得到的编程大模型
编程 ChatSQL 基于ChatGLM实现NL2sql
编程 codegeex 13B预训练+微调多语言变成大模型
编程 codegeex2 Chatglm2的基础上CodeGeeX2-6B 进一步经过了 600B 代码数据预训练
编程 stabelcode 560B token多语言预训练+ 120,000 个 Alpaca指令对齐
编程 SQLCoder 在StarCoder的基础上微调15B超越gpt3.5
数学 MathGPT 是好未来自主研发的,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。
数学 MammoTH 通过COT+POT构建了MathInstruct数据集微调llama在OOD数据集上超越了WizardLM
数学 MetaMath 模型逆向思维解决数学问题,构建了新的MetaMathQA微调llama2
交通 TransGPT LLama-7B+34.6万领域预训练+5.8万条领域指令对话微调(来自文档问答)
交通 TrafficGPT ChatGPT+Prompt实现规划,调用交通流量领域专业TFM模型,TFM负责数据分析,任务执行,可视化等操
科技 Mozi 红睡衣预训练+论文QA数据集 + ChatGPT扩充科研对话数据
天文 StarGLM 天文知识指令微调,项目进行中后期考虑天文二次预训练+KG
写作 阅文-网文大模型介绍 签约作者内测中,主打的内容为打斗场景,剧情切换,环境描写,人设,世界观等辅助片段的生成
写作 MediaGPT LLama-7B扩充词表+指令微调,指令来自国内媒体专家给出的在新闻创作上的80个子任务
电商 EcomGPT 电商领域任务指令微调大模型,指令样本250万,基座模型是Bloomz
植物科学 PLLaMa 基于Llama使用植物科学领域学术论文继续预训练+sft扩展的领域模型
评估 Auto-J 上交开源了价值评估对齐13B模型
评估 JudgeLM 智源开源了 JudgeLM 的裁判模型,可以高效准确地评判各类大模型
评估 CritiqueLLM 智谱AI发布评分模型CritiqueLLM,支持含参考文本/无参考文本的评估打分