模型评测

榜单	结果
Arena Hard	Lmsys Org开源的大模型评估基准，与人类偏好排名有更高一致性
AlpacaEval 2.0：LLM-based automatic evaluation	开源模型王者vicuna,openchat, wizardlm
Huggingface Open LLM Leaderboard	MMLU只评估开源模型，Falcon夺冠，在Eleuther AI4个评估集上评估的LLM模型榜单,vicuna夺冠
https://opencompass.org.cn/	上海人工智能实验室推出的开源榜单
Berkley出品大模型排位赛榜有准中文榜单	Elo评分机制，GPT4自然是稳居第一，GPT4>Claude>GPT3.5>Vicuna>others
CMU开源聊天机器人评测应用	ChatGPT>Vicuna>others；在对话场景中训练可能很重要
Z-Bench中文真格基金评测	国产中文模型的编程可用性还相对较低，大家水平差不太多，两版ChatGLM提升明显
Chain-of-thought评估	GSM8k, MATH等复杂问题排行榜
InfoQ 大模型综合能力评估	面向中文，ChatGPT>文心一言> Claude>星火
ToolBench: 工具调用评估榜单	工具微调模型和ChatGPT进行对比，提供评测脚本
AgentBench: 推理决策评估榜单	清华联合多高校推出不同任务环境，例如购物，家居，操作系统等场景下模型推理决策能力
FlagEval	智源出品主观+客观LLM评分榜单
Bird-Bench	更贴合真实世界应用的超大数据库，需要领域知识的NL2SQL榜单，模型追赶人类尚有时日
kola	以世界知识为核心的评价基准，包括已知的百科知识和未知的近90天网络发布内容，评价知识记忆，理解，应用和创造能力
CEVAL	中文知识评估，覆盖52个学科，机器评价主要为多项选择
CMMLU	67个主题中文知识和推理能力评估，多项选择机器评估
LLMEval3	复旦推出的知识问答榜单，涵盖大学作业和考题，题库尽可能来自非互联网避免模型作弊
FinancelQ	度小满开源的金融多项选择评估数据集
SWE-bench	基于真实github问题和PR的模型编程能力评估
Awesome-MLLM	多模态大模型榜单
MTEB	向量模型榜单

国外开源模型

模型链接	模型描述
Phi-3-MINI-128K	还是质量>数量的训练逻辑，微软的3B小模型
LLama3	Open Meta带着可商用开源的羊驼3模型来了，重回王座~
WizardLM-2-8x22B	微软带着WizardLM-2也来了包括70B,7B 和8*22B
OpenSora	没等来OpenAI却等来了OpenSora这个梗不错哦
GROK	马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放
Gemma	谷歌商场开源模型2B，7B免费商用
Mixtral8*7B	法国“openai”开源基于MegaBlocks训练的MOE模型8*7B 32K
Mistral7B	法国“openai”开源Mistral，超过llama2当前最好7B模型
Idefics2	Hugging Face 推出 Idefics2 8B 多模态模型
Dolphin-2.2.1-Mistral-7B	基于Mistral7B使用dolphin数据集微调
Falcon	Falcon由阿联酋技术研究所在超高质量1万亿Token上训练得到1B，7B，40B开源，免费商用！土豪们表示钱什么的格局小了
Vicuna	Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型，提出了用GPT4来评测模型效果
OpenChat	80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机
Guanaco	LLama 7B基座，在alpaca52K数据上加入534K多语言指令数据微调
MPT	MosaicML开源的预训练+指令微调的新模型，可商用，支持84k tokens超长输入
RedPajama	RedPajama项目既开源预训练数据后开源3B，7B的预训练+指令微调模型
koala	使用alpaca，HC3等开源指令集+ ShareGPT等ChatGPT数据微调llama，在榜单上排名较高
ChatLLaMA	基于RLHF微调了LLaMA
Alpaca	斯坦福开源的使用52k数据在7B的LLaMA上微调得到，
Alpaca-lora	LORA微调的LLaMA
Dromedary	IBM self-aligned model with the LLaMA base
ColossalChat	HPC-AI Tech开源的Llama+RLHF微调
MiniGPT4	Vicuna+BLIP2 文本视觉融合
StackLLama	LLama使用Stackexchange数据+SFT+RL
Cerebras	Cerebras开源了1亿到130亿的7个模型，从预训练数据到参数全开源
Dolly-v2	可商用 7b指令微调开源模型在GPT-J-6B上微调
OpenChatKit	openai研究员打造GPT-NoX-20B微调+6B审核模型过滤
MetaLM	微软开源的大规模自监督预训练模型
Amazon Titan	亚马逊在aws上增加自家大模型
OPT-IML	Meta复刻GPT3，up to 175B, 不过效果并不及GPT3
Bloom	BigScience出品，规模最大176B
BloomZ	BigScience出品, 基于Bloom微调
Galacia	和Bloom相似，更针对科研领域训练的模型
T0	BigScience出品，3B~11B的在T5进行指令微调的模型
EXLLama	Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight
LongChat	llama-13b使用condensing rotary embedding technique微调的长文本模型
MPT-30B	MosaicML开源的在8Ktoken上训练的大模型

国内开源模型

模型链接	模型描述
Qwen 2.5	Qwen最新系列模型
Yuan2.0-M32	原2.0 M32MOE 大模型
DeepSeek-v2	深度求索最新发布的21B MOE超强大模型降低KV-cache推理更高效
Qwen1.5-MoE-A2.7B	Qwen推出MOE版本，推理更快
Qwen1.5	通义千问升级1.5，支持32K上文
Baichuan2	百川第二代也出第二个版本了，提供了7B/13B Base和chat的版本
ziya2	基于Llama2训练的ziya2它终于训练完了
InternLM2 7B+20B	商汤的书生模型2支持200K
InternLM-XComposer	最新多模态视觉大模型
Orion-14B-LongChat	猎户星空多语言模型支持320K
ChatGLM3	ChatGLM3发布，支持工具调用等更多功能，不过泛化性有待评估
Yuan-2.0	浪潮发布Yuan2.0 2B，51B，102B
YI-200K	元一智能开源超长200K的6B，34B模型
XVERSE-256K	元象发布13B免费商用大模型，虽然很长但是
LLama2-chinese	没等太久中文预训练微调后的llama2它来了~
YuLan-chat2	高瓴人工智能基于Llama-2中英双语继续预训练+指令微调/对话微调
BlueLM	Vivo人工智能实验室开源大模型
zephyr-7B	HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型
XWin-LM	llama2 + SFT + RLHF
Skywork	昆仑万维集团·天工团队开源13B大模型可商用
Chinese-LLaMA-Alpaca	哈工大中文指令微调的LLaMA
Moss	为复旦正名！开源了预训练，指令微调的全部数据和模型。可商用
InternLM	书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型
Aquila2	智源更新Aquila2模型系列包括全新34B
Aquila	智源开源7B大模型可商用免费
UltraLM系列	面壁智能开源UltraLM13B，奖励模型UltraRM，和批评模型UltraCM
PandaLLM	LLAMA2上中文wiki继续预训练+COIG指令微调
XVERSE	据说中文超越llama2的元象开源模型13B模型
BiLLa	LLama词表·扩充预训练+预训练和任务1比1混合SFT+指令样本SFT三阶段训练
Phoenix	港中文开源凤凰和奇美拉LLM，Bloom基座，40+语言支持
Wombat-7B	达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座
TigerBot	虎博开源了7B 180B的模型以及预训练和微调语料
Luotuo	中文指令微调的LLaMA，和ChatGLM
OpenBuddy	Llama 多语言对话微调模型
Chinese Vincuna	LLama 7B基座，使用Belle+Guanaco数据训练
Linly	Llama 7B基座，使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令微调数据集训练
Firefly	中文2.6B模型，提升模型中文写作，古文能力，待开源全部训练代码，当前只有模型
Baize	使用100k self-chat对话数据微调的LLama
BELLE	使用ChatGPT生成数据对开源模型进行中文优化
Chatyuan	chatgpt出来后最早的国内开源对话模型，T5架构是下面PromptCLUE的衍生模型
PromptCLUE	多任务Prompt语言模型
PLUG	阿里达摩院发布的大模型，提交申请会给下载链接
CPM2.0	智源发布CPM2.0
GLM	清华发布的中英双语130B预训练模型
BayLing	基于LLama7B/13B，增强的语言对齐的英语/中文大语言模型

开源文生图模型

模型	描述
FLUX	Stable difussion团队推出的开源AI生成模型
DeepFloyd IF	StabilityAI 推出的文生图模型
playground 2.5	跨国团队推出的
Kolors	快手可图大模型

开源多模态模型

模型	描述
Kosmos-2.5	微软推出的多模态擅长识别多文字、表格图片
LLAVA-1.5	升级后的LLAVA 13B模型浙大出品
MiniGPT-4	认知类任务评分最高
InternLM-XComposer	书生浦语·灵笔2，擅长自由图文理解
mPLUG-DocOwl	阿里出品面向文档理解的多模态模型

垂直领域模型&进展

领域	模型链接	模型描述
医疗	MedGPT	医联发布的
医疗	MedPalm	Google在Faln-PaLM的基础上通过多种类型的医疗QA数据进行prompt-tuning指令微调得到，同时构建了MultiMedQA
医疗	ChatDoctor	110K真实医患对话样本+5KChatGPT生成数据进行指令微调
医疗	Huatuo Med-ChatGLM	医学知识图谱和chatgpt构建中文医学指令数据集+医学文献和chatgpt构建多轮问答数据
医疗	Chinese-vicuna-med	Chinese-vicuna在cMedQA2数据上微调
医疗	OpenBioMed	清华AIR开源轻量版BioMedGPT, 知识图谱&20+生物研究领域多模态预训练模型
医疗	DoctorGLM	ChatDoctor+MedDialog+CMD 多轮对话+单轮指令样本微调GLM
医疗	MedicalGPT-zh	自建的医学数据库ChatGPT生成QA+16个情境下SELF构建情景对话
医疗	PMC-LLaMA	医疗论文微调Llama
医疗	PULSE	Bloom微调+继续预训练
医疗	NHS-LLM	Chatgpt生成的医疗问答，对话，微调模型
医疗	神农医疗大模型	以中医知识图谱的实体为中心生成的中医知识指令数据集11w+，微调LLama-7B
医疗	岐黄问道大模型	3个子模型构成，已确诊疾病的临床治疗模型+基于症状的临床诊疗模型+中医养生条理模型，看起来是要ToB落地
医疗	Zhongjing	基于Ziya-LLama+医疗预训练+SFT+RLHF的中文医学大模型
医疗	MeChat	心理咨询领域，通过chatgpt改写多轮对话56k
医疗	SoulChat	心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调 ChatGLM-6B
医疗	MindChat	MindChat-Baichuan-13B,Qwen-7B,MindChat-InternLM-7B使用不同基座在模型安全，共情，人类价值观对其上进行了强化
医疗	DISC-MedLLM	疾病知识图谱构建QA对+QA对转化成单论对话+真实世界数据重构+人类偏好数据筛选，SFT微调baichuan
法律	LawGPT-zh	利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答+我们根据中华人民共和国法律手册上最核心的9k法律条文，利用ChatGPT联想生成具体的情景问答+知识问答使用ChatGPT基于文本构建QA对
法律	LawGPT	基于llama+扩充词表二次预训练+基于法律条款构建QA指令微调
法律	Lawyer Llama	法律指令微调数据集：咨询+法律考试+对话进行指令微调
法律	LexiLaw	法律指令微调数据集：问答+书籍概念解释，法条内容进行指令微调
法律	ChatLaw	北大推出的法律大模型，应用形式很新颖类似频道内流一切功能皆融合在对话形式内
法律	录问模型	在baichuan基础上40G二次预训练+100K指令微调，在知识库构建上采用了Emb+意图+关键词联想结合的方案
金融	OpenGPT	领域LLM指令样本生成+微调框架
金融	乾元BigBang金融2亿模型	金融领域预训练+任务微调
金融	度小满千亿金融大模型	在Bloom-176B的基础上进行金融+中文预训练和微调
金融	聚宝盆	基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型
金融	PIXIU	整理了多个金融任务数据集加入了时间序列数据进行指令微调
金融	FinGPT	金融传统任务微调 or chatgpt生成金融工具调用
金融	CFGPT	金融预训练+指令微调+RAG等检索任务增强
金融	DISC-FinLLM	复旦发布多微调模型组合金融系统，包括金融知识问答,金融NLP任务，金融计算，金融检索问答
金融	InvestLM	CFA考试，SEC， StackExchange投资问题等构建的金融指令微调LLaMA-65+
金融	DeepMoney	基于yi-34b-200k使用金融研报进行微调
编程	Starcoder	80种编程语言+Issue+Commit训练得到的编程大模型
编程	ChatSQL	基于ChatGLM实现NL2sql
编程	codegeex	13B预训练+微调多语言变成大模型
编程	codegeex2	Chatglm2的基础上CodeGeeX2-6B 进一步经过了 600B 代码数据预训练
编程	stabelcode	560B token多语言预训练+ 120,000 个 Alpaca指令对齐
编程	SQLCoder	在StarCoder的基础上微调15B超越gpt3.5
数学	MathGPT	是好未来自主研发的，面向全球数学爱好者和科研机构，以解题和讲题算法为核心的大模型。
数学	MammoTH	通过COT+POT构建了MathInstruct数据集微调llama在OOD数据集上超越了WizardLM
数学	MetaMath	模型逆向思维解决数学问题，构建了新的MetaMathQA微调llama2
交通	TransGPT	LLama-7B+34.6万领域预训练+5.8万条领域指令对话微调（来自文档问答）
交通	TrafficGPT	ChatGPT+Prompt实现规划，调用交通流量领域专业TFM模型，TFM负责数据分析，任务执行，可视化等操
科技	Mozi	红睡衣预训练+论文QA数据集 + ChatGPT扩充科研对话数据
天文	StarGLM	天文知识指令微调，项目进行中后期考虑天文二次预训练+KG
写作	阅文-网文大模型介绍	签约作者内测中，主打的内容为打斗场景，剧情切换，环境描写，人设，世界观等辅助片段的生成
写作	MediaGPT	LLama-7B扩充词表+指令微调，指令来自国内媒体专家给出的在新闻创作上的80个子任务
电商	EcomGPT	电商领域任务指令微调大模型，指令样本250万，基座模型是Bloomz
植物科学	PLLaMa	基于Llama使用植物科学领域学术论文继续预训练+sft扩展的领域模型
评估	Auto-J	上交开源了价值评估对齐13B模型
评估	JudgeLM	智源开源了 JudgeLM 的裁判模型，可以高效准确地评判各类大模型
评估	CritiqueLLM	智谱AI发布评分模型CritiqueLLM,支持含参考文本/无参考文本的评估打分

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

开源模型.MD

开源模型.MD

模型评测

国外开源模型

国内开源模型

开源文生图模型

开源多模态模型

垂直领域模型&进展

Files

开源模型.MD

Latest commit

History

开源模型.MD

File metadata and controls

模型评测

国外开源模型

国内开源模型

开源文生图模型

开源多模态模型

垂直领域模型&进展