榜单 | 结果 |
---|---|
Arena Hard | Lmsys Org开源的大模型评估基准,与人类偏好排名有更高一致性 |
AlpacaEval 2.0:LLM-based automatic evaluation | 开源模型王者vicuna,openchat, wizardlm |
Huggingface Open LLM Leaderboard | MMLU只评估开源模型,Falcon夺冠,在Eleuther AI4个评估集上评估的LLM模型榜单,vicuna夺冠 |
https://opencompass.org.cn/ | 上海人工智能实验室推出的开源榜单 |
Berkley出品大模型排位赛榜有准中文榜单 | Elo评分机制,GPT4自然是稳居第一,GPT4>Claude>GPT3.5>Vicuna>others |
CMU开源聊天机器人评测应用 | ChatGPT>Vicuna>others;在对话场景中训练可能很重要 |
Z-Bench中文真格基金评测 | 国产中文模型的编程可用性还相对较低,大家水平差不太多,两版ChatGLM提升明显 |
Chain-of-thought评估 | GSM8k, MATH等复杂问题排行榜 |
InfoQ 大模型综合能力评估 | 面向中文,ChatGPT>文心一言> Claude>星火 |
ToolBench: 工具调用评估榜单 | 工具微调模型和ChatGPT进行对比,提供评测脚本 |
AgentBench: 推理决策评估榜单 | 清华联合多高校推出不同任务环境,例如购物,家居,操作系统等场景下模型推理决策能力 |
FlagEval | 智源出品主观+客观LLM评分榜单 |
Bird-Bench | 更贴合真实世界应用的超大数据库,需要领域知识的NL2SQL榜单,模型追赶人类尚有时日 |
kola | 以世界知识为核心的评价基准,包括已知的百科知识和未知的近90天网络发布内容,评价知识记忆,理解,应用和创造能力 |
CEVAL | 中文知识评估,覆盖52个学科,机器评价主要为多项选择 |
CMMLU | 67个主题中文知识和推理能力评估,多项选择机器评估 |
LLMEval3 | 复旦推出的知识问答榜单,涵盖大学作业和考题,题库尽可能来自非互联网避免模型作弊 |
FinancelQ | 度小满开源的金融多项选择评估数据集 |
SWE-bench | 基于真实github问题和PR的模型编程能力评估 |
Awesome-MLLM | 多模态大模型榜单 |
MTEB | 向量模型榜单 |
模型链接 | 模型描述 |
---|---|
Phi-3-MINI-128K | 还是质量>数量的训练逻辑,微软的3B小模型 |
LLama3 | Open Meta带着可商用开源的羊驼3模型来了,重回王座~ |
WizardLM-2-8x22B | 微软带着WizardLM-2也来了包括70B,7B 和8*22B |
OpenSora | 没等来OpenAI却等来了OpenSora这个梗不错哦 |
GROK | 马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放 |
Gemma | 谷歌商场开源模型2B,7B免费商用 |
Mixtral8*7B | 法国“openai”开源基于MegaBlocks训练的MOE模型8*7B 32K |
Mistral7B | 法国“openai”开源Mistral,超过llama2当前最好7B模型 |
Idefics2 | Hugging Face 推出 Idefics2 8B 多模态模型 |
Dolphin-2.2.1-Mistral-7B | 基于Mistral7B使用dolphin数据集微调 |
Falcon | Falcon由阿联酋技术研究所在超高质量1万亿Token上训练得到1B,7B,40B开源,免费商用!土豪们表示钱什么的格局小了 |
Vicuna | Alpaca前成员等开源以LLama13B为基础使用ShareGPT指令微调的模型,提出了用GPT4来评测模型效果 |
OpenChat | 80k ShareGPT对话微调LLama-2 13B开源模型中的战斗机 |
Guanaco | LLama 7B基座,在alpaca52K数据上加入534K多语言指令数据微调 |
MPT | MosaicML开源的预训练+指令微调的新模型,可商用,支持84k tokens超长输入 |
RedPajama | RedPajama项目既开源预训练数据后开源3B,7B的预训练+指令微调模型 |
koala | 使用alpaca,HC3等开源指令集+ ShareGPT等ChatGPT数据微调llama,在榜单上排名较高 |
ChatLLaMA | 基于RLHF微调了LLaMA |
Alpaca | 斯坦福开源的使用52k数据在7B的LLaMA上微调得到, |
Alpaca-lora | LORA微调的LLaMA |
Dromedary | IBM self-aligned model with the LLaMA base |
ColossalChat | HPC-AI Tech开源的Llama+RLHF微调 |
MiniGPT4 | Vicuna+BLIP2 文本视觉融合 |
StackLLama | LLama使用Stackexchange数据+SFT+RL |
Cerebras | Cerebras开源了1亿到130亿的7个模型,从预训练数据到参数全开源 |
Dolly-v2 | 可商用 7b指令微调开源模型在GPT-J-6B上微调 |
OpenChatKit | openai研究员打造GPT-NoX-20B微调+6B审核模型过滤 |
MetaLM | 微软开源的大规模自监督预训练模型 |
Amazon Titan | 亚马逊在aws上增加自家大模型 |
OPT-IML | Meta复刻GPT3,up to 175B, 不过效果并不及GPT3 |
Bloom | BigScience出品,规模最大176B |
BloomZ | BigScience出品, 基于Bloom微调 |
Galacia | 和Bloom相似,更针对科研领域训练的模型 |
T0 | BigScience出品,3B~11B的在T5进行指令微调的模型 |
EXLLama | Python/C++/CUDA implementation of Llama for use with 4-bit GPTQ weight |
LongChat | llama-13b使用condensing rotary embedding technique微调的长文本模型 |
MPT-30B | MosaicML开源的在8Ktoken上训练的大模型 |
模型链接 | 模型描述 |
---|---|
Qwen 2.5 | Qwen最新系列模型 |
Yuan2.0-M32 | 原2.0 M32MOE 大模型 |
DeepSeek-v2 | 深度求索最新发布的21B MOE超强大模型降低KV-cache推理更高效 |
Qwen1.5-MoE-A2.7B | Qwen推出MOE版本,推理更快 |
Qwen1.5 | 通义千问升级1.5,支持32K上文 |
Baichuan2 | 百川第二代也出第二个版本了,提供了7B/13B Base和chat的版本 |
ziya2 | 基于Llama2训练的ziya2它终于训练完了 |
InternLM2 7B+20B | 商汤的书生模型2支持200K |
InternLM-XComposer | 最新多模态视觉大模型 |
Orion-14B-LongChat | 猎户星空多语言模型支持320K |
ChatGLM3 | ChatGLM3发布,支持工具调用等更多功能,不过泛化性有待评估 |
Yuan-2.0 | 浪潮发布Yuan2.0 2B,51B,102B |
YI-200K | 元一智能开源超长200K的6B,34B模型 |
XVERSE-256K | 元象发布13B免费商用大模型,虽然很长但是 |
LLama2-chinese | 没等太久中文预训练微调后的llama2它来了~ |
YuLan-chat2 | 高瓴人工智能基于Llama-2中英双语继续预训练+指令微调/对话微调 |
BlueLM | Vivo人工智能实验室开源大模型 |
zephyr-7B | HuggingFace 团队基于 UltraChat 和 UltraFeedback 训练了 Zephyr-7B 模型 |
XWin-LM | llama2 + SFT + RLHF |
Skywork | 昆仑万维集团·天工团队开源13B大模型可商用 |
Chinese-LLaMA-Alpaca | 哈工大中文指令微调的LLaMA |
Moss | 为复旦正名!开源了预训练,指令微调的全部数据和模型。可商用 |
InternLM | 书生浦语在过万亿 token 数据上训练的多语千亿参数基座模型 |
Aquila2 | 智源更新Aquila2模型系列包括全新34B |
Aquila | 智源开源7B大模型可商用免费 |
UltraLM系列 | 面壁智能开源UltraLM13B,奖励模型UltraRM,和批评模型UltraCM |
PandaLLM | LLAMA2上中文wiki继续预训练+COIG指令微调 |
XVERSE | 据说中文超越llama2的元象开源模型13B模型 |
BiLLa | LLama词表·扩充预训练+预训练和任务1比1混合SFT+指令样本SFT三阶段训练 |
Phoenix | 港中文开源凤凰和奇美拉LLM,Bloom基座,40+语言支持 |
Wombat-7B | 达摩院开源无需强化学习使用RRHF对齐的语言模型, alpaca基座 |
TigerBot | 虎博开源了7B 180B的模型以及预训练和微调语料 |
Luotuo | 中文指令微调的LLaMA,和ChatGLM |
OpenBuddy | Llama 多语言对话微调模型 |
Chinese Vincuna | LLama 7B基座,使用Belle+Guanaco数据训练 |
Linly | Llama 7B基座,使用belle+guanaco+pclue+firefly+CSL+newscommentary等7个指令微调数据集训练 |
Firefly | 中文2.6B模型,提升模型中文写作,古文能力,待开源全部训练代码,当前只有模型 |
Baize | 使用100k self-chat对话数据微调的LLama |
BELLE | 使用ChatGPT生成数据对开源模型进行中文优化 |
Chatyuan | chatgpt出来后最早的国内开源对话模型,T5架构是下面PromptCLUE的衍生模型 |
PromptCLUE | 多任务Prompt语言模型 |
PLUG | 阿里达摩院发布的大模型,提交申请会给下载链接 |
CPM2.0 | 智源发布CPM2.0 |
GLM | 清华发布的中英双语130B预训练模型 |
BayLing | 基于LLama7B/13B,增强的语言对齐的英语/中文大语言模型 |
模型 | 描述 |
---|---|
FLUX | Stable difussion团队推出的开源AI生成模型 |
DeepFloyd IF | StabilityAI 推出的文生图模型 |
playground 2.5 | 跨国团队推出的 |
Kolors | 快手可图大模型 |
模型 | 描述 |
---|---|
Kosmos-2.5 | 微软推出的多模态擅长识别多文字、表格图片 |
LLAVA-1.5 | 升级后的LLAVA 13B模型浙大出品 |
MiniGPT-4 | 认知类任务评分最高 |
InternLM-XComposer | 书生浦语·灵笔2,擅长自由图文理解 |
mPLUG-DocOwl | 阿里出品面向文档理解的多模态模型 |
领域 | 模型链接 | 模型描述 |
---|---|---|
医疗 | MedGPT | 医联发布的 |
医疗 | MedPalm | Google在Faln-PaLM的基础上通过多种类型的医疗QA数据进行prompt-tuning指令微调得到,同时构建了MultiMedQA |
医疗 | ChatDoctor | 110K真实医患对话样本+5KChatGPT生成数据进行指令微调 |
医疗 | Huatuo Med-ChatGLM | 医学知识图谱和chatgpt构建中文医学指令数据集+医学文献和chatgpt构建多轮问答数据 |
医疗 | Chinese-vicuna-med | Chinese-vicuna在cMedQA2数据上微调 |
医疗 | OpenBioMed | 清华AIR开源轻量版BioMedGPT, 知识图谱&20+生物研究领域多模态预训练模型 |
医疗 | DoctorGLM | ChatDoctor+MedDialog+CMD 多轮对话+单轮指令样本微调GLM |
医疗 | MedicalGPT-zh | 自建的医学数据库ChatGPT生成QA+16个情境下SELF构建情景对话 |
医疗 | PMC-LLaMA | 医疗论文微调Llama |
医疗 | PULSE | Bloom微调+继续预训练 |
医疗 | NHS-LLM | Chatgpt生成的医疗问答,对话,微调模型 |
医疗 | 神农医疗大模型 | 以中医知识图谱的实体为中心生成的中医知识指令数据集11w+,微调LLama-7B |
医疗 | 岐黄问道大模型 | 3个子模型构成,已确诊疾病的临床治疗模型+基于症状的临床诊疗模型+中医养生条理模型,看起来是要ToB落地 |
医疗 | Zhongjing | 基于Ziya-LLama+医疗预训练+SFT+RLHF的中文医学大模型 |
医疗 | MeChat | 心理咨询领域,通过chatgpt改写多轮对话56k |
医疗 | SoulChat | 心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调 ChatGLM-6B |
医疗 | MindChat | MindChat-Baichuan-13B,Qwen-7B,MindChat-InternLM-7B使用不同基座在模型安全,共情,人类价值观对其上进行了强化 |
医疗 | DISC-MedLLM | 疾病知识图谱构建QA对+QA对转化成单论对话+真实世界数据重构+人类偏好数据筛选,SFT微调baichuan |
法律 | LawGPT-zh | 利用ChatGPT清洗CrimeKgAssitant数据集得到52k单轮问答+我们根据中华人民共和国法律手册上最核心的9k法律条文,利用ChatGPT联想生成具体的情景问答+知识问答使用ChatGPT基于文本构建QA对 |
法律 | LawGPT | 基于llama+扩充词表二次预训练+基于法律条款构建QA指令微调 |
法律 | Lawyer Llama | 法律指令微调数据集:咨询+法律考试+对话进行指令微调 |
法律 | LexiLaw | 法律指令微调数据集:问答+书籍概念解释,法条内容进行指令微调 |
法律 | ChatLaw | 北大推出的法律大模型,应用形式很新颖类似频道内流一切功能皆融合在对话形式内 |
法律 | 录问模型 | 在baichuan基础上40G二次预训练+100K指令微调,在知识库构建上采用了Emb+意图+关键词联想结合的方案 |
金融 | OpenGPT | 领域LLM指令样本生成+微调框架 |
金融 | 乾元BigBang金融2亿模型 | 金融领域预训练+任务微调 |
金融 | 度小满千亿金融大模型 | 在Bloom-176B的基础上进行金融+中文预训练和微调 |
金融 | 聚宝盆 | 基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型 |
金融 | PIXIU | 整理了多个金融任务数据集加入了时间序列数据进行指令微调 |
金融 | FinGPT | 金融传统任务微调 or chatgpt生成金融工具调用 |
金融 | CFGPT | 金融预训练+指令微调+RAG等检索任务增强 |
金融 | DISC-FinLLM | 复旦发布多微调模型组合金融系统,包括金融知识问答,金融NLP任务,金融计算,金融检索问答 |
金融 | InvestLM | CFA考试,SEC, StackExchange投资问题等构建的金融指令微调LLaMA-65+ |
金融 | DeepMoney | 基于yi-34b-200k使用金融研报进行微调 |
编程 | Starcoder | 80种编程语言+Issue+Commit训练得到的编程大模型 |
编程 | ChatSQL | 基于ChatGLM实现NL2sql |
编程 | codegeex | 13B预训练+微调多语言变成大模型 |
编程 | codegeex2 | Chatglm2的基础上CodeGeeX2-6B 进一步经过了 600B 代码数据预训练 |
编程 | stabelcode | 560B token多语言预训练+ 120,000 个 Alpaca指令对齐 |
编程 | SQLCoder | 在StarCoder的基础上微调15B超越gpt3.5 |
数学 | MathGPT | 是好未来自主研发的,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。 |
数学 | MammoTH | 通过COT+POT构建了MathInstruct数据集微调llama在OOD数据集上超越了WizardLM |
数学 | MetaMath | 模型逆向思维解决数学问题,构建了新的MetaMathQA微调llama2 |
交通 | TransGPT | LLama-7B+34.6万领域预训练+5.8万条领域指令对话微调(来自文档问答) |
交通 | TrafficGPT | ChatGPT+Prompt实现规划,调用交通流量领域专业TFM模型,TFM负责数据分析,任务执行,可视化等操 |
科技 | Mozi | 红睡衣预训练+论文QA数据集 + ChatGPT扩充科研对话数据 |
天文 | StarGLM | 天文知识指令微调,项目进行中后期考虑天文二次预训练+KG |
写作 | 阅文-网文大模型介绍 | 签约作者内测中,主打的内容为打斗场景,剧情切换,环境描写,人设,世界观等辅助片段的生成 |
写作 | MediaGPT | LLama-7B扩充词表+指令微调,指令来自国内媒体专家给出的在新闻创作上的80个子任务 |
电商 | EcomGPT | 电商领域任务指令微调大模型,指令样本250万,基座模型是Bloomz |
植物科学 | PLLaMa | 基于Llama使用植物科学领域学术论文继续预训练+sft扩展的领域模型 |
评估 | Auto-J | 上交开源了价值评估对齐13B模型 |
评估 | JudgeLM | 智源开源了 JudgeLM 的裁判模型,可以高效准确地评判各类大模型 |
评估 | CritiqueLLM | 智谱AI发布评分模型CritiqueLLM,支持含参考文本/无参考文本的评估打分 |