号称全球最强开源 AI 模型,DBRX 登场:1320 亿参数,语言理解、编程能力等均超 GPT-3.5
3 月 28 日消息,初创公司 Databricks 近日发布公告,推出了开源 AI 模型 DBRX,声称是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。

DBRX 采用 transformer 架构,包含 1320 亿参数,共 16 个专家网络组成,每次推理使用其中的 4 个专家网络,激活 360 亿参数。
Databricks 在公司博客文章中介绍,在语言理解、编程、数学和逻辑方面,对比 Meta 公司的 Llama 2-70B、法国 MixtralAI 公司的 Mixtral 以及马斯克旗下 xAI 开发的 Grok-1 等主流开源模型,DBRX 均优势胜出。

图 1:DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面的表现优于已有的开源模型。
在语言理解方面,DBRX 的分值为 73.7%,高于 GPT-3.5 的 70.0%、高于 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 以及 Grok-1 的 73.0%。
| 
 模型  | 
 DBRX Instruct  | 
 Mixtral Instruct  | 
 Mixtral Base  | 
 LLaMA2-70B Chat  | 
 LLaMA2-70B Base  | 
 Grok-11  | 
| 
 Open LLM Leaderboard2 (Avg of next 6 rows)  | 
 74.5%  | 
 72.7%  | 
 68.4%  | 
 62.4%  | 
 67.9%  | 
 —  | 
| 
 ARC-challenge 25-shot  | 
 68.9%  | 
 70.1%  | 
 66.4%  | 
 64.6%  | 
 67.3%  | 
 —  | 
| 
 HellaSwag 10-shot  | 
 89.0%  | 
 87.6%  | 
 86.5%  | 
 85.9%  | 
 87.3%  | 
 —  | 
| 
 MMLU 5-shot  | 
 73.7%  | 
 71.4%  | 
 71.9%  | 
 63.9%  | 
 69.8%  | 
 73.0%  | 
| 
 Truthful QA 0-shot  | 
 66.9%  | 
 65.0%  | 
 46.8%  | 
 52.8%  | 
 44.9%  | 
 —  | 
| 
 WinoGrande 5-shot  | 
 81.8%  | 
 81.1%  | 
 81.7%  | 
 80.5%  | 
 83.7%  | 
 —  | 
| 
 GSM8k CoT 5-shot maj@13  | 
 66.9%  | 
 61.1%  | 
 57.6%  | 
 26.7%  | 
 54.1%  | 
 62.9% (8-shot)  | 
| 
 Gauntlet v0.34 (Avg of 30+ diverse tasks)  | 
 66.8%  | 
 60.7%  | 
 56.8%  | 
 52.8%  | 
 56.4%  | 
 —  | 
| 
 HumanEval5 0-Shot, pass@1 (Programming)  | 
 70.1%  | 
 54.8%  | 
 40.2%  | 
 32.2%  | 
 31.0%  | 
 63.2%  | 
在编程能力方面,DBRX 的得分为 70.1%,远超 GPT-3.5 的 48.1%,高于 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 以及 Grok-1 的 63.2%。
| 
 Model  | 
 DBRX  | 
 GPT-3.57  | 
 GPT-48  | 
 Claude 3 Haiku  | 
 Claude 3 Sonnet  | 
 Claude 3 Opus  | 
 Gemini 1.0 Pro  | 
 Gemini 1.5 Pro  | 
 Mistral Medium  | 
 Mistral Large  | 
| 
 MT Bench (Inflection corrected, n=5)  | 
 8.39 ± 0.08  | 
 —  | 
 —  | 
 8.41 ± 0.04  | 
 8.54 ± 0.09  | 
 9.03 ± 0.06  | 
 8.23 ± 0.08  | 
 —  | 
 8.05 ± 0.12  | 
 8.90 ± 0.06  | 
| 
 MMLU 5-shot  | 
 73.7%  | 
 70.0%  | 
 86.4%  | 
 75.2%  | 
 79.0%  | 
 86.8%  | 
 71.8%  | 
 81.9%  | 
 75.3%  | 
 81.2%  | 
| 
 HellaSwag 10-shot  | 
 89.0%  | 
 85.5%  | 
 95.3%  | 
 85.9%  | 
 89.0%  | 
 95.4%  | 
 84.7%  | 
 92.5%  | 
 88.0%  | 
 89.2%  | 
| 
 HumanEval 0-Shot  | 
 70.1% temp=0, N=1  | 
 48.1%  | 
 67.0%  | 
 75.9%  | 
 73.0%  | 
 84.9%  | 
 67.7%  | 
 71.9%  | 
 38.4%  | 
 45.1%  | 
| 
 GSM8k CoT maj@1  | 
 72.8% (5-shot)  | 
 57.1% (5-shot)  | 
 92.0% (5-shot)  | 
 88.9%  | 
 92.3%  | 
 95.0%  | 
 86.5% (maj1@32)  | 
 91.7% (11-shot)  | 
 81.0% (5-shot)  | 
|
| 
 WinoGrande 5-shot  | 
 81.8%  | 
 81.6%  | 
 87.5%  | 
 —  | 
 —  | 
 —  | 
 —  | 
 —  | 
 88.0%  | 
 86.7%  | 
在数学方面,DBRX 的得分为 66.9%,高于 GPT-3.5 的 57.1%,也高于 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%。

Databricks 介绍,DBRX 是一个基于 MegaBlocks 研究和开源项目构建的混合专家模型 (MoE),因此每秒输出 token 的速度极快。Databricks 相信,这将为 MoE 未来最先进的开源模型铺平道路。
参考地址
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
 - 和谐社区,和谐点评。
 
                
                AI 中文社