DBRX达1320亿参数，最强开源模型易主

2024-04-02 09:31

Ai芯天下

关注

前言：

DBRX的诞生标志着全球范围内开源人工智能语言模型技术的最新巅峰，并预示着人工智能技术的发展已正式进入全新阶段。

该模型通过深度学习技术和大规模训练数据的结合，不仅在自然语言处理领域表现出色，更在程序代码解析与生成、复杂数学计算以及逻辑推理等多个领域展现了前所未有的卓越能力。

作者 | 方文三

图片来源 | 网络

全球最强开源大模型王座易主

近期，全球开源大模型领域迎来了重大变革，创业公司Databricks推出的新型开源模型DBRX在技术层面已超越先前的领军者Llama 2、Mixtral和Grok-1，荣登全球最强开源大模型之巅。

这一突破性的成就，无疑为开源模型领域树立了新的里程碑。

值得注意的是，DBRX在训练成本上实现了显著降低。Databricks公司仅投入1000万美元及3100块H100芯片，便高效地在两个月内完成了DBRX的训练。

相较于Meta开发Llama2所需的庞大投入，这一成本展示了Databricks公司在技术效率与成本控制上的卓越能力。

在性能表现方面，DBRX同样展现出了强大的实力。无论是在语言理解、编程、数学还是逻辑领域，DBRX均轻松超越了开源模型LLaMA2-70B、Mixtral和Grok-1。

更值得一提的是，DBRX的整体性能甚至超越了GPT-3.5，尤其在编程方面，DBRX展现出了超越GPT-3.5的卓越性能。

DBRX大模型，使用MoE架构

Databricks公司最近推出了开源模型DBRX，其参数规模高达1320亿。

这款模型采用了先进的细粒度MoE架构，每次输入仅需使用360亿参数，显著提升了每秒token吞吐量。

DBRX通过细粒度专家混合（MoE）架构，拥有更多的专家模型，从而在推理速度上大幅超越了LLaMA 2-70B，实现了两倍的提升。

DBRX是一款基于Transformer纯解码器的大模型，同样采用下一token预测进行训练。

在MoE中，模型的某些部分会根据查询内容启动，有效提高了模型的训练和运行效率。

相较于其他开源MoE模型如Mixtral和Grok-1，DBRX采用了细粒度设计，使用更多数量的小型专家。

DBRX拥有16个专家模型，每次选择4个使用，而Mixtral和Grok-1则分别拥有8个专家模型，每次选择2个。

这种设计使得DBRX提供了65倍可能的专家组合，极大地提高了模型质量。

此外，DBRX还采用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)等技术，以提高模型质量。同时，DBRX还使用了tiktoken存储库中提供的GPT-4分词器。

在方法层面，DBRX模型（包括预训练数据、模型架构和优化策略）与上一代的MPT模型相当，但计算效率提高了近4倍。

三大核心能力表现突出

①经过综合评估，DBRX的“微调版”Instruct在多个基准测试中表现卓越。

在Hugging Face Open LLM Leaderboard这一复合基准测试中，DBRX Instruct以74.5%的得分荣登榜首，显著领先于第二名Mixtral Instruct的72.7%。

同时，在Databricks Model Gauntlet这一包含超过30项任务、横跨六个领域的评估套件中，DBRX Instruct同样以66.8%的得分拔得头筹，较第二名Mixtral Instruct的60.7%有着明显优势。

②DBRX Instruct在编程和数学相关任务上展现出了尤为突出的能力。

在HumanEval这一评估代码质量的任务中，其正确率达到了70.1%，比Grok-1高出约7个百分点，比Mixtral Instruct高出约8个百分点，并超越了所有被评估的LLaMA2-70B变体。

在GSM8k数学问题解决测试中，DBRX Instruct同样取得了最优成绩66.9%，超过了Grok-1、Mixtral Instruct以及其他LLaMA2-70B变体。

值得注意的是，尽管Grok-1的参数数量是DBRX Instruct的2.4倍，但在上述编程和数学任务上，DBRX Instruct仍能保持领先地位。

甚至在针对编程任务专门设计的CodeLLaMA-70B Instruct模型之上，DBRX Instruct在HumanEval上的表现依然出色。

③DBRX Instruct在多语言理解能力方面也表现出色。

在大规模多任务语言理解数据集（MMLU）上，DBRX Instruct继续展示出顶级性能，得分高达73.7%，超过了本次比较的所有其他模型。

综上所述，DBRX的“微调版”Instruct在多个基准测试中均表现出色，尤其在编程、数学和多语言理解方面展现出了卓越的能力。

Databricks再次搅局，力争市场破局

Databricks，源于加州大学伯克利分校的AMPLab项目，专注于研发基于Scala的开源分布式计算框架Apache Spark，并首创了“湖仓一体”（data Lakehouse）的概念。

2023年3月，该公司紧跟ChatGPT热潮，推出了开源语言模型dolly，并在后续2.0版本中提出了“首个真正开放和商业可行的指令调优LLM（大模型）”的口号，这标志着Databricks的“第二次行业革新”。

值得一提的是，Jonathan Frankle，曾是生成式AI初创公司MosaicML的首席科学家。

而Databricks在2023年6月以14亿美元成功收购了MosaicML，这一举措促使Frankle辞去了哈佛大学教授的职务，全身心投入到DBRX的研发中。

就在前些日子，马斯克宣布了史上最大的开源模型Grok-1的诞生，这一事件无疑引起了业界的广泛关注。

Databricks之所以能在竞争中脱颖而出，其关键在于公司的技术整合能力和专有数据。

这两项核心优势将继续推动新的、更优秀的模型变体的诞生。

DBRX团队拥有16名专家，并从中选择了4名进行模型开发，而Mixtral和Grok-1团队各有8名专家，选择了2名。

这种选择为DBRX提供了超过65倍的专家组合可能性，从而显著提高了模型质量。

DBRX在模型开发中采用了旋转位置编码（RoPE）、门控线性单元（GLU）和分组查询注意力（GQA）等技术，并使用了tiktoken存储库中提供的GPT-4令牌化器（tokenizer）。

这些决策都是团队经过深入评估和缩放实验后作出的明智选择。

透露下一步有关开源模型的计划

①即将推出RAG工具，这一模式对于其发展具有重大意义。同时，Databricks中已经内置了简洁高效的RAG方法。

接下来，将致力于将DBRX模型打造成为RAG的最佳生成器模型，为用户提供更为强大的支持。

②DBRX模型将在所有主流云环境产品，包括AWS、谷歌云（GCP）和Azure等平台上进行托管。

作为一款开源模型，鼓励用户根据自身需求自由地使用它，以推动业务的发展和创新。

③DBRX模型预计将通过Nvidia API Catalog进行提供，并在Nvidia NIM推理微服务上获得支持。

这将为用户带来更加稳定和高效的推理体验，进一步推动业务的增长和拓展。

让大模型厂商看到了变现的路径

Databricks专注于协助企业构建、训练和扩展符合其特定需求的模型，此举具有深远意义。

这支独角兽团队高度重视企业的采纳情况，因为这直接关系到他们的商业模式。

作为LLM发布计划的一部分，Databricks以开放许可证的形式推出了两个模型：DBRX Base和DBRX Instruct。

DBRX Base是一个预训练的基础模型，而DBRX Instruct则是针对少量交互的微调版本。

值得一提的是，DBRX得到了Azure数据库在AWS、Google Cloud和Microsoft Azure上的支持，这意味着企业可以轻松地下载模型并在任何他们选择的图形处理器(GPU)上运行。

此外，企业还可以选择订阅DBRX和其他工具，如检索增强生成(RAG)，通过Databricks的Mosaic AI Model服务产品定制LLM。

Mosaic AI Model服务通过Foundation Model APIs与DBRX相连，使企业能够从服务端点访问和查询LLMs。这一功能为企业提供了更强大的定制能力和灵活性。

Foundation Model APIs提供两种定价模式：按Tokens付费和分配的吞吐量。

按Tokens付费的定价是基于并发请求，而吞吐量则是按每小时每个GPU实例计费。

两种费率，包括云实例成本，均从每个Databricks单位$0.070开始。

同时，Databricks还为不同的GPU配置提供了相应的定价区间，以满足企业在不同场景下的计算需求。

通过稳健的商业模式和开源大模型的结合，这也为企业提供了进入AIGC领域的门票。

通过使用我们的平台，企业不仅可以降低使用自身企业数据开发生成性AI用例的成本，而且不会受到封闭模型提供商（如OpenAI）对商业用途的限制。

结尾：

随着2024年AI大模型的迅猛进步，创新与突破呈现出指数级增长。

例如，OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相继发布并开放使用。

随着LLM社区的逐渐成熟，我们有理由相信，在不久的将来，每个企业都将有能力在新兴的生成式AI领域构建专有的私有LLM模型，并充分发掘和利用企业私有数据的价值。

部分资料参考：机器之心：《开源大模型王座再易主，1320亿参数DBRX上线》，新智元：《全球最强开源模型一夜易主，1320亿参数推理飙升2倍》，CSDN：《Databricks 开源 1320 亿参数大模型强势搅局，Grok 和 LLaMA 悉数落败》，编程奇点：《马斯克刚开源10天的Grok遭吊打，1320亿参数DBRX上线》，开源AI项目落地：《DBRX：全球最强开源大模型易主》

原文标题 : AI芯天下丨热点丨DBRX达1320亿参数，最强开源模型易主