20 亿美元估值巅峰，「欧洲版 OpenAI」如何成为 GPT 最强对手？

2024.01.25

分享至

TechFlow Selected 深潮精选

20 亿美元估值巅峰，「欧洲版 OpenAI」如何成为 GPT 最强对手？

‍‍Mistral AI 的崛起，为整个行业带来了更多的创新与突破。

2024.01.25 - 02:07:02

专注Web3行业深度报道，洞察潮水流动的方向

‍‍Mistral AI 的崛起，为整个行业带来了更多的创新与突破。

撰文：MetaverseHub

「ChatGPT 像互联网发明一样重要，将会改变世界。」比尔·盖茨对于大模型的预判似乎正在一步步成为现实。

在过去的一年里，OpenAI 在 AI（人工智能）领域独领风骚，无论是 ChatGPT 的普及，还是其内部的风波，都成为了业界的焦点。

然而，随着 Mistral AI 的崛起，这一格局正在经历前所未有的变革。

作为 OpenAI 的强劲对手，Mistral AI 在技术和产品层面均展现出令人瞩目的突破，已然成为 AI 领域的一颗耀眼明星，被称作「欧洲版 OpenAI」。

与 OpenAI 相比，Mistral AI 更加注重技术的实际应用，致力于将最先进的 AI 技术应用于解决实际问题。

在融资方面，Mistral AI 在成立之初便获得了 1.13 亿美元的种子轮融资，并吸引了多家著名投资机构，如 Lightspeed Venture Partners、Salesforce 和法国巴黎银行等。

在短短几个月内，该公司又完成了 4.15 亿美元的 A 轮融资，估值高达 20 亿美元。这一融资规模在 AI 初创公司中极为罕见，不仅证明了资本市场对 Mistral AI 的高度认可和期待，也为其未来的发展提供了强大的资金支持。

Mistral AI 的崛起，不仅对 OpenAI 构成了挑战，更为整个 AI 领域注入了新的活力，为整个行业带来了更多的创新与突破。

01.引领人工智能革命的创新力量

Mistral AI 全名为 Mistral Artificial Intelligence，是一家专注于 AI 研发和应用的公司，尤其是用于构建在线聊天机器人、搜索引擎和其他 AI 驱动产品的技术。

自成立以来，Mistral AI 一直坚持以人为本，他们希望通过开发更加智能、更加人性化的 AI 系统，改善人们的生活和工作方式，为人类带来更多的便利和福祉，致力于利用先进的 AI 技术为各行各业提供高效、智能的解决方案。

尽管只是一家初创企业，但 Mistral AI 的创始人团队个个来头不小。

其中，Arthur Mensch 曾担任谷歌人工智能公司 DeepMind 的研究员，Timothée Lacroix 和 Guillaume Lample 则分别在 Meta 公司担任与该技术相关的职位。

曾经的工作经历让他们对多模态、RAG、算法优化等技术有着深刻理解，并在模型推理、预训练和模型嵌入等领域有着深入研究。

Mistral AI 官网上的这段话充分展现了 Mistral AI 的野心：「我们的使命是推动 AI 向前发展，为开放社区和我们的企业客户服务。我们致力于通过开发与专有解决方案不相上下的开放式重量模型来推动 AI 革命。」

尽管 Mistral AI 目前只是小型创意团队，但他们始终坚持高科学标准，并通过突破性的创新来开发高效、有用和值得信赖的 AI 模型。这或许正是 Mistral AI 备受青睐的原因之一。

02.大语言模型的重大飞跃

Mistral AI 最备受瞩目的产品无疑是 Mixtral 8x7B，这是目前市场上最具竞争力的开放式大型模型之一，拥有多项特别的功能，性能明显领先于其它大模型。

Mixtral 8x7B 的核心在于其创新性十足的 MoE（Mixture of Experts）架构，MoE 架构通过一个网关网络，将输入数据分配给被称为「专家」的特定神经网络组件。在 Mixtral 8x7B 中，共有八个这样的专家，每个都有着高达 70 亿的模型参数。

尽管配备了八个「专家」，但在实际运算时每个数据处理仅需两个「专家」参与。这种数据资源分配算法，极大地在保持模型性能的同时，优化了处理速度，同时保持了模型性能。

在培训和微调方面，Mixtral AI 使用多语言数据进行预训练，包括英语、法语、意大利语、德语和西班牙语。Instruct 模型使用监督微调和直接偏好优化（DPO）进行训练，在 MT-Bench 等基准测试中取得了高分。

在对 Mixtral 8x7B 进行深入研究时，Mistral AI 也十分注重对其部分功能进行微调，特别是针对那些能够跟随指令操作的版本，使得模型朝着更加精细化和个性化的方向发展。

除了自身的超强性能以外，Mixtral 8x7B 广受好评的另一个重要原因是它所代表的开放性。

Mistral AI 在发布这一大模型时便直接公开了这个模型的权重数据，这种策略在吸引 AI 社区的注意力方面非常有效，同时确保了学术和商业用途的广泛可访问性。Mixtral AI 的开放性鼓励着多样化应用的出现，有可能在大模型和语言理解方面带来新的突破。

Mixtral 8x7B 的创新方法和卓越性能使其成为大模型领域的行业标杆，尽管已经取得如此成就，Mixtral AI 也从未停下前进的步伐，依然在积极优化这一模型的相关性能。

03.Mistral AI 的里程碑式发展

Mixtral 8x7B 的诞生标志着 AI 技术的一个重要突破，尤其是在模型结构和效率上的创新，那么和一众大模型比起来它又表现如何？

能否超越巨头？

自 ChatGPT 问世以来，OpenAI 一直被视为大语言模型的黄金标准。然而，Mistral AI 通过引入一个完全开源的开放权重模型，在广泛的基准测试中表现出卓越的性能，甚至在部分表现上超越了 OpenAI 的 GPT 3.5 模型和 Meta 的 LLama 2 13B 模型。

具体而言，在多领域的大规模多任务语言理解（MMLU）测试中，涵盖数学、美国历史、计算机科学、法律等 57 个科目，Mistral AI 以 60.1% 的准确率脱颖而出，而 Llama 2 7B 和 Llama 2 13B 的准确率分别略高于 44% 和 55%。

同样，在涉及常识推理和阅读理解的测试中，Mistral 7B 的表现优于这两个 Llama 模型，准确率分别为 69% 和 64%，凸显了其在深度语言理解领域的优势。

Mistral 7B 之所以在深度语言理解方面表现优秀，是因为在训练过程中接触到了大量复杂、多变的文本数据，增强了其语境感知和推理能力，使得 Mistral 7B 在测试时能够更好地理解和把握文本的内在逻辑和语义信息，从而给出更准确、更深入的回答。

与 GPT3 相较而言，Mistral AI 聚焦于快速推理和处理更长的序列。利用分组查询和滑动窗口注意力机制——基于注意模型的一种注意模式，实现了对更低的延迟和更高吞吐量的优化。这使其适用于以更低的成本实现大批量、快速加工的应用场景，成为节约成本效益的最佳选择。

对比之下，GPT3 以其深入语言理解能力和多任务处理能力而闻名，并且它被优化用于处理更短的序列。例如 GPT3 在问答系统任务中表现出色，能够理解和生成准确的答案；得益于强大的语言理解能力，它能够快速地总结长篇文本；另外 GPT3 还可以执行文本补全、语言翻译、情感分析等。

高性能小型模型，但缺乏「安全护栏」

Mistral 7B 以其高性能和强适应性备受关注，具有「小数字足迹」的特点，即模型在运行时所需的计算资源和存储空间较少。

相较于其他对强大硬件严格依赖的模型，Mixtral 7B 甚至可以在没有独立 GPU 的小型个人电脑上运行。这使得其可以灵活运用部署工具，如 vLLM 推理服务器和 skypilot 开源框架等部署在任何云平台上，包括 AWS、GCP 和 Azure。同时，该模型也支持与开发人员提供的参考实现在本地协同使用。