Mistral NeMo:当前最佳开源LLM的全面评测与对比

介绍 Mistral NeMo

Mistral与Nvidia最新推出的Mistral NeMo是一款拥有12亿参数和128K上下文限制的开源模型。在我的测试中,它超越了Qwen-2、DeepSeek-V2和Llama-3等多个竞品,表现十分出色。

在编码任务中的优势

Mistral NeMo在编码任务方面表现优异,同时也非常擅长文本到应用程序、文本到前端等多种应用场景。我将对此进行测试,以验证它是否真的能够超越其他大型语言模型(LLM),并分享如何使用此模型。

最近,Mistral发布了两款新模型,其中包括OpenAI GPT-4 MiniMistral NeMo。本文将专注于Mistral NeMo,因而不再讨论GPT-4 Mini。在我的上一篇文章中,已经对GPT-4 Mini进行了详细讨论。

大部分人可能还未了解有关GPT-4 Mini的最新动态,而我在几天前就已分享了相关测评。因此,今天我们聚焦于Mistral NeMo——Mistral推出的最新开源模型。

图片

模型的特点与性能

Mistral NeMo是一款尖端的12B参数模型,具备128K的上下文长度。它与Nvidia的合作旨在提升推理、世界知识和编码准确性,表现堪称该领域的顶尖水平。

图片

此模型采用量化感知训练,支持FP8推理,确保在不牺牲性能的前提下,提升模型效率。

多语言应用能力

Mistral NeMo专为全球多语言应用程序设计,经过功能调用训练,具备较大的上下文窗口,尤其在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语等语言表现优异。这标志着将前沿人工智能模型带入各个语种文化的新进展。

图片

更高效的分词器

该模型被视为Mistral 7B的优秀替代品,并且引入了名为Tekken的高效分词器,在处理源代码时效率提高了30%。Tekken在压缩约85%的语言文本时表现出色,这一特点十分引人注目。

图片

强化的指令微调

Mistral NeMo还进行了良好的指令微调,使得该模型在遵循精确指令、推理、处理多轮对话以及生成代码方面表现更加优异。

基准测试结果分析

接下来让我们评估Mistral NeMo的基准测试结果。尽管许多读者可能已经对文章失去兴趣,但基准测试的结果仍然值得关注。

图片

具体分数

在HellaSwag测试中,Mistral NeMo获得83.5的分数,超越了Llama 3和Gemma 2。在Winogrande中得分为76.8,在Natural Questions中得分为31.2,在TriviaQA中得分为73.8。在MLU测试中得分68,而在OpenBookQA中得分为60.6。在CommonsenseQA中得分为70.4,在TruthfulQA中得分为50.3。

尽管这些分数看似不错,但它们的比较并不完美,尤其是缺乏对Qwen 2和DeepSeek V2的直接比较,这无疑是一个缺失。

Mistral NeMo在Apache 2许可下发布,意味着它可以用于商业和个人用途,这无疑是一个优点。当前,该模型已在Hugging Face上提供,但尚未在其他平台上发布,预计很快会推出。

该模型可以在Nvidia Nims平台上进行试用,以下是链接:Nvidia Nims平台

测试过程

我将使用九个问题来测试Mistral NeMo,虽然对其中一些问题进行了简单修改,但测试的本质保持不变。让我们来看看它的表现。

第一个问题是:名字以“Leah”结尾的国家的首都是什么?正确答案是堪培拉。Mistral NeMo的答案是:

图片

显然这是错误的,所以标记为失败。

接下来的问题是:约翰有三个盒子的铅笔,每个盒子有12支,约翰总共有多少支铅笔?正确答案应为36。Mistral NeMo的回答是:

图片

答案正确,所以这是一次成功。

接下来是:露西的糖果是麦克的两倍,如果麦克有七块糖果,露西有多少块糖果?答案应是14。Mistral NeMo的回答是:

图片

答案正确,所以这是一次成功。

下一个问题是:如果一个正六边形的短对角线是64,它的长对角线是多少?正确答案应为73.9。Mistral NeMo的回答是:

图片

答案不正确,所以标记为失败。

接下来的问题是:创建一个包含点击按钮时爆炸彩带的HTML页面,请使用CSS和JS。Mistral NeMo的代码是:

图片

代码效果良好,因此这是一次成功。

以下问题是创建一个Python程序,根据用户输入打印下一个X个闰年。请查看Mistral NeMo的代码:

图片

运行结果良好,因此这是一次成功。

接下来的问题是生成一个方形的SVG代码。Mistral NeMo的代码是:

图片

运行正常,因此这是一次成功。

下一个问题是为一个AI公司创建一个着陆页,页面应包含标题、横幅、功能和联系我们四个部分,请查看Mistral NeMo的代码:

图片

效果很好,所有部分均已包含,因此这是一次成功。

最后一个问题是使用Python编写一个在终端上运行的贪吃蛇游戏。请查看Mistral NeMo的代码:

图片

运行结果不理想,因此这是一次失败。

最终结果的统计图如下所示,可以看出Mistral NeMo的表现确实相当不错。

图片

总的来说,Mistral NeMo在编码方面的表现优于他们发布的Cestal Mamba,甚至在许多其他模型中也处于领先地位,表现与Qwen和DeepSeek不相上下。

因此,这无疑是一个非常出色的模型。我认为它在推理及各个领域都有极好的表现,可能会比GPT-4 Mini更受欢迎。