高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后 - 公司新闻

编辑：定慧

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？

对于现如今的LMMs来说，通过各种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。

比如DeepSeek-R1发布时在6大基准测试（包含AIME、MMLU、MATH-500等）中超过o1取得领先。

但是对于人类来说依靠直觉和下意识就能回答的问题，LLM们似乎集体有点「发懵」。

很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩，但却无法数清楚「strawberry」中有多少r。

除了复杂的基准测试，另外一种评价模型好坏的方式就是「竞技场模式」。

比如可以在Chatbot Arena进行上提问投票，选出面对相同问题时的「最佳模型」。

但是这种依靠Chat模式的评测依然不太直观，于是各种各样的创意评测就诞生了。

创意评测的魅力

Minecraft Benchmark（或 MC-Bench）像一个竞技场，在一对一的挑战中针对相同提示生成Minecraft作品。

「对决双方」由用户投票选择哪个模型做得更好。

并且只有在投票后才能看到每个Minecraft建筑是由哪个AI制作的。

目前MC-Bench的榜单上，Claude3.7暂时领先，deepseek-r1位列第5，但是考虑到DeepSeek-R1的发布时间，Claude3.7、GPT-4.5和Gemini2.0都相当于是「新一代」的模型了，期待DeepSeek-R2出来后的榜单！

像MC-Bench这样的创意评测，优势非常明显：普通人也能轻松参与，像「选美」一样简单直接。

创造MC-Bench项目的仅仅是一名高中生Adi Singh，在将Minecraft用于AI评测这件事情上，Adi Singh觉得Minecraft的价值不在游戏本身。

而是作为有史以来最畅销的电子游戏，即使对于没玩过Minecraft游戏的人来说，仍然可以选择自己更喜欢的「方块样子」。

MC-Bench是合作开发的，除了Adi Singh外，贡献者还有7位，包括了「提示词创意官」、技术主管和开发者们。

并获得了Anthropic、Google和阿里巴巴等公司的技术支持。

传统LLM评测：严肃认真但未必管用

传统的AI基准测试技术被证明不足，主要体现在以下几个方面：

因此AI构建者正在转向更有创意的方法来评估Gen-AI模型的能力。

AI开发者们表示，我们也想玩点「新鲜的」。

MC-Bench的本质是在测试AI模型的文本理解和编码能力。

通过类似Chatbot Arena的方式来进行模型评比。

对于为何选择游戏，选择Minecraft，Adi Singh觉得「游戏可能只是一种测试能动性推理的媒介，比现实生活更安全，也更适合测试目的，因此在我看来更为理想」。

从Adi Singh个人网站来看，他对于使用Minecraft方块进行AI评测应该是「蓄谋已久」，Adi Singh展示很多利用大模型生成Minecraft方块的精彩案例。

比如，gpt-4.5根据提示「构建一艘在云层中飞行的蒸汽朋克风格飞艇」。

再比如，claude-3.7-sonnet有一个令人印象非常深刻的Minecraft模型，根据提示「韩国友谊之钟」生成。

并且，社区成员对MC-Bench的评价也很高。

比如目前就职于OpenAI的基础研究员Aidan McLaughlin，对Minecraft Bench给予了很高的评价：你应该密切关注MC-Bench！

Aidan McLaughlin同时给出了他认为最佳的人工智能基准应具有：

游戏测评AI似乎依然是「主流创意」

在Claude 3.7 Sonnet发布时说过，模型降低了在数学、竞赛和编程方面的特化程度，有「更好」的思考能力。

那么如何评测新模型的「思考」能力呢？

相关文章