Geminiexp1121 性能疑云谷歌新模型是进化还是倒退

谷歌新模型Gemini-exp-1121虽榜单领先，但实测逻辑和编程能力或倒退，不如前代和GPT-4o。需全面评估AI模型，理性看待实验性模型。

在人工智能领域，每一次模型的更新都牵动着无数从业者的心。谷歌DeepMind近期发布的Gemini-exp-1121模型，引发了一场关于AI能力进化的深度讨论。

模型迭代速度引发关注

仅仅在一周前，Gemini-exp-1114才刚刚亮相，紧接着11月21日，谷歌便推出了Gemini-exp-1121。官方宣称，新模型在编码、推理和视觉能力上均有显著提升。Gemini-exp-1121迅速登顶Arena排行榜，测评结果显示其在风格控制之外的各项指标均名列前茅。

值得注意的是，OpenAI在Gemini-exp-1121发布的前一天，刚刚更新了GPT-4o，推出了GPT-4o-2024-11-20版本。这一时间上的巧合，引发了业界对两家公司竞争策略的讨论。

聊天机器人使用方式：

API使用方式：

为全面评估Gemini-exp-1121的性能，研究人员选择了Gemini-exp-1114、GPT-4o-2024-11-20以及Gemini-exp-1121进行对比测试。

题目： 地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土，土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米？

正确答案： 35厘米

使用302.AI的聊天机器人Artifacts功能，要求模型用前端代码制作一个2048游戏。

测试结果显示，Gemini-exp-1121在数学理解方面表现优异，但在逻辑推理和编程能力上却落后于前代Gemini-exp-1114。这种性能倒退现象引发了研究人员的关注。

从技术角度看，这可能意味着谷歌在模型优化过程中，为提升某些特定能力而牺牲了其他方面的性能。实验性模型的不稳定性也提醒我们，AI模型的开发是一个持续迭代的过程。

专业分析人士指出，评估AI模型需要全面、多维度的测试方法，不能仅关注单一指标的提升。同时，模型开发应兼顾性能提升与稳定性，确保各项能力的均衡发展。