Geminiexp1121 性能疑云谷歌新模型是进化还是倒退

谷歌新模型Gemini-exp-1121虽榜单领先,但实测逻辑和编程能力或倒退,不如前代和GPT-4o。需全面评估AI模型,理性看待实验性模型。
Geminiexp1121 性能疑云谷歌新模型是进化还是倒退

在人工智能领域,每一次模型的更新都牵动着无数从业者的心。谷歌DeepMind近期发布的Gemini-exp-1121模型,引发了一场关于AI能力进化的深度讨论。

模型迭代速度引发关注

仅仅在一周前,Gemini-exp-1114才刚刚亮相,紧接着11月21日,谷歌便推出了Gemini-exp-1121。官方宣称,新模型在编码、推理和视觉能力上均有显著提升。Gemini-exp-1121迅速登顶Arena排行榜,测评结果显示其在风格控制之外的各项指标均名列前茅。

值得注意的是,OpenAI在Gemini-exp-1121发布的前一天,刚刚更新了GPT-4o,推出了GPT-4o-2024-11-20版本。这一时间上的巧合,引发了业界对两家公司竞争策略的讨论。

模型使用指南

聊天机器人使用方式:

  • 进入302.AI平台,点击"使用机器人",选择"聊天机器人",然后在"模型"选项中找到Gemini分类,即可找到"Gemini-exp-1121"
  • 进入聊天机器人界面后,点击页面左下角的设置,开启实时预览功能

API使用方式:

  • 点击"使用API",进入"API超市",选择"语言大模型",然后选择"Gemini"
  • 在Gemini模型列表中,可以找到Gemini-exp-1121的API接口

三大模型实测对比

为全面评估Gemini-exp-1121的性能,研究人员选择了Gemini-exp-1114、GPT-4o-2024-11-20以及Gemini-exp-1121进行对比测试。

数学理解测试

题目: 地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?

正确答案: 35厘米

  • GPT-4o-2024-11-20: 分析思路正确,但最终答案错误
  • Gemini-exp-1121: 思路清晰,回答正确
  • Gemini-exp-1114: 未能理解题目,回答错误

逻辑推理测试

  • GPT-4o-2024-11-20: 分析正确,整体篇幅较长,回答正确
  • Gemini-exp-1121: 分析错误,回答错误
  • Gemini-exp-1114: 分析正确且清晰,回答正确

编程测试

使用302.AI的聊天机器人Artifacts功能,要求模型用前端代码制作一个2048游戏。

  • Gemini-exp-1114: 生成的游戏可以通过键盘方向键进行操作,但页面美观性和完整性稍有欠缺
  • Gemini-exp-1121: 生成的效果仅能看,无法使用鼠标或键盘进行操作
  • GPT-4o-2024-11-20: 生成的游戏具备一定美观性,可以使用键盘操作,但完整性不足

评测结论与分析

测试结果显示,Gemini-exp-1121在数学理解方面表现优异,但在逻辑推理和编程能力上却落后于前代Gemini-exp-1114。这种性能倒退现象引发了研究人员的关注。

从技术角度看,这可能意味着谷歌在模型优化过程中,为提升某些特定能力而牺牲了其他方面的性能。实验性模型的不稳定性也提醒我们,AI模型的开发是一个持续迭代的过程。

专业分析人士指出,评估AI模型需要全面、多维度的测试方法,不能仅关注单一指标的提升。同时,模型开发应兼顾性能提升与稳定性,确保各项能力的均衡发展。