
在人工智能领域,每一次模型的更新都牵动着无数从业者的心。谷歌DeepMind近期发布的Gemini-exp-1121模型,引发了一场关于AI能力进化的深度讨论。
模型迭代速度引发关注
仅仅在一周前,Gemini-exp-1114才刚刚亮相,紧接着11月21日,谷歌便推出了Gemini-exp-1121。官方宣称,新模型在编码、推理和视觉能力上均有显著提升。Gemini-exp-1121迅速登顶Arena排行榜,测评结果显示其在风格控制之外的各项指标均名列前茅。
值得注意的是,OpenAI在Gemini-exp-1121发布的前一天,刚刚更新了GPT-4o,推出了GPT-4o-2024-11-20版本。这一时间上的巧合,引发了业界对两家公司竞争策略的讨论。
模型使用指南
聊天机器人使用方式:
- 进入302.AI平台,点击"使用机器人",选择"聊天机器人",然后在"模型"选项中找到Gemini分类,即可找到"Gemini-exp-1121"
- 进入聊天机器人界面后,点击页面左下角的设置,开启实时预览功能
API使用方式:
- 点击"使用API",进入"API超市",选择"语言大模型",然后选择"Gemini"
- 在Gemini模型列表中,可以找到Gemini-exp-1121的API接口
三大模型实测对比
为全面评估Gemini-exp-1121的性能,研究人员选择了Gemini-exp-1114、GPT-4o-2024-11-20以及Gemini-exp-1121进行对比测试。
数学理解测试
题目: 地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?
正确答案: 35厘米
- GPT-4o-2024-11-20: 分析思路正确,但最终答案错误
- Gemini-exp-1121: 思路清晰,回答正确
- Gemini-exp-1114: 未能理解题目,回答错误
逻辑推理测试
- GPT-4o-2024-11-20: 分析正确,整体篇幅较长,回答正确
- Gemini-exp-1121: 分析错误,回答错误
- Gemini-exp-1114: 分析正确且清晰,回答正确
编程测试
使用302.AI的聊天机器人Artifacts功能,要求模型用前端代码制作一个2048游戏。
- Gemini-exp-1114: 生成的游戏可以通过键盘方向键进行操作,但页面美观性和完整性稍有欠缺
- Gemini-exp-1121: 生成的效果仅能看,无法使用鼠标或键盘进行操作
- GPT-4o-2024-11-20: 生成的游戏具备一定美观性,可以使用键盘操作,但完整性不足
评测结论与分析
测试结果显示,Gemini-exp-1121在数学理解方面表现优异,但在逻辑推理和编程能力上却落后于前代Gemini-exp-1114。这种性能倒退现象引发了研究人员的关注。
从技术角度看,这可能意味着谷歌在模型优化过程中,为提升某些特定能力而牺牲了其他方面的性能。实验性模型的不稳定性也提醒我们,AI模型的开发是一个持续迭代的过程。
专业分析人士指出,评估AI模型需要全面、多维度的测试方法,不能仅关注单一指标的提升。同时,模型开发应兼顾性能提升与稳定性,确保各项能力的均衡发展。

