AI教育助手文心一言与通义千问学习能力评测

评测文心一言和通义千问在教育领域的应用。高中英语、初中数学等测试显示,两模型各有优劣,但仍有提升空间。
AI教育助手文心一言与通义千问学习能力评测

人工智能(AI)聊天机器人能否在不久的将来胜任家庭教师的角色,辅助孩子阅读甚至完成家庭作业?比尔·盖茨的这一预测引发了教育界对AI技术革新潜力的广泛关注。中国国内,百度和阿里巴巴分别推出了大型语言模型——文心一言和通义千问,标志着中国AI技术在教育领域的探索进入新阶段。

本文旨在对这两款AI模型在教育应用方面的能力进行初步评估,通过模拟实际学习场景,考察其在高中英语翻译、初中数学解题、高中中文写作、代码生成以及青少年心理辅导等方面的表现,以期为教育领域从业者提供参考。

AI大模型对教育的潜在影响

如果AI大模型技术足够成熟,它将可能从根本上改变教育体系的多个核心要素,包括教育目标、知识获取方式、教学方法以及评估体系。传统的以教师为中心的知识传递模式,可能会逐渐转变为以学生为中心的个性化学习模式。

AI可以根据学生的学习进度和特点,提供定制化的学习内容和辅导,从而提高学习效率和效果。此外,AI还可以辅助教师进行教学设计、备课和批改作业等工作,减轻教师的负担,使其能够将更多精力投入到学生的个性化指导和情感交流上。

评测方法与内容

为了评估文心一言和通义千问在教育领域的应用潜力,我们设计了一系列测试题目,涵盖了高中英语翻译、初中数学、高中中文写作、代码生成以及青少年心理辅导等五个方面。每个方面都由两款AI模型分别"出题"和"解答",形成交叉评估。通过对比分析它们的出题质量和解题能力,我们试图了解它们在不同学科领域的优势和不足。

1. 题目设计:考察AI的知识理解与应用能力

在题目设计环节,我们要求文心一言和通义千问分别针对上述五个科目,生成具有代表性的题目。这一环节旨在考察AI对各学科知识的理解程度,以及将知识应用于实际问题的能力。然而,在实际操作中,两款AI模型的表现存在显著差异。

文心一言在出题时,倾向于为每个科目提供A、B两套题目,这种"A、B卷"的出题方式,在一定程度上体现了其试图提供多样化选择的意图。然而,这种方式也略显不够灵活,缺乏针对性。相比之下,通义千问则能够根据要求,直接给出5道题目,更符合实际应用场景的需求。例如,在高中中文写作题目方面,通义千问给出的题目更贴近高考热门命题方向,具有更强的实用性。

从题目难度来看,两款AI模型生成的题目整体偏简单。例如,在英语翻译题目方面,两款AI模型给出的题目难度都低于高中水平。这可能反映了当前AI模型在知识深度和广度方面仍存在局限性,需要进一步的训练和学习。

2. 翻译能力评测:语言理解与表达的精度

翻译能力是语言模型的重要指标之一。在此环节,我们分别考察文心一言和通义千问在英汉互译方面的表现。

针对文心一言提出的英译汉题目,两款AI模型给出的翻译结果大同小异,但通义千问的翻译更为具体,考虑到了语言使用的场景。由于题目由文心一言提供,其能够直接将其翻译成汉语,而通义千问则会主动询问需要翻译成的语言,体现了更周到的用户体验。

然而,在通义千问提出的汉译英题目中,文心一言的翻译更为准确,而通义千问的表现则有些令人失望。更令人意外的是,在随后的多轮对话中,通义千问的翻译质量出现了明显的下降,甚至出现了"离谱"的翻译结果,这表明其多轮对话能力仍有待提高。

3. 数学解题能力评测:逻辑推理与计算的准确性

数学是逻辑思维和精确计算的代表。在此环节,我们考察文心一言和通义千问在初中数学解题方面的表现。

针对文心一言提出的数学题目,文心一言自身竟然给出了错误的答案,令人匪夷所思。更令人尴尬的是,其将分数乘法错误地理解为除法,且计算结果也存在明显错误。相比之下,通义千问正确理解了题目,并给出了正确的答案,但其在答案中使用"约等于"符号,表明其在精确性方面仍有提升空间。

值得注意的是,两款AI模型在解题时,均未给出详细的解题步骤和解释,这表明它们在逻辑推理和知识传递方面仍存在不足。针对通义千问提出的数学题目,文心一言的回答完全错误,甚至无法正确识别正三角形的性质。尽管经过多次尝试,文心一言仍然无法给出正确的答案,甚至无法生成正确的正三角形图像,这表明其在数学知识和图像生成方面仍存在明显的缺陷。

4. 写作能力评测:语言组织与表达的创造性

写作能力是综合语言能力的体现。在此环节,我们考察文心一言和通义千问在高中中文写作方面的表现。

针对文心一言提出的作文题目,两款AI模型在文章的第一句话上竟然出现了"神同步",这表明它们在语言模式上存在一定的相似性。从内容来看,两者的文章结构基本相同,均从不同角度阐述了"幸福"的含义。但文心一言更侧重于个人层面的感受,而通义千问则涉及到了社会层面以及与他人的关系。整体而言,两者的写作水平不分伯仲,但都存在一定的"机器痕迹",缺乏人类写作的灵活性和创造性。

针对通义千问提出的作文题目,文心一言似乎进行了深入的思考,但其文章更像是一篇论文,读起来有些生硬。相比之下,通义千问的文章虽然篇幅不长,但更像是一篇议论文,具有更强的说服力。

5. 代码生成能力评测:编程逻辑与实现的效率

代码生成能力是AI在编程领域应用的重要体现。在此环节,我们考察文心一言和通义千问在代码生成方面的表现。

针对文心一言提出的代码生成题目,两款AI模型生成的核心代码段基本相同,但文心一言的代码缺少变量声明。针对通义千问提出的代码生成题目,两款AI模型对题目的理解存在差异,导致生成的代码也不同。文心一言生成的是随机字符串,而通义千问生成的是随机英文单词,后者可能更符合题目的要求。

6. 心理辅导能力评测:情感理解与共情的能力

心理辅导能力是AI在情感支持领域应用的重要体现。在此环节,我们考察文心一言和通义千问在青少年心理辅导方面的表现。

针对文心一言提出的心理辅导题目,两款AI模型给出的答案大同小异,且都采用了列点式的回答。两者都给出了管理情绪的具体方法,例如冥想。针对通义千问提出的心理辅导题目,两款AI模型给出的解决方案都非常具体。文心一言还给出了"焦虑和压力"形成的原因。两者都提到了学会调节情绪,并提供了相应的理论参考。通义千问的解决方案更为多元。

结论与展望

通过本次评测,我们发现文心一言和通义千问在教育领域的应用仍处于发展初期。在出题方面,通义千问更具针对性,而文心一言则倾向于提供多样化的选择。在解题方面,两款AI模型在不同科目上的表现各有优劣。在翻译类题目上,文心一言略胜一筹;在数学类题目上,通义千问表现更好;在作文题目上,两者各有千秋;在代码生成题目上,两者都具备一定的能力;在心理辅导方面,两者都比较详尽,对学生和家长具有一定的指导意义。

从整体作答风格来看,文心一言偏稳重,通义千问更灵活。从答题速度上来看,通义千问的速度更快。从多轮对话能力来看,两者都具备一定的多轮对话能力,但文心一言可能略好。在文生图方面,文心一言仍有较大的提升空间,而通义千问尚未上线该功能。

目前的大型语言模型在辅导学习方面仍存在一定的局限性,需要进一步的训练和完善。但我们对AI在教育领域的应用前景充满信心。正如ChatGPT一样,AI模型也在不断学习和进步,相信在不久的将来,它们将能够更好地服务于教育事业。