AI教育助手文心一言与通义千问学习能力评测

评测文心一言和通义千问在教育领域的应用。高中英语、初中数学等测试显示，两模型各有优劣，但仍有提升空间。

人工智能（AI）聊天机器人能否在不久的将来胜任家庭教师的角色，辅助孩子阅读甚至完成家庭作业？比尔·盖茨的这一预测引发了教育界对AI技术革新潜力的广泛关注。中国国内，百度和阿里巴巴分别推出了大型语言模型——文心一言和通义千问，标志着中国AI技术在教育领域的探索进入新阶段。

本文旨在对这两款AI模型在教育应用方面的能力进行初步评估，通过模拟实际学习场景，考察其在高中英语翻译、初中数学解题、高中中文写作、代码生成以及青少年心理辅导等方面的表现，以期为教育领域从业者提供参考。

AI大模型对教育的潜在影响

如果AI大模型技术足够成熟，它将可能从根本上改变教育体系的多个核心要素，包括教育目标、知识获取方式、教学方法以及评估体系。传统的以教师为中心的知识传递模式，可能会逐渐转变为以学生为中心的个性化学习模式。

AI可以根据学生的学习进度和特点，提供定制化的学习内容和辅导，从而提高学习效率和效果。此外，AI还可以辅助教师进行教学设计、备课和批改作业等工作，减轻教师的负担，使其能够将更多精力投入到学生的个性化指导和情感交流上。

评测方法与内容

为了评估文心一言和通义千问在教育领域的应用潜力，我们设计了一系列测试题目，涵盖了高中英语翻译、初中数学、高中中文写作、代码生成以及青少年心理辅导等五个方面。每个方面都由两款AI模型分别"出题"和"解答"，形成交叉评估。通过对比分析它们的出题质量和解题能力，我们试图了解它们在不同学科领域的优势和不足。

1. 题目设计：考察AI的知识理解与应用能力

在题目设计环节，我们要求文心一言和通义千问分别针对上述五个科目，生成具有代表性的题目。这一环节旨在考察AI对各学科知识的理解程度，以及将知识应用于实际问题的能力。然而，在实际操作中，两款AI模型的表现存在显著差异。

文心一言在出题时，倾向于为每个科目提供A、B两套题目，这种"A、B卷"的出题方式，在一定程度上体现了其试图提供多样化选择的意图。然而，这种方式也略显不够灵活，缺乏针对性。相比之下，通义千问则能够根据要求，直接给出5道题目，更符合实际应用场景的需求。例如，在高中中文写作题目方面，通义千问给出的题目更贴近高考热门命题方向，具有更强的实用性。

从题目难度来看，两款AI模型生成的题目整体偏简单。例如，在英语翻译题目方面，两款AI模型给出的题目难度都低于高中水平。这可能反映了当前AI模型在知识深度和广度方面仍存在局限性，需要进一步的训练和学习。

2. 翻译能力评测：语言理解与表达的精度

翻译能力是语言模型的重要指标之一。在此环节，我们分别考察文心一言和通义千问在英汉互译方面的表现。

针对文心一言提出的英译汉题目，两款AI模型给出的翻译结果大同小异，但通义千问的翻译更为具体，考虑到了语言使用的场景。由于题目由文心一言提供，其能够直接将其翻译成汉语，而通义千问则会主动询问需要翻译成的语言，体现了更周到的用户体验。

然而，在通义千问提出的汉译英题目中，文心一言的翻译更为准确，而通义千问的表现则有些令人失望。更令人意外的是，在随后的多轮对话中，通义千问的翻译质量出现了明显的下降，甚至出现了"离谱"的翻译结果，这表明其多轮对话能力仍有待提高。

3. 数学解题能力评测：逻辑推理与计算的准确性

数学是逻辑思维和精确计算的代表。在此环节，我们考察文心一言和通义千问在初中数学解题方面的表现。

针对文心一言提出的数学题目，文心一言自身竟然给出了错误的答案，令人匪夷所思。更令人尴尬的是，其将分数乘法错误地理解为除法，且计算结果也存在明显错误。相比之下，通义千问正确理解了题目，并给出了正确的答案，但其在答案中使用"约等于"符号，表明其在精确性方面仍有提升空间。

值得注意的是，两款AI模型在解题时，均未给出详细的解题步骤和解释，这表明它们在逻辑推理和知识传递方面仍存在不足。针对通义千问提出的数学题目，文心一言的回答完全错误，甚至无法正确识别正三角形的性质。尽管经过多次尝试，文心一言仍然无法给出正确的答案，甚至无法生成正确的正三角形图像，这表明其在数学知识和图像生成方面仍存在明显的缺陷。

4. 写作能力评测：语言组织与表达的创造性

写作能力是综合语言能力的体现。在此环节，我们考察文心一言和通义千问在高中中文写作方面的表现。

针对文心一言提出的作文题目，两款AI模型在文章的第一句话上竟然出现了"神同步"，这表明它们在语言模式上存在一定的相似性。从内容来看，两者的文章结构基本相同，均从不同角度阐述了"幸福"的含义。但文心一言更侧重于个人层面的感受，而通义千问则涉及到了社会层面以及与他人的关系。整体而言，两者的写作水平不分伯仲，但都存在一定的"机器痕迹"，缺乏人类写作的灵活性和创造性。

针对通义千问提出的作文题目，文心一言似乎进行了深入的思考，但其文章更像是一篇论文，读起来有些生硬。相比之下，通义千问的文章虽然篇幅不长，但更像是一篇议论文，具有更强的说服力。

5. 代码生成能力评测：编程逻辑与实现的效率

代码生成能力是AI在编程领域应用的重要体现。在此环节，我们考察文心一言和通义千问在代码生成方面的表现。

针对文心一言提出的代码生成题目，两款AI模型生成的核心代码段基本相同，但文心一言的代码缺少变量声明。针对通义千问提出的代码生成题目，两款AI模型对题目的理解存在差异，导致生成的代码也不同。文心一言生成的是随机字符串，而通义千问生成的是随机英文单词，后者可能更符合题目的要求。

6. 心理辅导能力评测：情感理解与共情的能力

心理辅导能力是AI在情感支持领域应用的重要体现。在此环节，我们考察文心一言和通义千问在青少年心理辅导方面的表现。

针对文心一言提出的心理辅导题目，两款AI模型给出的答案大同小异，且都采用了列点式的回答。两者都给出了管理情绪的具体方法，例如冥想。针对通义千问提出的心理辅导题目，两款AI模型给出的解决方案都非常具体。文心一言还给出了"焦虑和压力"形成的原因。两者都提到了学会调节情绪，并提供了相应的理论参考。通义千问的解决方案更为多元。

结论与展望

通过本次评测，我们发现文心一言和通义千问在教育领域的应用仍处于发展初期。在出题方面，通义千问更具针对性，而文心一言则倾向于提供多样化的选择。在解题方面，两款AI模型在不同科目上的表现各有优劣。在翻译类题目上，文心一言略胜一筹；在数学类题目上，通义千问表现更好；在作文题目上，两者各有千秋；在代码生成题目上，两者都具备一定的能力；在心理辅导方面，两者都比较详尽，对学生和家长具有一定的指导意义。

从整体作答风格来看，文心一言偏稳重，通义千问更灵活。从答题速度上来看，通义千问的速度更快。从多轮对话能力来看，两者都具备一定的多轮对话能力，但文心一言可能略好。在文生图方面，文心一言仍有较大的提升空间，而通义千问尚未上线该功能。

目前的大型语言模型在辅导学习方面仍存在一定的局限性，需要进一步的训练和完善。但我们对AI在教育领域的应用前景充满信心。正如ChatGPT一样，AI模型也在不断学习和进步，相信在不久的将来，它们将能够更好地服务于教育事业。