大模型集体失智:9.11和9.9哪个大,几乎全翻车了

导读 大模型集体失智:9.11和9.9哪个大,几乎全翻车了近期,一个看似简单的数学问题挑战了众多前沿的人工智能大模型,引发了业界的关注。问题本...

大模型集体失智:9.11和9.9哪个大,几乎全翻车了

近期,一个看似简单的数学问题挑战了众多前沿的人工智能大模型,引发了业界的关注。问题本身并不复杂:9.11和9.9哪个数字更大?然而,在第一财经记者的测试中,即便是先进的AI系统也出现了分歧。在12款接受测试的大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确的答案,剩余八款模型,包括知名的ChatGPT-4o等,则在这个基础数学问题上栽了跟头。

这些出错的大模型大多陷入了比较小数点后数字的误区,误以为9.11大于9.9。即使记者明确指出是在数学的语境下进行比较,类似ChatGPT这样的顶尖大模型也未能避免错误。这揭示了长久以来大模型在处理数学问题上的不足,反映出它们的设计更偏向于文字处理而非数字逻辑。

该现象的起因可追溯至一档综艺节目中的投票率比较,观众对13.8%与13.11%的大小产生争议,进而引发了公众对AI处理此类基本数学问题能力的好奇和测试。测试结果显示,许多AI在面对这类基础数学问题时显得力不从心,尽管它们在复杂的语言任务上表现出色。

探究其背后的原因,专家们指出,生成式语言模型的本质决定了它们更擅长处理基于文本的关联性任务,而非数学所需的逻辑推理和精确计算。语言模型通过学习海量文本数据来预测下一个词,这使得它们在文学创作上能够展现出接近人类的水平,但在需要严谨逻辑和抽象思维的数学领域,却显得力有未逮。此外,数字处理时的分词问题也是导致错误的一个技术因素,现有分词器往往没有针对数学计算进行优化,可能导致数字被错误分割,影响模型的理解。

为改善这一状况,有观点认为,针对性的语料训练能够逐步提升大模型的理科能力,特别是通过构造包含数学问题解决过程的数据集来增强模型的数学推理能力。随着AI技术的发展,未来大模型的训练或将更加注重结构化和专业领域的数据构建,以确保它们能够在需要精确计算和复杂推理的场景中发挥可靠作用,比如金融分析、工业报告解读等领域。这不仅是提高模型准确性的需求,也是推动AI技术在更多高要求场景中实现有效落地的关键。

大模型集体失智:9.11和9.9哪个大,几乎全翻车了。