苹果研究员质疑大模型！我们测试了6款，发现了4大真相

2024-10-14 16:00

雷科技

关注

汽车业务失利后，苹果决定加码生成式AI，并将部分汽车部门的员工调到了AI部门。然而对待AI，苹果似乎不如百度、讯飞、OpenAI、xAI等国内外企业那么自信。

日前，苹果研究员发布了一篇名为《理解大语言模型中数学推理局限性》的论文，质疑大语言模型的数学推理能力，甚至认为大语言模型不具备真正的推理能力。

苹果研究员在论文中举了一个简单的例子，向大模型提出问题“奥利弗周五摘了44个奇异果，周六摘了58个奇异果。周日，他摘的奇异果是周五的两倍。奥利弗一共摘了多少个奇异果？”此时大语言模型都能正确计算出答案。

公交车同时到站时间 (1).jpeg

（图源：豆包AI生成）

但当研究人员为问题增添了一句修饰语“周日，他摘的奇异果是周五的两倍，其中5个比平均小”时，部分大模型就给出了错误的答案，倾向于减掉这五个比较小的奇异果。

在大语言模型的使用过程中，小雷也遇到过大模型“抽风”的情况，某个大语言模型甚至连最基础的乘法都能算错。不过大语言模型一直在向前发展，许多曾经常犯的错误，都已被新技术解决。

苹果研究员吐槽大语言模型数学推理能力不行，究竟是情况属实，还是为自家AI技术落后找借口？实测过后，我们有了结论。

哪些大语言模型能回答苹果的问题？

本次大语言模型对比评测，小雷选择了全球名气较高的六款产品，包括：1、GPT-4o；2、讯飞星火大模型；3、豆包；4、Kimi；5、文心3.5五款大模型；6、GPT-4o mini。由于文心大模型4.0收费，其他大语言模型则免费（GPT-4o每日有免费提问次数），因此为了公平起见，小雷选择了免费的文心大模型3.5。

闲话不多说，我们直接进入测试阶段。

一、奇异果问题：文心完败

第一轮测试的问题，我们选择了苹果研究员提到的奇异果问题（正确答案：190个）。站在人类的视角，奇异果的大小并不影响计算数量，但在大语言模型的视角中，情况却发生了变化。

本轮测试中，五款大语言模型有四款通过了考验，其中豆包和Kimi特地提醒，奇异果的大小并不影响计算总数。GPT-4o虽然也正确计算出了总数，但可能是因为“平均”两个字的翻译问题，还求出了三天平均每天摘取奇异果的数量。唯一没有得出正确答案的大模型是文心大模型3.5，将五个体型小的奇异果排除，得到了摘取185个奇异果的错误答案。

第一轮 GPT.png

（图源：GPT截图）

第一轮讯飞星火.png

（图源：讯飞星火截图）

第一轮豆包.png

（图源：豆包截图）

第一轮 Kimi.png

（图源：Kimi截图）

第一轮文心.png

（图源：文心一言截图）

苹果研究员的论文，提到了GPT-4o mini计算该问题时出错，切换至该模型后，小雷又计算了一遍这道题，果不其然，GPT-4o mini也给出了错误答案。

第一轮 GTP4o mini.png

（图源：GPT-4o mini截图）

难道大语言模型计算数学题的准确性，与其参数量呈正相关？GPT-4o mini属于小模型，更追求低成本和快速响应，参数量远不能与GPT-4o相比，在推理数学问题时，参数量的差距导致GPT-4o与GPT-4o mini计算结果不同。

文心大模型同样如此，尽管没有官方数据，但4.0版本的推理成本相较于3.5版本预计提高了8-10倍，3.5版的参数量之小可想而知。

二、公交车问题：文心完胜

本轮测试的题目是一道行测数学题，具体内容为：

由于国庆节的到来，某旅游城市的游客数量大幅上涨，公交公司决定简化公交车的线路，缩短单程时间。现有1、2、3路公交车，于上午7点同时从车站发车，三辆公交车再次回到车站所用时间分别为30分钟、45分钟、60分钟。这三辆公交车中间不休息，请问第二次它们同时到达车站将是几点？（正确答案：13点）

这轮测试所得出的结果，让小雷惊掉了下巴。在测试中，小雷连续测试四款大模型，结果全部计算错误，当时唯一没有出错的大语言模型就是文心3.5。

鉴于文心3.5在第一轮的表现，小雷没有对文心3.5抱有任何期待，但我不看好它的时候，文心3.5偏偏就争气了，并成为唯一解出正确答案的大语言模型。后续小模型GPT-4o mini在测试中，也没能给出正确答案。

第二轮GPT.png

（图源：GPT截图）

第二轮星火.png

（图源：讯飞星火截图）

第二轮豆包.png

（图源：豆包截图）

第二轮 Kimi.png

（图源：Kimi截图）

第二轮文心.png

（图源：文心一言截图）

第二轮GPT-4o mini.png

（图源：GPT-4o mini截图）

思来想去，小雷认为唯一的解释就是，百度作为国内首屈一指的搜索引擎，对于中国人的语言与思维习惯更加了解，因而才能准确理解“到达”这个词的含义。其他大模型都将始发停靠在汽车站当做第一次到达车站，未能正确理解“到达”的含义。

相较于数学，本题对于中文理解能力的考验可能更高，但这几款大语言模型的表现也从侧面说明，AI大模型对于人类逻辑的理解能力有待提升。考虑到文心3.5的获胜证明实力的同时，也有取巧的可能，因此小通还准备了地狱级难度的第三轮测试。

三、运动员问题：免费版团灭，付费版正确

第三道题同样是一道行测数学题，但与以上问题不同的是，这道题没有任何干扰信息，纯粹考验大语言模型的计算能力。题目为：

某班有39名同学参加短跑、跳远、投掷三项体育比赛，人数分别为23人、18人、21人，其中三项比赛全部参加的有5人，仅参加跳远的有3人，仅参加投掷的有9人，请问仅参加短跑的有多少人？（正确答案：9人）

遗憾的是，五款大模型与一款小模型在本轮测试中全部失败，而且大语言模型给出的答案各不相同，解题思路也存在许多问题。

第三轮 GPT.png

（图源：GPT截图）

第三轮讯飞星火.png

（图源：讯飞星火截图）

第三轮豆包.png

（图源：豆包截图）

第三轮 Kimi.png

（图源：Kimi截图）

第三轮百度.png

（图源：文心一言截图）

第三轮 GPT mini.png

（图源：GPT-4o mini截图）

最后，小雷只好使用付费版的OpenAI o1-preview大模型进行计算，结果不负众望，给出了正确答案。

WPS拼图0.png

（图源：GPT-4o o1-preview截图）

同样是OpenAI旗下的大模型，免费版GPT-4o和付费版o1-preview得出了不同答案，原因可能在于免费用户所能调用的资源更少，导致大模型计算能力不如付费版。

参数决定性能，付费升级体验

以上参与三轮测试的五款大模型和一款小模型中，表现最差的无疑是小模型GPT-4o mini，三轮测试中均给出了错误答案。

我们可以得出以下结论：

1、小模型只配做大模型的平替？

GPT-4o mini的表现证明，当需要处理难度较高的推理问题时，小模型参数量少、资源少更容易出错。尽管百度、OpenAI、谷歌、微软等企业都致力于研究小模型，但它们可能只是日常使用时回答基础问题“勉强能用”的平替版，毕竟成本可以大幅降低，这就跟企业雇佣一个小学生和一个博士生一样，智力是一分钱一分货。

据研究机构Epoch AI计算，训练尖端大模型所需的算力，每隔6-10个月就会翻一倍。庞大的算力需求，给AI公司带来了极高的经济压力，哪怕是谷歌、微软这种行业巨头，也会倍感吃力。正因如此，小模型现阶段虽表现逊色于大模型，但AI公司不会放弃开发小模型，而是会通过长时间的调校与打磨，不断提升小模型的能力。

微信图片_20241012172716(1).png