订阅
纠错
加入自媒体

AI助手巅峰对决:DeepSeek、元宝、豆包、Kim,谁是“智能之王”?谁又最糟糕?

这是困扰当下用户难以选择最大的疑问,DeepSeek、元宝、豆包、Kim,谁才是用户体验之王?到底谁优谁劣?

作者|孙天宇

编辑|杨 铭

DeepSeek的横空出世,让AI助手大战越来越激烈。

比如,原本“毫无存在感”的腾讯元宝,在接入DeepSeek后,以罕见重视程度疯狂烧钱投流,收获无数流量。近期反超字节跳动豆包、Kim,甚至DeepSeek,一度登顶苹果App Store免费App下载排行榜榜首。

但加大规模投流只是第一步,如何提升用户留存率、维持市场份额是更大考验。

决定这一切的是用户体验——即AI助手是否能够在实际工作、生活中发挥作用,提升效率。并且,在AI大模型幻觉仍未解决前提下,带给我们的是准确回答,而不是胡编乱造。

这也是困扰当下用户难以选择最大的疑问,DeepSeek、元宝、豆包、Kim,谁才是用户体验之王?到底谁优谁劣?

近日,“极点商业”从实用角度出发,对DeepSeek、腾讯元宝、Kimi、豆包四款国产大模型从准确性、深度思考、复杂文本处理等多个维度进行横向测评,挖掘这些工具在应用中的实际差异,希望能为用户选择最适合自己的AI工具提供依据。

01

深度思考:

数据胡编乱造仍然突出

如果传统搜索模式是“把饭递到用户嘴边”,当前大模型的突破在于告知用户“这桌饭是怎么做的,这道菜为什么香”。

深度思考能力不仅能精准分析用户需求和真实意图,帮助用户做出尽可能全面、准确的答案,还可展现模型在解决问题时清晰的思考逻辑,协助用户理清思路。

2月27日晚7点,小米举办发布会推出SU7 Ultra汽车,当晚雷军在微博发文表示,开售两小时该款汽车大定突破10000辆。

对此,“极点商业”向上述四款大模型提问,希望其帮助判断小米的股票是否值得投资?

腾讯元宝和DeepSeek给出了投资建议,Kimi认为小米在中长期内具有投资价值。豆包则在购买理由之外,还给出了存在风险的因素——从保护投资者权益角度看,此类风险提示很有必要,可以避免盲目投资。

从上至下:腾讯元宝、DeepSeek、Kimi、豆包

深度思考方面,仅有元宝详细展现了思考过程,从事件背景、分析维度、财务模型等方面呈现完整的分析框架,揣测用户投资需求。

Kimi和豆包则是基于网络信息整理出了有价值的参考建议。反倒是DeepSeek,分析逻辑来源于指令,也没有呈现参考资料,不过提供了短期和长期的多元策略供投资者选择。

至于大模型给出的投资建议是否准确,由于投资因素较多在这里不做评判。但在深度思考过程中,给出的数据准确性是可以核实验证的,从数据来看,大部分存在胡编乱造的行为。

据小米集团财报显示,公司2020—2022年营业收入分别为2458亿元、3283亿元和2710亿元,研发投入分别为100亿元、132亿元、160亿元。对比几款模型给出的经营数据,仅有DeepSeek准确。

小米集团2022年度报告

元宝虽然自动生成了表格,想要给用户更直观地呈现,但除了营业收入无误外,净利润率与研发投入比与实际均有出入。

据国际数据调研机构IDC显示,2020年小米手机全球份额为12%,而腾讯元宝提供的数据与实际相差1.4个百分点,更接近小米手机在当年第四季度13.7%的市场份额。

腾讯元宝梳理的小米近五年经营数据

这种信息偏差,一方面是由于大模型不能抓取最新事实,且参考的信息来源相对单一,导致生成结果往往基于老旧数据存在局限。

这一点在元宝的特别标注中可资佐证:本文数据截至2024年3月,具体投资需以实时财报及行业动态为准。很显然,元宝看似全面的企业分析和投资建议,与当前市场动态有一年的“时差”。

另一方面,当网页内容本身存在错误时,由于AI不能自主识别虚假信息并进行有效验证,会将错误信息当作事实输出。

四款AI助手中,豆包和Kimi都清晰标注了信息来源,Kimi采集信息的数量最多覆盖面也最广。

kimi生成数据 & 小米集团2022年财报

Kimi在阅读了179个网页后才进行分析,信源既包括企业官方,也涵盖了澎湃新闻、东方财富、新浪财经等主流及专业性媒体。抓取的最新信息是3月7日刊发的报道,时效性很强。但由于无法识别内容的准确性,导致Kimi呈现的2022年研发开支失实。

02

长文本和阅读理解:

元宝细节经不起推敲

回顾AI大模型的“竞争史”,功能不断创新,但对长文本的处理能力和阅读理解能力,可以说是用户最看重的核心竞争力之一。

早在2024年6月,新京报贝壳财经记者就曾用高考语文作文题目测试文心一言、通义千问、Kimi、百小应、腾讯元宝等8款模型的文本处理能力和知识深度。

题目是:“阅读下面的材料,根据要求写作。(60分)随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。”

时隔9个月,“极点商业”又带着同样的题目去问了一圈AI助手(3月8日测试)。

有意思的是,被评为“勤劳任怨人格”的Kimi给出了看似和之前截然不同的题目和文章,但通读下来,文章的中心思想、框架结构,甚至行文逻辑都与新京报测评的结果别无二致。不禁让人感慨:“AI,你竟然也学会了偷懒!”

Kimi测评结果(左为最新获得内容,右为新京报获得内容)

用户普遍认为AI会根据网络可搜集的信息不断更新答案,哪怕在不同时间提出相同的问题,大模型也会给出自带升级功能的完美回复。

不过,有行业人士指出,大模型是否会更新升级,取决于设计架构和数据更新机制。

一般而言,大模型在训练阶段会基于文本、书籍、新闻等数据学习其模式和规律,生成回答。训练完成后,大模型的知识固定,不会实时更新。如果要让模型回答最新信息,开发者需定期重新训练模型,或者通过技术手段补充数据。

此外,在小红书上也有不少网友提出,自己的“AI实习生”越来越懒了。

一位用户表示不管是ChatGPT还是文心一言、Kimi,只要没提出字数要求,回复的内容都很简短。偶尔上传文件让大模型分析,会回复看不到文件,只有明确发出“已上传文件,可以阅读”的指令才会得到想要的回复。让这位用户感慨“不仅回复短还想应付我”。

不过让人欣慰的是,DeepSeek、豆包的结果,展现了更为丰富的知识储备,文章结构清晰、逻辑较为严谨,引经据典语言较为优美。

从引经据典的准确性来看,豆包称“莫高窟藏有《色空不二》”,提及的历史事件(如深蓝战胜卡斯帕罗夫、AlphaGo击败李世石)都准确无误。甚至,还较为准确地引用了苏格拉底在雅典街头追问“什么是正义”。

腾讯宝的答案,与九个月前相比似乎更为深刻,此前文章还如同高中生作文般,在首段引用名人名言,规规矩矩地围绕题目作答。现在文章则使用了更有可读性的故事化开头,感觉AI在尽可能地通过奇闻轶事引导读者产生思考。

根据题目最新生成的内容,腾讯元宝(左)DeepSeek(右)

在这些内容背后,我们也发现了元宝、DeepSeek存在的问题。

首先是事实堆砌,篇幅很长却没有体现中心思想,并不符合主题要求;其次,段落之间的逻辑关联性不足,缺少过渡和层次递进,在复杂文本处理中的推理能力缺失。也难怪网友此前锐评“元宝推理关联能力及其拉垮”。

此外,在文本处理上,也存在很多细节性错误。比如元宝提及的《蒙娜丽莎的微笑》,嘴角处的透明油彩只有40层,而不是文中所说的数百层;恩尼格码密码机被破译的地点布莱切利园是英国政府进行密码解读的宅邸,并非公园。

DeepSeek所写文章中的“波粒二象性”提出者,是法国理论物理学家德布罗意,“光电现象”的理念是由德国物理学家赫兹发现的,而爱因斯坦则是对这种现象进行正确解释。

03

知识深度,

四款助手文献均有失实

这种细节失实的现象,与前述案例中大模型内容失实的原因截然不同。

当大模型在网络中无法获取有效信息,甚至陷入“知识荒漠”,遇到自己不熟悉的领域时,为了使生成的内容和逻辑连贯,就会无中生有地编造虚假事实和细节。

大模型这种“胡说八道”的本事,被称为“幻觉”。当AI成为人人都掌握的工具,这种虚假信息产生的后果会更为严重。

此前有媒体报道,一位化名小昭的法学硕士生,在日常写论文的过程中频繁使用豆包、DeepSeek等AI工具。她发现这些工具存在“幻觉”差异:OpenAI的 o1对国内素材掌握不充足;豆包语言平实,幻觉并不严重;DeepSeek语言最生动流畅,文字处理能力最佳,但编造细节的情况也是最严重的。

“在自身缺乏辨别能力的情况下,可能难以判断信息的真假。”清华大学长聘副教授陈天昊在采访中曾提到,对于学生等特殊人群来说,大模型幻觉问题带来的风险性可能更大。

一位在中部地区某高校工作的教师也向“极点商业”表示,在指导本科生毕业论文的过程中,会发现一些“AI幻象”的痕迹,最大的破绽在参考文献部分,“有些期刊名是真的,甚至是学科头部期刊,但一去检索根本找不到这篇文章。”

对于这一现象,我们也尝试让四种模型生成对知识深度要求极高的学术论文。问题如下:

请围绕“消费社会下商业广告对消费者购买行为的影响”这一问题,设计论文标题、大纲,并撰写摘要部分。要求:大纲设置到三级标题;摘要不少于1000字;列出引用的参考文献。(3月11日测试)

Kim论文摘要

DS论文摘要

豆包论文摘要

元宝论文大纲

横向对比评测的结果为:在摘要内容上,Kimi的语言最平实,对研究思路进行基本描述,但不够深入;DeepSeek和豆包不仅陈述了研究背景,还在没有依据的情况下创作出了研究结论;元宝则是将和主题相关的各领域理论和研究方法进行罗列,且在同一章内就涉及眼动追踪、个案分析、实验三种具体研究方法。

从知识储备和深度来看,元宝是四款AI助手中表现最好的,但摘要中列举了诸多没有来源的实验数据,且研究方法和理论的拼凑并不符合一般情况下学术研究思路,可行性最低。

至于参考文献部分,四款AI助手列出的文献均存在失实。

Kim文献及搜索结果

Kimi将学者的理论作为著作名称提供给用户,或将真实的研究者和期刊信息与虚假文章题目进行拼接;豆包、元宝及DeepSeek的部分文献虚构。

元宝参考文献及检索结果

以腾讯元宝提供的参考文献[2]为例,期刊确实存在,但在中国知网、百度学术、谷歌学术(镜像)、Springer Nature Link等中英文数据库中均查询不到该篇文章,这也是当前AI大模型存在的普遍问题。

不过,有关于生活服务类的问题,AI助手们的准确度还是很高的。我们向四款工具提问:三月份重庆周末徒步休闲去处有哪些?(3月6日测试)AI都给出了9—11个具体地点。

对比下来,DeepSeek和Kimi表现平平,只有简短的推荐理由。豆包则按照距离做出“市区—近郊—远郊”的层析分析,并提示出行路线。

元宝攻略最全面,除了按照景点特色进行分类,还标注了游玩难度、出行方式及游玩时长,用户可以根据自身需求和体力等因素进行抉择。

结语:

结合上述实例,我们从速度、准确性、信息识别、推理关联能力、长文本处理、用户体验等多个维度,对四款AI助手进行评估,以上是详细总结,来看哪款是最适合你的“AI实习生”吧。

END

出品人:黄枪枪

       原文标题 : AI助手巅峰对决:DeepSeek、元宝、豆包、Kim,谁是“智能之王”?谁又最糟糕?

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号