订阅
纠错
加入自媒体

CMMLU中文向排名第一!快手自研大模型来了

在国外微软、谷歌和Meta因为AI打得不可开交的时候,国内的互联网公司们也开始了新一轮的AI内卷。

一开始各家都想着自己要做出跟GPT一样的大模型,比如百度、360等大厂。但是算力、算法、数据这三大项,在国内的情况都心知肚明,根本和国外没得比。

尽管百度的文心一言、讯飞的星火还有360的智脑等等大模型都陆续上线,但是最后的效果都不怎么尽如人意。看到国内首屈一指的头部大厂都只能做成这样,一下子让不少公司回过味儿来,只要大模型能达到自己的需求就成,不去盲目拼什么参数和成绩,拼也拼不过。

前段时间,字节跳动代号为Grace的对话式AI项目,开启了内测。最近,这个名叫Grace的项目,改叫“豆包”了。在一众不是神仙就是神兽的AI面前,“豆包”倒显得有点可爱捏~

尽管字节的负责人说这个项目还不成熟,但是和抖音的结合还是值得期待。而另一边的快手,似乎也等不及要秀秀肌肉了。

最近频繁亮相的AI综合中文评估基准CMMLU等榜单上,一个KwaiYii-13B的模型成绩相当亮眼,更是一跃夺得CMMLU中文向排名第一!而这个KwaiYii-13B,就是来自快手的自研大模型“快意”(KwaiYii)。

CMMLU中文向排名第一!快手自研大模型来了

异军突起的“快意”

在CMMLU榜单中,KwaiYii-13B同时位列five-shot和zero-shot项目下的中文向第一名,在人文学科、中国特定主题等方面较强,平均分超61分。

CMMLU中文向排名第一!快手自研大模型来了

根据GitHub的页面显示,“快意”是由快手 AI 团队研发的大规模语言模型,而本次引发关注的正是其新版本 KwaiYii-13B。

目前,快意覆盖了预训练模型(KwaiYii-Base)、对话模型(KwaiYii-Chat),主要特点包括:

1、KwaiYii-13B-Base预训练模型具备优异的通用技术底座能力,在绝大部分权威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。

例如,KwaiYii-13B-Base预训练模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前处于同等模型规模的领先水平。

CMMLU中文向排名第一!快手自研大模型来了

2、KwaiYii-13B-Chat对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务,人工评估结果表明KwaiYii-13B-Chat超过主流的开源模型,并在内容创作、信息咨询和数学解题上接近ChatGPT(3.5)同等水平。

CMMLU中文向排名第一!快手自研大模型来了

据透露,快意目前已开启内测,并为业务团队提供了标准 API 和定制化项目合作方案。至于目的,明显是冲着字节的“豆包”去的。

哭死,这回豆包真成干粮了!

快手不光有“快意”

7 月 8 日,快手宣布正在内测智能问答产品。8月8日,快手就宣布“快手AI对话”开启小范围测试,而这俩其实都是基于“快意”大模型打造的对话式AI产品。

8 月 18 日,“快手AI对话”功能已经在快手 APP 安卓版本开放内测,成为短视频直播首个基于大语言模型落地的对话式AI产品。

在推出“快手AI对话”的时候,快手高级副总裁、研发线负责人于冰表示,AI大模型作为当下最重要的革命性技术,进入爆发期,有望开启AGI时代,而多模态内容生成与理解是其核心能力。

至于为什么要投入到这场AI大潮中去,于冰也有着这个行业的共同看法。他觉得短视频、直播作为最典型的多模态媒介,快手也应该抓住平台基因,在AI大模型领域重度投入,全方位探索技术突破。

他介绍说,目前,快手在AI大模型的布局体系分为三个层级:基于具备高性能、高并发、高算力的“大基建”,构建快手多模态的AI“大模型”,进而在搜广推、内容创作、用户增长、研发效能等领域内打造“大应用”。

有了AI辅助,影视创作的成本会明显地降低,周期也会缩短,这不管是对创作者来说还是对平台来说,都是好事,能形成良性循环。

短视频双雄的AI赛跑

字节有“豆包”,快手有“快意”。目前来看没有谁比谁强,只是侧重点相对不同。

“豆包”其实只是字节对外公开的AI对话大模型的一个模型而已,此外字节还提供“超爱聊天的小宁”“英语学习助手”“全能写作助手”三个不同的AI对话角色。

豆包大体上就和百度的文心一言一样,问答、续写、解析、推理等基础功能都有,主要还是内容生成服务。

CMMLU中文向排名第一!快手自研大模型来了

而快手AI对话的功能主要是为用户提供快速、简便的查找功能,用户可以通过对话的方式来快速查找自己感兴趣的内容,也可以通过对话的方式找到对应的短视频、达人或是其他内容。

说人话就是,“快手AI对话”其实更像Bingchat,更多的充当一个搜索引擎,让用户去搜索快手内容库里的数据。快手和字节的差异主要在于算法优化和数据训练规模,训练数据越多,其智能化程度就越高。

结语

短视频平台在走过AI算法推荐的路子之后,在生成式AI的加持下,到底能玩出什么花来呢?

而现在短视频的同质化会不会因为AI的到来,有所改变,则是广大用户们更为关心的。

如果最后只是为了更方便直播带货,或者单纯为了让创作者更轻松,但不在乎质量,那这个AI,还不如没有。

声明: 本网站所刊载信息,不代表OFweek观点。刊用本站稿件,务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像,违者将依法追究法律责任。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号