订阅
纠错
加入自媒体

【年度专题】AI+AR,将促成下一代计算平台的飞跃

2024-01-17 11:38
VR陀螺
关注

文/VR陀螺 万里

近期百度公布了2023年百度沸点年度关键词,不出意外,生成式AI赫然在列。

去年一年当中,各大科技巨头相继发布了其AI大模型,GPT-4、LLaMA、PaLM2、Runway Gen 2、文心一言、Meta AI、Gemini......AI大模型产品无疑是目前科技圈最重要的“兴奋剂“,而其更新迭代速度也让很多人眼花缭乱。

目前AI已然成为电子消费市场的核心诉求之一,这点在我们今天要聊的AR眼镜市场也同样如此。

在早些时候,AR眼镜的重要议题仍停留在“AR眼镜能否成为下一代计算平台?”而到了现在,社会更关注的议题已经变成“未来眼镜形态的智能终端能否成为AI的绝佳载体?”

无论是新的计算平台,又或是新的AI计算终端,AR眼镜都成为了其中不容忽视的关键一环。

本文将回顾2023年以来一众AR厂商关于AI应用场景的探索,并展望“AI+AR”两者的发展趋势。

图源:VR陀螺

 AI+AR是众望所归,当前AR眼镜的  AI能力仍集中于语音交互 

从2023这一年的发展来看,AI对于AR眼镜的重要性已无需多言。关于这点我们可以先从AR行业大咖发声中略窥一二:

Meta CEO 扎克伯格:我认为智能眼镜将成为未来的一个重要平台......之前团队不少人认为智能眼镜只有当真正实现3D全息图、内置显示器等才会真正普及,但是这需要很长的时间。如今得益于AI的进步,内置的AI助手将能看到你所看到的,听到你所听到的,AI将与其他AR功能同样重要。

Snap CEO Evan Spiegel:我相信我们都在脑海中对自己想要创造的东西有一个愿景。然而,通常情况下,这些工具不够复杂,无法让我们将想象的图像、视频或AR体验变为现实。我认为AI将有助于弥合我们的想象力和我们可以在手机或AR眼镜上实际创造的东西之间的差距。

图源:Snap

雷鸟创新 CEO 李宏伟:我们相信,AI 会是 AR 眼镜上第一个 Killer APP......AI 和 AR 的结合可以给未来的镜像世界打造非常好的内容基础。未来元宇宙的内容很大程度上会是 3D 内容,3D 内容的产生比较复杂,而 AI 大模型可以在这一方面发挥特别重要的作用。

李未可科技 创始人兼CEO 茹忆:AR眼镜有望成为“下一代计算终端”,而AI的交互能力,也将成为AR眼镜的核心能力。二者的深度结合,将使AR眼镜成为一个真正意义上无缝融入人们生活的智能设备,而不仅仅是一个离头最近的玩具。同时,在AI 和AR的深度融合方面,李未可正在打造的是 AI Agent,它也并非是一个更智能的助理或是更方便的交互模式如此简单,AI Agent 将是融合手机上所有Apps 的能力,成为 AR眼镜的一个系统。

图源:李未可科技

如果回顾2023年所发布的AR眼镜产品,可以发现其中大多数产品都与AI进行了靠拢,并且尝试基于AI为用户带来更优秀的使用体验。如果展开来看,其中不乏隐性的AI能力构建,比如基于AI算法提升语音识别准确率、在交互场景中通过AI提升手势识别以及SLAM的鲁棒性等。而对于用户而言,最容易感知的莫过于AR厂商基于AI为我们带来的新功能以及场景探索。

2023 AR眼镜及其AI玩法盘点(图源:VR陀螺)

以下是常见的AI功能玩法:

语音助手:这是目前AR眼镜设备最为常见的AI体验,当设备接入ChatGPT或者类似的大型自然语言模型后,眼镜支持上下文语意理解,并且能够以更趋近于真人的方式回复用户。举例而言,李未可Meta Lens S3搭载了大型语言模型AI系统,你可以通过语音的方式与设备闲聊、获得一些健身、旅游行程方面的建议等。你可以面向设备询问各种五花八门的问题,有时候还会获得一些意想不到的回复。

Meta Lens S3的“吐槽垃圾桶”功能(图源:VR陀螺)

物体识别:这也是AR眼镜常见功能之一,较为典型的产品是Ray-Ban Meta,它将在今年引入建筑识别、菜单/路牌翻译等功能。国内雷鸟X2、ARKnovv A1等产品也内置了识物功能,不过基于当前体验来看,设备的物体识别准确率还有待提升。

海外的Envision Glasses则另辟蹊径为眼镜开发了一项人脸识别功能,它可以识别生活中亲朋好友的面孔,用以解决一些患有视障或者脸盲症的用户群体的社交问题。

雷鸟X2识图功能(图源:VR陀螺)

生活/办公助理:目前已经有部分AI智能终端显露出了“AI Agent"的苗头,在这一方面Ai Pin走在了前列。Ai Pin与用户的社交生活进行了深度绑定,如用户可通过语音指令驱动设备向亲友发送符合心意的聊天回复;AI可以帮助用户快速整理邮件并提取有价值的信息;AI可以提供生日礼物购买建议并快速下单等。

除Ai Pin外,我们也可以从Rokid设备中看到类似的用例。Rokid在去年Rokid Jungle活动期间亮相了空间搜索功能,当用户搜索网页、视频等内容时,系统会根据信息的权重呈现出不同的排列方式,该功能不但兼顾了AR的使用直觉,同时也通过AI功能进一步提升了用户对于信息的获取效率。

图源:Rokid

图生图:目前AR眼镜设备关于“AI生成内容”的玩法仍以文生文体验为主,文生图、文生视频等体验则相对稀缺。ARKnovv A1是目前为数不多的支持AI图生图的眼镜产品,眼镜可以对其拍摄画面进行“二创”以生成风格多样化的图片,并支持导出到社交平台。该功能背后依赖于开源大模型Stable Diffution。

ARKnovv A1的AR创作功能(图源:VR陀螺)

 多模态AI是众望所归  全天候AI是北极星指标 

如果说2023年是“AI+AR”的小试牛刀,那么2024年便是其进一步爆发的节点。有消息指出,在新的一年中,华为、科大讯飞等更多厂商会进一步入局AR眼镜市场,以实现市场占位。从功能来看,预计“AI+AR”将会迎来以下新变化:

多模态AI

目前AR眼镜所采用的多为单模态AI大模型,这使得产品的玩法相对单一,难以实现更复杂的多元信息处理能力。未来我们有望看到多模态AI在眼镜终端的进一步应用落地。

所谓多模态AI,指的是能同时处理文本、图像、音视频、代码等多种信息的人工智能,它的信息处理方式更接近于人类的“所看、所听、所想”。近期谷歌所发布的Gemini正是多模态AI的代表之一,从演示视频中我们可以发现Gemini可以“理解”用户在纸上所画的内容,并能结合用户的对话交流给予相应的反馈。

Gemini演示视频(图源:谷歌)

无独有偶,Meta也正在为Ray-Ban Meta引入多模态AI能力,去年年底扎克伯格展示了基于智能眼镜的一个服装搭配使用场景:当眼镜镜头对准衣服,AI不仅可以识别衬衫的样式,并且还能进一步给出相应的穿搭建议。在这么一个简单的场景中,其实需要调用自然语言处理、图片识别、推理等多种能力,这些都是单模态AI所难以实现的。

可以预见,未来多模态AI将有望成为AR眼镜的标配,甚至我们可以进一步推测:AR眼镜产品的摄像头将会成为至关重要的模组之一,摄像头或许会在AR眼镜上率先落地,其优先级甚至会高于光学屏幕。

图源:Meta

更强的生产力属性:

除智能手表、智能手机以外,AR眼镜同样是一个绝佳的随身携带可穿戴式设备。当前智能手机主要作为用户信息中枢、智能手表从中探索出来的核心应用场景是信息辅助以及健康检测。AR眼镜的杀手级应用无疑是“AI Agent”,因为它具备了与用户一样以第一视角感知、记录世界的能力(这些是其他设备所欠缺的)。随着AI能力的提升,AR眼镜无疑会化身为更强大的私人助理。

未来AI+AR将会更为深度的参与到我们的工作以及学习流程,比如谷歌去年上线的Google Lens搜题答题功能,借助AI可以快速分析一些K12课程题目并且给予解答;此外,在会议场景中,在AI技术的帮助下,我们有望使用AR眼镜快速生成会议纪要等。

图源:谷歌

LBS玩法的进一步落地:

走出户外一直都是AR眼镜所倡导的核心价值之一,当前的AR眼镜已不乏相应的探索,比如ARKnovv A1的探店、 Ray-Ban Meta的建筑识物等。

而李未可科技Meta Lens系列产品更是直接选择从骑行、徒步、城市旅游等大户外场景切入,通过AR+LBS以为这类用户群体构建更好的运动体验。

如Meta Lens S3内置的 AI 助手可在骑行时起到领航员的作用;在CityWalk场景下,眼镜除导航外还可以识别街景信息,并为用户介绍沿途景点和推荐美食。除此之外,Meta Lens 3配备了一枚拍摄按钮,方便用户能在旅途过程中通过第一视角记录生活。

图源:李未可科技

随着光学以及AI等技术的升级,未来AR眼镜有望进一步拓宽其LBS娱乐玩法。如扎克伯格曾在Meta Connect 2023期间提到了一个“网球裁判”的眼镜用例,在网球运动中,如果双方对于球是否出界等意见有分歧,则可以进一步参考AI的意见。

目前Snap、谷歌、苹果等厂商都在积极完善其地图服务,如Snap的基于地图的社交、苹果近期对地图AR导航功能加大了投入,未来这些LBS体验也会进一步迁移到AR眼镜终端。

图源:苹果

全天候AI:

基于续航方面考虑,目前AR眼镜的AI功能都需要基于唤醒词或者按键的方式激活,这种体验方式距离真正的“AI Agent”显然还有很远距离。在理想情况下,AI应该能够全天候陪伴我们,随时响应我们的需求,并且它还能像计步器一样通过不断记录用户所触达的外在信息最终让产品更了解我们。

Meta CTO Andrew Bosworth也曾表达了类似的愿景:“未来眼镜将会拥有功耗足够低的传感器,它能够检测到触发意识的事件,从而触发人工智能,这才是我们真正的梦想。”目前距离全天候AI显然还有很长的路要走,这是值得未来持续努力的重要方向。

如今的AR眼镜类产品续航普遍在4小时以内,而Meta Lens 3表现会稍好,达到了6-8小时。为了解决全天候使用的问题,Ray-Ban Meta等产品采用的是结合充电盒补电的方式,而Ai Pin则设计了电池外置磁吸方案,可进行快速换电。

图源:Meta

 潜在的问题: 算力、隐私与产品形态之争 

无可否认,AR眼镜仍处于非常早期的阶段,反映在出货量上,AR产品国内只有数十万台区间,远不及智能眼镜的零头;反映在产品形态方面,其仍处于探索期,产品百花齐放,如包含了分体式、一体式方案,其中又涉及了观影、信息辅助、拍摄等场景的探索。

AR眼镜仍未成熟,发展路上仍需要解决诸多问题:

算力问题:

以一体式AR眼镜为例,其搭载的主处理器芯片种类颇多:如INMO Go搭载的是炬芯科技ATS3085芯片、雷鸟X2搭载的是骁龙XR2、MYVU探索版搭载的是骁龙SW5100等。

高通于去年发布了专门面向于AR眼镜的最新芯片平台骁龙AR1,这是一款低功耗芯片,并且采用第三代Hexagon NPU,支持终端侧部署视觉搜索、实时翻译等AI能力。目前Ray-Ban Meta以及雷鸟X2 Lite已经搭载该处理器,不排除今年会有更多眼镜产品采用该方案。

不过另一边,伴随着高通XR2 Gen 2以及AR1的发布,我们也可以预见未来较长一段时间头显以及眼镜设备功能的分野:头显具备更强的性能,用以支撑更复杂的游戏应用体验,而AR眼镜(特别是一体式AR眼镜)则会更聚焦于AI信息辅助、拍照等轻量化玩法。在算力薄弱的情况下如何进一步引入具有庞大参数的AI模型会是一大考验。

图源:高通

隐私问题:

早在十多年前Google Glass推出时,社会各界便开始对“挂在眼前的摄像头”这一类产品感到警惕。伴随着AR眼镜出货量的提升,由此导致的隐私问题将会持续存在并且日益严重。

关于如何减轻由AR眼镜摄像头所引发的隐私困扰,当前AR眼镜厂商的思路主要有两种,一类是Ray-Ban Meta和Ai Pin等产品,它们倾向于加入一个无法关闭的相机指示灯,这样可以在设备相机工作时起到提醒路人的作用。而还有一种设计思路则会倾向于将摄像头尽量设计得小巧,以更好隐藏于机身当中。

Ray-Ban Meta左侧的相机指示灯(图源:Meta)

产品形态问题:

IDC 2024年中国智能终端十大洞察报告指出,预计2024年中国市场上搭载AI功能的终端设备将超70%,AI终端占比将达55%。除了AR眼镜外,AI能力也还在PC、智能手机以及智能手表等品类中不断得到强化。

有关AI硬件的终极形态的争论不绝于耳,眼镜会是其中一种理想形态,但也有可能不是唯一解。

2023年最值得关注的AI产品自然离不开Ai Pin,它在智能手表以及智能眼镜等可穿戴式设备的基础之上开辟了一个全新的赛道,它主打集成AI的私人助理,并且有意通过投影方案来弱化海量信息对于用户的视觉侵扰。目前用户对于这款产品褒贬不一,后续市场表现有待进一步观察。

目前一众智能手机厂商也已经选择拥抱AI,如近期OPPO发布了安第斯大模型(AndesGPT),模型最高包含上千亿个参数,可以灵活端侧部署于未来的智能手机、智能手表、平板电脑等产品中。

当前AR眼镜的一大困境在于内容生态的薄弱,这点反映在AI体验上也同样如此,导航、翻译、识物....这些功能在手机侧也已经具有完善的解决方案,未来AR眼镜如何走出差异化路线则是值得持续关注的问题。

图源:OPPO

 结语 

当前AR眼镜市场似乎已经来到了指数级爆发增长的前沿,IDC预测2024年中国AR市场出货量将增长101%;有人则认为AR眼镜会在2030年彻底取代我们的手机电脑。

目前AR核心光学技术不断迎来捷报,而市场的”AI军备竞赛“又在加速着AGI的到来。在AI的加持之下,今年的AR市场,无疑是肉眼可见的令人期待。

       原文标题 : 【年度专题】AI+AR,将促成下一代计算平台的飞跃

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号