模态语义

AI大模型的2025年：智能体、多模态、更普惠

在2024年，全球科技领域取得了众多突破性进展，人工智能(AI)、量子计算、清洁能源、生物技术等领域的成就深刻改变了我们的生活。展望2025，科技发展将进一步呈现加速态势，同时也将与社会、经济和环境的需求更紧密地结合

AI 大模型 2025-01-08

采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA

最近，一直采用激光雷达和高精地图实现 L4 的自动驾驶公司 Waymo 的一个内部研究团队，发布了一篇关于利用端到端多模态自动驾驶模型实现自动驾驶的新论文。它采用类似于 ChatGPT

自动驾驶 Waymo 2024-11-08

最强多模态模型GTP-4o问世，OpenAI继续开启人工智能创新之路

在全球科技领域迎来又一次颠覆性创新的今天，OpenAI公司隆重宣布，其最新研发的GPT-4o多模态模型正式问世。这款全新的人工智能模型不仅继承了GPT-4的卓越性能，更在实时对话、图文分析等方面实现了质的飞跃，被誉为钢铁侠中全能AI管家贾维斯的现实版

人工智能 GTP-4o 2024-05-14

云鼎科技绑定华为，蹭上的多模态AI概念价值几何

《投资者网》潘思敏12月11日至13日，这三个交易日，云鼎科技（000409.SZ）股价三连板，期间公司也发布了股票交易异常波动公告，表示在盘古矿山大模型的自然语言处理和多模态能力方面的应用场景处于研发阶段，尚未对业绩产生影响

云鼎科技华为 2023-12-21

多模态AI，谁是成长最快企业？

企业成长能力是随着市场环境的变化，企业资产规模、盈利能力、市场占有率持续增长的能力，反映了企业未来的发展前景。本文为企业价值系列之【成长能力】篇，共选取43家多模态AI企业作为研究样本，并以营收复合增长、扣非净利复合增长、经营净现金流复合增长等为评价指标

多模态AI 2023-12-12

多模态AI，谁是盈利最强企业？

企业盈利能力是指企业获取利润的能力，通常表现为一定时期内企业收益数额的多少及其水平的高低。盈利能力的分析，就是对公司利润率的深层次分析。本文为企业价值系列之【盈利能力】篇，共选取26家多模态AI企业作为研究样本，并以净资产收益率、毛利率、净利率等为评价指标

多模态AI 2023-12-11

谷歌深夜发布复仇神器Gemini，原生多模态碾压GPT-4？

作者：一号 GPT-4最强的对手出现了。北京时间12月7日凌晨，谷歌CEO“劈柴”突然发布重磅AI杀手锏——Gemini。就在前几天，还有消息说Gemini要推迟一个月才上线，结果现在这么突然地发布，着实让AI圈料不到

新火种 AI 大模型 Gemini 谷歌 2023-12-08

赋能工业4.0的多模态元宇宙

（本篇文章共1242字，阅读时间约2分钟）元宇宙，其核心是虚实融合，相互使能。从词源来说，元宇宙英文一词Metaverse，是超越现实之意，也就是在人类既有的认知空间、情感空间中，如何用现代媒介手段达到虚拟和真实世界的互动

张建伟元宇宙 2023-03-03

昇腾AI助力大模型等前沿技术孵化，推动多模态人工智能产业联合体繁荣发展！

9月26日，以“共创产业智能新高度”为主题的多模态人工智能产业联合体第二次会议在武汉成功召开。会上，45家多模态人工智能产业联合体成员企业获得授牌；中科院自动化所、武汉人工智能研究院、华为共同见证《多模态基础大模型技术白皮书》发布；紫东．太初大模型开放服务平台发布

昇腾AI 华为 2022-09-27

使用U-Net方法对航空图像进行语义分割

在机器学习中，模型是在各种应用中训练的，特别是在深度学习和图像数据集上。基于卷积运算的方法在许多领域都进行了研究，尤其是手臂检测、自动驾驶汽车、无人机航拍图像、战争技术。人眼能够很容易地对所看到的进行分类和区分

机器学习深度学习数据集 2022-09-09

进化中的AI数字人，从多屏信息流通走向多模态情感交互

＠科技新知原创作者丨古廿编辑丨伊页万物互联网的5G时代，每个人要和多少块屏幕产生互动。在OPPO泛智能终端的生态里，这个答案可能是7块甚至更多。除了以智能手机为主的屏幕之外，还有已经推出的手表、电视、AR／VR等其他多种智能设备

科技数码 OPPO 2021-12-29

多模态人工智能产业联盟在武汉成立，中国移动、华为、爱奇艺加入

据奇偶派（jioupai）了解，12月18日，在武汉举行的2021东湖国际人工智能高峰论坛上，中科院与中国移动、华为等多家企业、机构合作组建的多模态人工智能产业联盟正式成立。本次在武汉成立的多模态人工

武汉人工智能 2021-12-20

人工智能算力网络面世：多模态大模型已成大势所趋

文 | 曾响铃来源 | 科技向令说用文字描述“一个女人打着红色的雨伞在路上走”,系统呈现出一张唯美的街拍;有一张飞机起飞的照片,想配上一段适合的声音,上传图片后,一段发动机呼啸声的音频播放出来;把淅淅沥沥的下雨声导入进去

人工智能算力网络 2021-09-30

语音、手势、触控、人脸等，思必驰多模态交互开启智能经济时代

人类的交互通道有眼耳鼻舌口等器官,他们充当着外在世界信号的“接收器”,将范围内的信号接收并传递给“大脑”。在机器世界里,从过去鼠标键盘转变成当下的触控、语音、手势、视觉等,多模态人机交互技术正在彼此融合

思必驰 2021-07-07

度家语音语义一体化方案是语音识别最优解？

什么是智能?可以找到的回答有很多,不过近几年逐渐有了统一的答案。当你想要知道明天的天气情况时,可以直接问家里的智能音箱;当你开车时想要切换导航路线,可以直接说出新的目的地;当你感觉空调不够凉爽的时候,也可以直接告诉空调把温度调低一些……智能化的标准或许很广泛,但语音交互已经是最基础的门槛

AI 智能家居语音识别 2021-06-25

计算机视觉专业术语解析：先验知识、语义信息、embedding等

在计算机视觉中存在很多的专业术语,如先验知识,语义信息,embedding,head,neck等。这些术语的解释无法直接在网上搜到,也没有在哪一篇论文中定义它们的概念和意义,因此,对于第一次听到这些术语的读者来说会非常的困惑

计算机视觉先验知识语义信息 2021-06-21

卷积神经网络：解决图像分类、语义分割或机器翻译问题

金翅导读卷积神经网络已成功应用于解决诸如图像分类语义分割或机器翻译等问题，其中解决的这些问题的基础数据表示具有网格状结构。但是，目前许多有趣的任务的数据为无法以网格状结构表示的数据，而这些数据位于不规则的域中

图卷积网络机器翻译卷积神经网络大数据图像分类 2021-01-07

百度提出的持续学习语义理解框架RNIE基本原理简析

本文以通俗易懂的语言介绍了百度提出的持续学习语义理解框架 ERNIE 的基本原理，和利用 ERNIE 来解决下游 NLP 任务的过程。一、简介人工智能这个古老而又年轻的学科，正在经历一场由深度学习引领的革命

百度 ERNIE 深度学习 NLP 2020-12-17

语义分割与实例分割的区别

/ 导读 /以人工智能为导向的现代计算机视觉技术,在过去的十年中发生了巨大的变化。今天,它被广泛用于图像分类、人脸识别、物体检测、视频分析以及机器人及自动驾驶汽车中的图像处理等领域。图像分割技术是目前预测图像领域最热门的一项技术

实例 2020-11-21

多模态、多传感器融合才是生物识别的未来

本文来源:物联传媒本文作者:Vior．Liu从今年年初到现在,ToF传感器一直以来都是苹果、三星、GD、AMS等传感器企业和智能硬件企业所关注的技术,而ToF传感器目前应用最为广泛的领域就是人脸识别。几乎人人都在政务、门禁、支付等等这些应用场景使用过人脸识别

ToF传感器人脸识别 2020-11-05

业内首创“多模态唤醒”：天猫精灵发布全新人机交互系统

在2020云栖大会上,天猫精灵发布了首个全场景人机交互系统AliGenie5．0,将视觉、语音、触觉等多种形态的交互方式融合在一起,能更精准地感知物理世界,深入理解使用者的意图。

多模态唤醒天猫精灵 AliGenie5．0 人机交互系统 2020-09-20

眼神科技多模态生物识别平台助力重庆银行打造“强引擎”

近日，眼神科技凭借领先的解决方案、优质的产品和专业的服务，中标重庆银行生物识别平台项目。眼神科技将为重庆银行提供ABIS多模态生物识别统一平台，打造全行级的人工智能服务平台。

眼神科技重庆银行生物识别 2020-08-17

以语义智能技术为导向，拓尔思冲刺AI硬科技

人工智能技术作为一种底层技术，被广泛应用于各类行业的智能产品当中，尤其在疫情期间，人工智能的作用意义最为突出，如现在大多数人所使用的健康码、线上AI医生咨询软件，还有在地铁与社区、公司应用的识别测温系统，各种配送、喷洒类机器人

大数据强人工智能拓尔思施水才语音智能技术 2020-04-11

Oral: 自监督学习-通过辅助推理任务实现高效的视觉语义导航

自监督学习——通过辅助推理任务实现高效的视觉语义导航。关于作者朱峰达本科毕业于北航软件工程系，是蒙纳士大学信息技术学院数据科学与人工智能系的博士生，师从蒙纳士大学的常晓军老师和中山大学的梁小丹老师。他的研究兴趣在于机器学习中的视觉语言导航和推理任务

自监督学习视觉语义导航 2020-04-01

扎根多模态，是新基建中AI走向未来的必由之路？

近日，由蚂蚁金服牵头制定的“生物特征识别多模态融合国际标准”正式立项，这一标准的制定，对于多模态领域发展与技术规范产生了重大影响。为此，笔者与眼神科技、云从、银河水滴等多个企业方，进行了关于多模态领域发展主题的对话

人工智能新基建多模态技术生物特征识别 2020-03-30

物流机器人、AI识图、语义理解…..上海“战疫”走向智能化

“患者今日没有特殊不适，继续给予中药治疗，等候进行CT复核、核酸复查。”武汉市，武汉客厅方舱医院里，身穿密不透风防护服的临床医生坐在电脑前，对着麦克风说出这样一段话。以上话语被如实记录，并在电脑荧幕上自动转换为文字，这是武汉客厅方舱医院工作中常见的一幕

人工智能 AI 机器人语义理解 2020-03-16

DeepTalk深言堂 | 清华刘永进：多模态情感计算

深兰科学院打造的学习平台“DeepTalk深言堂”，于2020年1月9日首次开讲。我们有幸邀请到清华大学计算机科学与技术系的孙富春、邓志东、刘永进三位学术界知名的专家教授，特别带来三场基于最新科研动态的精彩报告

情感计算 DeepTalk 2020-03-10

蚂蚁金服立项“生物特征识别多模态融合”

蚂蚁金服今天宣布，在电气和电子工程师协会（IEEE）成功申请成立“移动设备生物特征识别”标准工作组，并立项“生物特征识别多模态融合”国际标准，再度牵头生物识别国际标准的订立。

蚂蚁阿里生物识别 2020-02-27

语义分割丨DeepLab系列总结「v1、v2、v3、v3+」

梳理了一下DeepLab系列的工作，主要关注每篇工作的背景和贡献，理清它们之间的联系

代码 2019-10-29

一键反AI、精准辨真伪南京摄星智能发布多模态AI智能检测产品“星眼鉴”

10月16日晚，专注于军事领域智能化的智慧防务服务商——南京摄星智能科技有限公司（以下简称“南京摄星智能”），发布了全国首款分别面向B端和C端的多模态AI生成信息智能检测应用小程序——星眼鉴。不仅能够

AI 智能检测 2019-10-17

语义理解核心技术揭秘百度AI快车道第五期开营

百度 AI 快车道企业深度学习实战营是一个面向有 AI 技术需求企业的算法工程师、架构师群体提供的快速应用扶持计划。依托百度自身深厚的深度学习技术实践经验，为其他企业提供帮助。

百度飞桨 2019-08-07

深度好奇：深挖语义理解，助力打造机器版“福尔摩斯”

人与人之间说不同语言，尚且会出现沟通障碍，当人类和机器交互时，这种障碍则会变成巨大的鸿沟。毫无疑问，人工智能是时代发展不可逆的技术趋势，而作为这个时代的核心参与者——人与机器，如何更好地交互始终是待解问题

语义理解 2019-08-02

Intel和IBM押重注的神经模态计算，行业能否蜕变

神经模态计算目前或许只要把神经元的数量和神经突触连接数量跨过一个阈值，那么神经模态计算就有可能爆发出巨大的能量，甚至远超之前的想象。

Intel IBM GPU 人工智能 2019-08-01

自动驾驶语义高精地图的层级实现

语义高精地图是高层级的高精地图，语义地图的实现需要以几何地图为基础。在这篇文章中，将要讲述自动驾驶语义高精地图的实现过程。正如人类驾驶员出行需要导航地图并观察周围环境来确定行驶路线

自动驾驶高精地图 2019-05-23

云知声发布多模态AI芯片战略，同步曝光三款在研芯片

继去年5月在行业率先推出首款面向物联网的AI芯片—雨燕（Swift）及其系统解决方案之后，1月2日，国内领先的人工智能企业云知声在京召开新闻发布会，正式公布了其多模态AI芯片战略与规划。

AI芯片云知声 2019-01-03

文本语义识别领军企业达观数据完成B轮融资，累计融资超2亿元

11月22日，达观数据宣布成功完成1．6亿元B轮融资，由宽带旗下基金晨山资本领投，元禾重元、联想之星、钟鼎资本及老股东等跟投，华兴资本担任本轮融资的独家财务顾问。

达观数据语义识别 2018-11-22

从语音识别到语义识别，中间还有多长的路要走？

最近科技圈刮起一股收购风，前面博通收购高通还在如火如荼的进行，这周苹果就宣布收购音乐识别软件Shazam。Shazam这个软件，通过手机麦克风收录音频片段，能够识别音乐、电影、电视节目甚至是广告。

语音识别语义识别 2017-12-16