智谱·AI人工智能发展月报（2021年1月）

7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>
即日-2025.8.1《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
立即下载>>

2021-01-31 16:59

四、AI 学者个人动态

1．陈文光荣获 2020 年 “CCF 杰出贡献奖”

1 月 18 日,中国计算机协会(CCF)公告决定授予智源学者、清华大学陈文光教授 2020 年 “CCF 杰出贡献奖”,以表彰他为 CSP 的权威性、专业性做出的杰出贡献。该奖于 2010 年设立。陈文光,国内系统研究的领军人物之一,中国计算机学会副秘书长,曾任 ACM 中国理事会主席、ACM 中国操作系统分会 ChinaSys 主席、ACM 通讯中文版主编等。

陈文光的学者画像(来源:AMiner )

2．张正友成腾讯首位 17 级杰出科学家

2021 年 1 月 8 日,腾讯 Robotics X 实验室及腾讯 AI Lab 负责人张正友博士成为腾讯首位 17 级研究员 / 杰出科学家,17 级是腾讯历史上最高的专业职级。张正友领导创建了机器人实验室 Robotics X,并致力推进人机协作的下一代机器人研究。目前 Robotics X 实验室主攻移动、灵巧操作和智能体等三大通用机器人技术的研究与应用,并聚焦于多模态移动机器人的研发。腾讯 AI Lab 在张正友的带领下,致力于全栈式的人工智能的基础研究和应用探索。在做原创性研究的同时,腾讯 AI Lab 还探索结合腾讯场景与业务优势的应用,其研发的农业 AI iGrow 系统、虚拟人技术、人脸识别系统、语音前端技术等已经在腾讯多个产品和业务中落地应用。

张正友的学者画像(来源:AMiner )

3、Jacob Ziv 获得本年度的 IEEE 荣誉勋章

近日,90 岁的 IEEE 终身 Fellow、以色列科学家 Jacob Ziv 因其 “对信息论和数据压缩技术的重要贡献和杰出研究领导地位” 获得本年度的 IEEE 荣誉勋章。LZ77 与 LZ78 是 Abraham Lempel 与 Jacob Ziv 在 1977 年以及 1978 年发表的论文中提出的两个无损数据压缩算法,二人脱离了 Huffman 及算术编码的设计思路,创造出了一系列比 Huffman 编码更有效,比算术编码更快捷的通用压缩算法。LZ77 的诞生,被称为 “压缩算法的开山之作”。LZ 是世界上第一个成功的主流通用压缩算法,该算法及 Jacob Ziv 的分析为后来的通用算法工作奠定了基础。

Jacob Ziv 的学者画像(来源:AMiner)

4．陈国良、孙永强荣获 2020 年 “CCF 终身成就奖”

CCF 奖励委员会决定授予深圳大学陈国良教授和上海交通大学孙永强教授 2020 年 “CCF 终身成就奖”,以表彰他们为中国计算机事业的发展做出的卓越贡献。“CCF 终身成就奖” 授予在计算机科学、技术和工程领域取得重大突破,成就卓著、贡献巨大的资深中国计算机科技工作者。该奖于 2010 年设立。

五、重要 AI 科研成果

(一)国外 AI 科研

1、AI 将用于体外受精

最近,以色列一家机器学习创业公司 AiVF 表示,与传统方法相比,人工智能有可能将体外受精(IVF)的成功率提高三倍。AiVF 使用 ML 和计算机视觉技术,使胚胎学家能够发现哪些胚胎在子宫内植入过程中,最有可能获得成功。据 IEEE 报道,AiVF 的 ML 技术涉及获取在孵化器中创建发育中的胚胎的延时视频,在五天的视频中显示了胚胎发育中的各种里程碑阶段。AiVF 的初步结果表明,计算机视觉和 ML 可能会降低 IVF 的价格,反过来说,这会使女性怀孕的成本降低。现在,研究人员训练了一种机器学习算法,通过各种标注了 “患病” 和 “健康” 的数据集训练机器,以识别胎盘样品薄片中图像的某些特征。

2、OpenAI 发布 120 亿参数图像版 GPT-3

1 月 5 日,OpenAI 同时发布了两个与 GPT 有关的文本 - 图像工作:DALL?E:个利用文本 - 图像数据集,有着 120 亿参数的 “GPT-3”,可以根据文本生成各种各样的图像;CLIP:可以通过自然语言的监督来有效学习视觉概念,只需要提供要识别的视觉类别名称,利用 CLIP 便能够做任意的视觉分类,类似于 GPT-2和 GPT-3 的 “Zero-shot”功能。这两项工作的突破性是无疑的,但同时作为前奏,也让人更加

期待 OpenAI 接下来的 GPT-4 了。GPT-3 给人们带来的深刻印象是,大模型可以执行各种文本生成任务。与利用 GAN 来做文本到图像的生成不同,DALL?E 能够为大量五花八门的句子创造出似是而非的意象,这些句子很多时候本身就是对语言结构的探索。在生成之后,DALL?E 采用 CLIP 进行排序,从中选取最优结果,整个过程

3、美学者研制出一种光学卷积神经网络加速器

近日,美国乔治?华盛顿大学和加州大学洛杉矶分校的研究人员与深度科技创业公司 Optelligence LLC 共同开发出一种光学卷积神经网络加速器,每秒能够处理拍字节(1 拍字节 = 250 字节)级的大量信息。这项创新利用了光的巨量并行性,预示着用于机器学习的光学信号处理新时代的到来,应用领域包括无人驾驶汽车、5G 网络、数据中心、生物医学诊断、数据安全等。为了在这种光学机器学习系统中实现突破,研究人员用基于数字镜的技术取代了空间光调制器,从而开发出速度快百倍的系统。该处理器的非迭代时序,再加上快速的可编程性以及大规模并行化处理,使得这个光学机器学习系统的性能甚至超越顶尖的图形处理单元一个数量级,而且在最初的原型机之外还有进一步优化的空间。不同于目前电子机器学习硬件中按顺序处理信息的范式,这款处理器采用了傅里叶光学,即频率滤波的概念,可以利用数字镜像技术将神经网络所需的卷积执行为更简单的逐元(element-wise)乘法。

4、人工智能代理在盲文键盘上打字

布里斯托尔大学的研究人员最近进行了一项研究,旨在通过强化学习来教人工智能代理在盲文键盘上打字。盲文键盘是允许人们用盲文为计算机输入指令的设备。他们使用最先进的深度学习算法来完成在模拟和真实环境中创建的四项任务(即使用物理机器人),这些深度学习算法取得了显著的效果。

5、机器学习可以提高粒子加速器故障诊断功能

美国能源部国家加速器设施的初级粒子加速器操作员正在获得一种新工具,以帮助他们快速解决妨碍加速器顺利运行的问题。一个新的机器学习系统已经正确地识别出故障加速器组件和正在经历的故障类型。对定制机器学习系统第一次现场测试结果的分析最近发表在 Physical Review Accelerators and Beams 上。连续电子束加速器设施是美国能源部的一个设施,其特点是核物理学家利用一种独特的粒子加速器来探索物质的核心。

6、德国劳恩霍夫开发可视化软件

德国弗劳恩霍夫计算机图形学研究所 IGD 开发了一个可视化应用程序。它的主要重点是产品设计,即产品的开发中所有的可变特性或性能指标的计算和平衡。弗劳恩霍夫研究人员与奥地利林茨机电一体化中心(LCM)一起,专门将这一项目应用于电机的开发。林茨的研究伙伴生成了技术数据,并在此基础上对所有产品参数进行了数学模拟。所有产品参数在一个单一的交互式可视化 Fraunhofer 软件创建的可视化表示涵盖了与电机开发相关的所有标准,包括:尺寸、重量、发动机功率、扭矩、消耗、成本、效率和温度。通常,在同一时间最多观察 10 个不同的标准。可视化以精确曲线图的形式描述了各个参数之间的相互作用,特别是当一个值发生变化时会发生什么。

7、亚马逊推出五大 AI 工具

借助五款专注于工业应用的 AI 工具,亚马逊云计算服务(AWS)正在努力扩大工业 AI 的使用范围。这些工具可以 7x24 小时不间断地守护制造工厂,在检测生产线和其他系统问题的同时,还可以预测所需的维护任务,能够帮助工业和制造业客户将机器智能带入他们生产流程的机器学习服务,可提高运营效率、质量控制、安保和工作场所安全。利用机器学习、传感器分析和计算视觉功能,这些工具要通过云到边缘(云计算和边缘计算)的工业机器学习服务,帮助制造业和工业运营解决常见的技术挑战。

AWS Auto-Aug 搜索算法(来源于 AMiner)

8、牛津大学 ML 算法实现 10 万高压非晶硅原子的模拟

2021 年第一期《自然》杂志封面研究中,来自牛津大学的 Volker Deringer 等人展示了模拟加压非晶硅的原子机器学习模型,成功解决了这一挑战,并捕获了实验中遇到的所有结构变化。这种计算方法可以为实验条件极富挑战性的材料预测建模开启全新的方式。这是 2020 年 12 月 DeepMind 人工智能解决生物学 50 年来重大挑战之后,人工智能在又一个新的领域展现强大能力。

9、日本 Fugaku 超级计算机计划推出

Fugaku 设定了 9 个对社会有重要意义的应用领域,如医学、药理学、灾难预测和预防、环境可持续性和能源。Fugaku 计划于 2021 年在神户的 Riken 设施正式推出,它成为世界上第一台在原始计算速度、大数据处理、人工智能深度学习和实用模拟计算四大类别中均位居榜首的超级计算机。它是由日本理研所和富士通公司联合开发的,耗资 1300 亿美元。

10、IBM 公司使用光学在人工智能系统中创建超快速计算

近来,IBM 研究人员推出了一种新方法,该方法可以为深度学习应用程序带来巨大的变化,这些应用程序可以完全用光而不是电来执行计算。研究人员已经创建了一个光子张量核心,其基础是光粒子的特性可以以前所未有的速度处理数据,从而以极低的延迟提供人工智能应用程序。使用光学物理学,IBM 开发的技术可以在单个内核中并行运行复杂的操作。结合内存计算,IBM 的科学家实现了超低延迟,这是电路所无法比拟的。IBM 开发的基于光的处理器具有同时执行多项操作的能力,因此所需的计算密度也较小。尽管 IBM 的研究人员已经成功设计并测试了一个强大的内核,但是他们需要扩展试验,以确保该技术可以在系统级集成,以确保端到端性能。

11、Nature:世界最快光子 AI 加速器

近日,澳大利亚研究人员徐兴元博士(莫纳什大学)、谭朦曦博士、David Moss 教授(斯文本科技大学)、Arnan Mitchell 教授(皇家墨尔本理工大学)等首次提出并实现了基于波长、时间交织的光子卷积加速器。该文章以 "11 TOPS photonic convolutional accelerator for optical neural networks" 为题发表在 Nature。光子神经网络工作于模拟架构中,即数据在硬件系统中的实时位置与进行运算的位置相同,因而规避了冯诺曼依瓶颈研究人员通过采用集成高品质因素、高非线性微环与波导色散调控,实现了高相干度、易于产生的集成克尔孤子晶体光频梳。

12、谷歌发布人类历史首个万亿级模型 Switch Transformer

近日,Google Brain 的研究人员 William Fedus、Barret Zoph、Noam Shazeer 等在 arxiv 上提交了一篇论文 “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity”,提出了稀疏激活专家模型 Switch Transformer。这个 1．6 万亿参数模型似乎是迄今为止最大的模型,其速度是 Google 之前开发的最大语言模型(T5-XXL)的 4 倍,参数规模几乎是 1750 亿参数的 GPT-3 的十倍。这应该是人类历史上发布的第一个万亿级人工智能模型。研究人员在论文中指出,大规模训练是通向强大模型的有效途径,具有大量数据集和参数计数的简单架构可以远远超越复杂的算法,但目前有效的大规模训练主要使用稠密模型。

13、新一代多模态文档理解预训练模型 LayoutLM 2．0,多项任务取得新突破

2020 年初,微软亚洲研究院的研究人员提出并开源了通用文档理解预训练模型 LayoutLM 1．0,受到了广泛关注和认可。如今,研究人员又提出了新一代的文档理解预训练模型 LayoutLM 2．0,该模型在一系列文档理解任务中都表现出色,并在多项任务中取得了新的突破,登顶 SROIE 和 DocVQA 两项文档理解任务的排行榜(Leaderboard)。未来,以多模态预训练为代表的智能文档理解技术将在更多的实际应用场景中扮演更为重要的角色。针对多模态文档理解任务提出的多模态预训练模型 LayoutLM 2．0,不仅考虑了文本和页面布局信息,还将图像信息融合到了多模态框架内。同时,空间感知自注意力机制的引入进一步提高了模型对文档内容的理解能力。为了进一步在模态间建立深度关联,研究人员也提出了新的多模态信息对齐预训练任务。实验结果显示,经过预训练 — 微调的 LayoutLM 2．0 在对应不同类型任务的六个文档理解数据集上显著优于基线方法,表明提出的方法能够有效提升文档理解效果。经过数据增强和全量数据微调,LayoutLM 2．0 单模型性能超出了使用 30 个模型联合预测的原榜首方法 1．6 个百分点,达到 86．72%,成为新的 SOTA。

14、科学家利用人工智能通过粪便标测肠道细菌

哥本哈根大学的研究人员开发了一种突破性的技术,可以帮助我们揭开人类肠道细菌的某些神秘面纱。西蒙?拉斯穆森(Simon Rasmussen)副教授在《自然》杂志上发表他与诺和诺德基金会蛋白质研究中心的研究人员一起负责这项新研究的研究结果。西蒙?拉斯穆森(Simon Rasmussen)和他的研究人员开发了一种算法,该算法利用人工智能来完成粪便中细菌的 DNA 串。这种方法不仅限于肠道细菌。人工智能分析非常小的样品中细菌含量的能力也可用于研究粪便以外的其他物质。该算法不仅可以用于研究细菌,还可以使用它来分析健康数据,可以收集有关患者群体的大量信息,例如有关患者遗传学,蛋白质组成,血液中物质以及电子记录数据的知识。然后,利用人工智能可以分析这些非常不同的数据集,并确定模式和连接。

15、机器算法可以预测新冠肺炎患者心脏骤停隐患

约翰霍普金斯大学生物医学工程师和心脏专家团队开发了一种算法,可使住院的新冠肺炎患者出现心脏骤停或血凝块之前数小时向医生发出警告。新冠肺炎心脏预测器可以预测新冠肺炎患者的心脏骤停,平均预警时间为 18 小时,并且可以提前三天预测血液凝块。它是根据 3 月 1 日至 9 月 27 日在 Johns Hopkins 卫生系统的五家医院接受治疗的 2178 名患者的数据开发的。研究人员的下一步是开发在医院中设置该技术的最佳方法,以帮助护理新冠肺炎患者。

16、NeuTigers 推出 CovidDeep

1 月 13 日消息,普林斯顿大学分拆出来的人工智能公司 NeuTigers 推出了 CovidDeep,这是一个经过临床验证的解决方案,可以利用可穿戴设备衍生的生理传感器数据,对需要进一步检测 SARS-CoV-2/COVID-19 的人进行分流。CovidDeep 应用在预测一个人是无病毒还是病毒阳性方面的准确率高达 90% 以上,是目前体温检查和问卷调查等分流工具的两倍。CovidDeep 由最前沿的人工智能深度神经网络驱动,模仿人脑如何感知、学习和解释世界。NeuTigers 在普林斯顿大学电子工程系的研究联合创始人使用专有的深度神经网络从数十万个数字健康数据点和 SARS-CoV-2 阳性和健康参与者的特定问卷中学习。

17、马克斯 - 普朗克人类发展研究所:超级人工智能从理论上就无法控制

本月初发表在 AI 领域顶级期刊《人工智能研究杂志》(JAIR)上的一篇文章中,马德里自治大学、马克斯 - 普朗克人类发展研究所等机构的研究者认为,由于计算本身固有的基本限制,人类可能无法控制超级人工智能。他们表示,任何旨在确保超级人工智能无法伤害人类的算法都必须首先模拟机器行为以预测其行动的潜在后果。如果超级智能机器确实可能造成伤害,那么此类抑制算法(Containment Algorithm)需要停止机器的运行。然而,科学家们认为,任何抑制算法都不可能模拟 AI 的行为,也就无法百分之百地预测 AI 的行为是否会造成伤害。

18、卡内基?梅隆大学提出新的 AI 环境探索模型

近日,卡内基?梅隆大学、脸书等机构的研究人员提出了一个新的 AI 环境探索模型。这个新模型综合了传统环境探索模型和基于学习方法的环境探索模型的优点,更简单和不易出错。这项研究已经发表在学术网站 arXiv 上,论文标题为《利用主动神经 SLAM 学习探索环境(Learning To Explore Using Active Neural SLAM)》。为了解决全面端到端学习的局限性,卡内基?梅隆大学、脸书、伊利诺大学厄巴纳 - 香槟分校的研究人员推出了 “主动神经即时定位与地图构建(ANS,Active Neural SLAM)模型”。ANS 模型包括一个学习神经即时定位与地图构建(SLAM,Simultaneous localization and mapping)模块,一个全局策略(global policy)和一个局部策略(local policy)。ANS 导航模型克服了之前的基于端对端学习策略的缺陷,基于更真实的数据库进行训练,最终探索效率有所提升。

19、首个 3D 点云 + GAN 新方法,让机器人 “眼神” 更犀利!

近日,来自德克萨斯大学阿灵顿分校(University of Texas at Arlington,UTA)研究团队提出了一种名为 PCGAN 的方法。相关研究论文以 “A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds” 为题,发表在预印本网站 arXiv 上。研究人员表示,这是第一个以无监督方式生成 3D 点云(3D point cloud)的条件生成对抗网络(GAN),该网络能够产生具有多分辨率和精细细节的 3D 彩色点云,以生成利于辨别的物体图像,这将极有利于机器人视觉灵敏度的提升。

20、助力图深度学习研究与应用,清华团队发布 CogDL v0．2

在 CogDL v0．2 版本中,将任务、数据集、模型和参数,统一为一个 experiment 接口,只需直接调用 experiment 函数即可完成一行实现训练。experiment 接口还整合了 optuna 的超参搜索功能,只需提供不同超参的搜索范围即可。此外,新增 pineline 方法,通过调用 pipeline 方法可以很容易的实现一些有趣的应用,比如数据集的状态显示、节点的 k-hop neighbor 可视化等。pipeline 接口还支持调用 OAGBert 模型。

21、麦吉尔大学等开发新型视觉触觉传感器

来自三星、麦吉尔大学和约克大学的研究人员,近日研发出一个全新的生成式多模态感知 AI 框架,能够根据物体初始状态的视觉和触觉数据,来预测出物体的运动趋势。据悉,这是第一个利用视觉和触觉感知来学习多模态动力学模型的研究。该研究团队的这项新成果能够基于触觉、视觉的双模态数据对物体的运动轨迹进行预判,并推测出物体的最终静止状态。相较于以往的运动预测技术,该研究团队实现了触觉和视觉数据的双向推测,为制造业的自动化场景提供了更多的可能性。

22、微软等提出「 ZeRO-Offload 」技术

微软、加州大学默塞德分校的研究者提出了一种名为「 ZeRO-Offload 」的异构深度学习训练技术,可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型,让普通研究者也能着手大模型的训练。与 Pytorch 等流行框架相比,ZeRO-Offload 将可训练的模型规模提升了 10 倍。此外,ZeRO-Offload 还可以和模型并行一起使用,在一个 DGX-2 box AI 服务器上训练参数量超 700 亿的模型。与单独使用模型并行相比,这一参数量实现了 4．5 倍的规模提升。

23、谷歌大脑科学家 Quoc V． Le 等提出用 AutoML 方式自动学习 Dropout 模式

近日,卡内基梅隆大学在读博士 Hieu Pham、谷歌大脑研究科学家 Quoc V． Le 提出了一种自动学习 Dropout 的方法。研究者称,通过强化学习来学习 Dropout 的规律,AutoDropout 可以提高图像识别、语言理解和机器翻译的性能。该研究已被人工智能顶会 AAAI-2021 接收。AutoDropout 的主要贡献是一个新颖的结构化 Dropout 模式搜索空间。在这个搜索空间中,人们可以为每个模型架构和任务找到适合的 Dropout 模式。此外,该搜索空间还泛化了很多现有的 Dropout 模式。

论文名称:AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

24、GPT-Neo,最大可达 GPT-3 大小,已开源

近日,有个名叫 EleutherAI 的团队(创始成员为:Connor Leahy,Leo Gao 和 Sid Black),宣布推出 GPT-Neo 开源项目,可用于复现 GPT 系列的各种语言模型,也包括 GPT-3。目前已经成功制造出 GPT-2 大小的模型。从项目代码的可扩展性来看,他们预计可以复刻出 GPT-3 大小的语言模型,甚至比 GPT-3 更大。目前,作者已经给出了详细的训练步骤。本质上,GPT-Neo 有点像是 GPT 系列的 “高仿” 项目:GPT-Neo 中的各种模型,设计原理接近 GPT 系列,但代码并不一样。作者们打算尝试各种结构和注意力类型,最终扩展出 GPT-3 大小的大语言模型。

25、微软 “AI 聊天机器人” 最新专利获批

近日,微软通过了一项名为 “AI 聊天机器人” 的专利申请。微软专利是首次通过 “社交媒体数据” 创建逝者的 AI 机器人。在某些情况下,它甚至可以使用图像和视频创建人物的 3D 模型来增加互动的真实感,该 AI 聊天机器人可以模仿逝者与亲人进行实时互动和聊天。如果在交谈时,用户提及的问题没有具体的存储数据,AI 系统可以基于 “人群感知” 和 “心理数据” 给出逻辑上可能的回答。

26、热门开源 AutoML 工具 NNI 2．0 来袭

近期,微软亚洲研究院发布了 NNI 2．0 版本,其中加入了对 “探索性训练” 框架 Retiarii、基于掩码的模型压缩加速工具的支持,提供了利用 Python 发起实验 (预览功能) 与多种算力混合训练的能力,并简化了自定义算法的安装方法。NNI(Neural Network Intelligence)是微软亚洲研究院为研究人员和算法工程师量身定制的自动机器学习(AutoML)工具。

(二)国内 AI 科研

1、超大规模新型预训练模型 ——“文汇”

2021 年 1 月 11 日,由北京智源人工智能研究院、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱．AI、循环智能等单位的科研骨干成立 "悟道" 联合攻关团队,发布了面向认知的超大规模新型预训练模型 "文汇",旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇” 模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识知识以及认知联系起来,主动 “学习” 与创造。“文汇” 模型参数规模达 113 亿,仅次于 DALL?E 模型的 120 亿参数量,是目前我国规模最大的预训练模型,并已实现与国际领先预训练技术的并跑。目前,“文汇” 已支持基于认知推理的多种自然语言及跨模态应用任务,部分应用将与搜狗、阿里巴巴、学堂在线、智谱．AI、循环智能等机构合作上线。目前已有四个样例应用可用于展示模型效果。

2、清华、智源、协和联合开发乳腺癌 AI 诊断工具

一项基于 VGG 模型,对超声影像进行良 / 恶性检测及分子亚型分类的深度神经网络模型 SonoBreast 的研究团队经过数月对数据集预处理算法和训练模型的改进,根据近期公布结果,这一模型的分子分型准确率提升了近 20 个点,达到 76%;而在二分类问题上可以达到 93% 的准确率。SonoBreast 模型使用了卷积神经网络 VGG-19 进行特征提取,然后将特征送入到全连接层进行二分类,并将所有层从头开始训练。为了进一步扩大数据集,研究团队也与智源研究院的数据中心进行合作,希望通过联邦学习的技术,将多家医院的超声影像进行联合训练,从而提升模型效果。

3、百度发布预训练模型 ERNIE-M,可理解 96 种语言

2021 年伊始,百度研究院发布多语言预训练模型 ERNIE-M。ERNIE-M 通过对 96 门语言的学习,使得一个模型能同时理解 96 种语言,该项技术在 5 类典型跨语言理解任务上刷新世界最好效果。在权威跨语言理解榜单 XTREME 上,ERNIE-M 也登顶榜首,超越微软、谷歌、Facebook 等机构提出的模型。据了解,基于飞桨实现的 ERNIE-M 模型会于近期开源。

4、强化学习与 3D 视觉结合新突破:高效能在线码垛机器人

近日,国防科技大学、克莱姆森大学和视比特机器人的研究人员合作提出了使用深度强化学习求解基于动态变化观察的序列决策这一问题。该算法性能优异,实现简单,可适用于任意多个前瞻箱子的情形,摆放空间利用率达到甚至超过人类水平。同时,该团队结合 3D 视觉技术,实现了业界首个高效能无序混合码垛机器人。论文已被人工智能顶会 AAAI 2021 大会接收。作者使用带约束的深度强化学习求解 BPP-1 问题,即只能前瞻一个箱子的情形。然后基于蒙特卡洛树搜索实现了从 BPP-1 到 BPP-k 的拓展。

5、元戎启行推理引擎亮相 CES 2021

在 2021 年 CES 上,L4 级自动驾驶解决方案提供商元戎启行将在线上展示其针对 L4 级自动驾驶深度学习模型研发的推理引擎 DeepRoute-Engine。该推理引擎实现了比开源深度学习框架平均高 6 倍的推理速度,大幅提升了自动驾驶的计算效率,令自动驾驶摆脱了对高算力计算平台的依赖。自动驾驶要做到像人类一样感知周围物体,需要通过深度学习来完成,即需要通过大规模的、复杂的深度学习网络模型来对输入的数据进行推理。在推理过程中,需要实时完成大量的计算。元戎启行选择通过自研的推理引擎 ——DeepRoute-Engine,让 L4 级自动驾驶的感知模块,可以运行在低成本、低功耗的计算平台上。

6、P-Waver 提出地震预警(EEW)模型

总部位于台湾的初创公司 P-Waver 在 CES 2021 上宣布了一种新的分析数据系统,旨在为政府设计地震预警(EEW)模型。P-Waver 基于台湾中央气象局的地震数据和包括 25 万多个地震模型的 AI 技术构建了 EEW 系统。该系统可以向距震中 30 至 100 公里的区域提供 5 至 15 秒的警告时间,以采取预防措施。为了防止误报,P-Waver 实施了多个传感器来捕获初始波。该团队估计准确性约为 98%。该系统可以在一到三秒钟内预测 p 波,而通过多个备用传感器的设置和校准不会产生误报。

7、Avalanche Computing 开发超大规模计算技术

Avalanche Computing 是一家总部位于台北和湾区的超大规模计算技术提供商,它已开发出一种单击式 AI 框架,该框架可提高生产速度并具有高度可扩展性。Avalanche Computing 的 AI 框架可以在不改变算法的情况下,有效地在多个 GPU 上以并行或分布式模式训练你的 AI 模型,以降低 AI 项目成本,然后在一个命令中完成 AI 模型从一个到多个边缘设备的部署。

8、微软联合浙大提出 FastSpeech 2

近日,微软亚洲研究院和微软 Azure 语音研究团队联合浙江大学提出了 FastSpeech 2 和 FastSpeech 2s。改进版 FastSpeech 2 抛弃了 Teacher-Student 知识蒸馏框架降低训练复杂度,直接用真实的语音数据作为训练目标避免信息损失,同时引入了更精确的时长信息和语音中的其它可变信息(包括音高(Pitch)和音量(Energy)等)来提高合成的语音质量。研究团队还提出了加强版 FastSpeech 2s 以支持完全端到端的从文本到语音波形的合成,省略了梅尔频谱的生成过程。

9、瞰点科技与华师大共同发布 GraphSEAT

近日,瞰点科技与华东师范大学、哈佛大学、上海交通大学的研究人员合作,将论文发表在 ACM CIKM2020 上的面向量化投资的细粒度金融文本分类框架正式对外发布。该方法采用针对目标任务的全局和模块信息编码融合的思想,有效地提升了针对金融领域的细粒度文本分类精度,可以为中国顶级金融信息服务供应商提供金融文本分类服务。研究者利用神经序列编码器从文本的词序列中提取语义信息,并通过注意力机制融合文本学得的两个表征,最终形成了文本的整体嵌入表征并进行预测。

10、京东开源 PyTorch 人脸识别工具包 FaceX-Zoo

今年 1 月,来自京东的研究人员面向人脸识别技术开发社区提出了全新的开源框架 FaceX-Zoo。依靠高度模块化和可扩展的设计,FaceX-Zoo 提供具备多种 supervisory head 和骨干网络的训练模块,以实现效果最优的人脸识别。此外,它还具备标准化评估模块,以便在大多数情况下测试模型效果。

11、鸿海推出非监督式学习人工智能算法

1 月 21 日,鸿海宣布正式推出非监督式学习(Unsupervised Learning)人工智能(AI)算法 “FOXCONN NxVAE”,运用正面表列的模型训练方式,只以产品容易取得的正样本进行光学检测演算,解决产线中瑕疵样本取得的问题,适用于良率高的成熟产品线,可增加 AI 模型的整体容错能力,此技术已实际导入集团部分产品外观检测生产线,成功降低 50 % 以上的产线检测人力。

<上一页 1 2 3