万字详解：腾讯如何自研大规模知识图谱 Topbase

2020-06-09 10:39

2）实体分类的特征选择：

属性名称：除了通用类的属性名称，如：中文名，别名，正文，简介等，其他属性名称都作为特征；

属性值：不是所有的属性值都是有助于实体分类，如性别的属性值“男”或者“女”对区分该实体是“商业人物”和“娱乐人物”没有帮助，但是职业的属性值如“歌手”“CEO”等对于实体的细类别则有很强的指示作用，这些属性值可以作为实体细分类的重要特征。一个属性值是否需要加入他的属性值信息，我们基于第一部分得到的训练数据，利用特征选择指标如卡方检验值，信息增益等进行筛选。

简介：由于简介内容相对较长且信息冗余，并非用得越多越好。针对简介的利用我们主要采用百科简介中头部几句话中的主语是该实体的句子。

3）实体分类模型

模型架构：基于 bert 预训练语言模型的多 Label 分类模型

图16 实体分类基础模型

模型输入：我们针对上述特征进行拼接作为 bert 的输入，利用［sep］隔开实体的两类信息，每一类信息用逗号隔开不同部分。第一类信息是实体名称和实体简介，刻画了实体的一个基本描述内容，第二类信息是实体的各种属性，刻画了实体的属性信息。例如，刘德华的输入形式如下：

图17 实体分类模型的输入形式

模型 loss：基于层次 loss 方式，实体 Label 是子类：父类 Label 要转换为正例计算 loss；实体 Label 是父类：所有子类 label 以一定概率 mask 不产生负例 loss，避免训练数据存在的细类别漏召回问题。

七、知识融合－实体对齐

知识融合的目的是将不同来源的数据进行合并处理。如从搜狗百科，体育页面以及 QQ 音乐都获取到了＂姚明＂信息，首先需要判断这些来源的＂姚明＂是否指同一实体，如果是同一个实体（图 18 中的搜狗和虎扑的姚明页面）则可以将他们的信息进行融合，如果不是（QQ 音乐的姚明页面）则不应该将其融合。知识融合的核心是实体对齐，即如何将不同来源的同一个实体进行合并。

图18 知识融合示列说明

1．实体对齐挑战

不同来源实体的属性信息重叠少，导致相似度特征稀疏，容易欠融合；

图19 来自于百科和旅游网站的武夷山页面信息

同系列作品（电影，电视剧）相似度高，容易过融合，如两部还珠格格电视剧

图20 两部还珠格格的信息内容

多路来源的实体信息量很大（亿级别页面），如果每次进行全局融合计算复杂度高，而且会产生融合实体的 ID 漂移问题。

2．实体对齐的解决思路

实体对齐的整体流程如图所示，其主要环节包括数据分桶，桶内实体相似度计算，桶内实体的聚类融合。

图21 Topbase实体对齐流程图

1）数据分桶：

数据分桶的目的是对所有的多源实体数据进行一个粗聚类，粗聚类的方法基于简单的规则对数据进行分桶，具体规则主要是同名（原名或者别名相同）实体分在一个桶内，除了基于名称匹配，我们还采用一些专有的属性值进行分桶，如出生年月和出生地一致的人物分在一个桶。

2）实体相似度计算：

实体相似度直接决定了两个实体是否可以合并，它是实体对齐任务中的核心。为了解决相似属性稀疏导致的欠融合问题，我们引入异构网络向量化表示的特征，为了解决同系列作品极其相似的过融合问题，我们引入了互斥特征。

异构网络向量化表示特征：每个来源的数据可以构建一个同源实体关联网络，边是两个实体页面之间的超链接，如下图所示，百科空间可以构建一个百科实体关联网络，影视剧网站可以构建一个影视剧网站的实体关联网络。不同空间的两个实体，如果存在高重合度信息，容易判别二者相似度的两个实体，可以建立映射关系（如影视剧网站的梁朝伟页面和百科的梁朝伟页面信息基本一致，则可以认为二者是同一个实体，建立链接关系），这样可以将多源异构网络进行合并，梁朝伟和刘德华属于连接节点，两个无间道重合信息少，则作为两个独立的节点。然后基于 deepwalk 方式得到多源异构网络的节点向量化表示特征。

图22 多源异构网络关联图

文本相似特征：主要是针对存在简介信息的实体，利用 bert 编码得到向量，如果两个实体都存在简介信息，则将两个简介向量进行点乘得到他们的文本相似度特征；

基本特征：其他属性的相似度特征，每一维表示属性，每一维的值表示该属性值的一个 Jaccard 相似度；

互斥特征：主要解决同系列作品及其相似的问题，人工设定的重要区分度特征，如电视剧的集数，系列名，上映时间。

最后，按照下图结构将上述相似度特征进行融合预测两两实体是否是同一实体；

图23 实体对相似度打分模块

3）相似实体的聚类合并：

Base 融合：在上述步骤的基础上，我们采用层次聚类算法，对每一个桶的实体进行对齐合并，得到 base 版的融合数据，然后赋予每一个融合后的实体一个固定的 ID 值，这就得到了一个 Base 的融合库；

增量融合：对于每日新增的实体页面信息，我们不再重新进行聚类处理，而是采用“贴”的模式，将每一个新增实体页面和已有的融合实体进行相似度计算，判断该实体页面应该归到哪一个融合实体中，如果相似度都低于设置的阈值，则该新增实体独立成一堆，并设置一个新的融合实体 ID。增量融合的策略可以避免每次重复计算全量实体页面的融合过程，方便数据及时更新，同时保证各个融合实体的稳定性，不会轻易发生融合实体 ID 的漂移问题；

融合拆解：由于 Base 融合可能存在噪声，所以我们增加了一个融合的修复模块，针对发现的 badcase，对以融合成堆的实体进行拆解重新融合，这样可以局部修复融合错误，方便运营以及批量处理 badcase。

<上一页 1 2 3 4 下一页> 余下全文