清华团队推出基于图的深度学习工具包CogDL v0.1

2020-10-28 14:09

学术头条

关注

能用来做什么？

那么，研究者和使用者可以利用 CogDL 做些什么？主要有三点：跟进 SOTA、复现实验，以及自定义模型和数据。

跟进 SOTA。CogDL 跟进最新发布的算法，包含不同任务下 SOTA 的实现，同时建立了不同任务下所有模型的 leaderboard（排行榜），研究人员和开发人员可以通过 leaderboard 比较不同算法的效果。

复现实验。论文模型的可复现性是非常重要的。CogDL 通过实现不同论文的模型也是对模型可复现性的一个检验。

自定义模型和数据。“数据－模型－训练”三部分在 CogDL 中是独立的，研究者和使用者可以自定义其中任何一部分，并复用其他部分，从而提高开发效率。

怎么用？

有两种方法：命令行直接运行，通过 API 调用

命令行直接运行。通过命令行可以直接指定＂task＂、＂model＂、＂dataset＂以及对应的超参数，并且支持同时指定多个模型和多个数据集，更方便。代码如下：

＃监督GraphSAGEpython scripts／train．py －－task node＿classification －－dataset pubmed －－model graphsage －seed 0 1 2 3 4 5＃无监督GraphSAGEpython scripts／train．py －－task unsupervised＿node＿classification －－dataset pubmed －－model unsup＿graphsage＃ DeepWalk ＋ Node2Vec算法＋ BlogCatalog ＋ Wikipedia数据集python script／train．py －－task unsupervised＿node＿classificatoin －－dataset blogcatalog wikipedia －－model deepwalk node2vec

通过 API 调用。在代码中调用 CogDL 的数据、模型、任务构建 API，方便使用自定义数据集和模型，更灵活。代码如下：

＃获取模型／数据／训练的参数args ＝ get＿default＿args（）args．task ＝＇node＿classification＇args．dataset ＝＇cora＇args．model ＝＇gcn＇＃建立数据集dataset ＝ build＿dataset（args）args．num＿features ＝ dataset．num＿featuresargs．num＿classes ＝ dataset．num＿classesargs．num＿layers ＝ 2＃建立模型model ＝ build＿model（args）＃训练＋验证task ＝ build＿task（args， dataset＝dataset， model＝model）ret ＝ task．train（）

CogDL 支持自定义数据集和模型，并且提供了自动调参的例子。

据 CogDL 研究者介绍，从 2019 年启动以来，该项目经过了多次密集的研发，到目前已经整合了图领域的重要任务及其相关的经典和前沿的模型。

CogDL 开发者表示，“起初，我们只是整合了实验室内部从事相关领域研究的同学所使用的相关代码，为了方便实验室其余的同学运行相关的实验。后来，我们决定将代码开源出来，让更多的研究和开发人员能够借助我们的代码从事相关工作。”

如今，CogDL 已经上线了 CogDL v0．1．1。

“我们增加了一些最前沿的图神经网络模型，包括图自监督模型、图预训练模型。用户可以利用图上预训练好的模型做不同的下游任务。在下游任务方面，我们增加了知识图谱的链接预测任务，方便从事知识图谱领域的用户进行相关实验。” CogDL 开发者说。

具体而言，在监督节点分类任务上，增加了 GRAND 和 DisenGCN，GRAND 在 Cora、PubMed、Citeseer 上取得了 SOTA 或者接近 SOTA 的效果；无监督节点分类任务上，增加了 DGI、MVGRL、GraphSAGE（无监督实现）；在链接预测任务上，增加了知识图谱上的链接预测 GNN 模型 RGCN 和 CompGCN；以及增加了图上的预训练模型 GCC。

另外，CogDL 也提供了使用 optuna 进行超参数搜索的 example，通过指定＂模型，数据集，参数＂即可自动实现超参数的搜索。

接下来，CogDL 研究者希望在现有基础上，继续补充其余的图领域的下游任务，添加更多的数据集，更新每个任务的排行榜；同时增加最前沿的关于预训练的图神经网络模型，支持用户直接使用预训练好的模型来进行相关应用；以及完善 CogDL 的教程和文档，让刚接触图领域的初学者能够快速上手。

谈及最终的愿景，CogDL 研究者表示，一方面希望从事图数据领域的研究人员可以方便地利用 CogDL 来做实验，另一方面希望面向实际应用的开发人员可以利用 CogDL 来快速地搭建相关下游应用，最终打造一个完善的图领域的研发生态。