基于图深度学习的开源工具包CogDL_AI热点日报

基于图深度学习的开源工具包CogDL

类型：热点整理2026-07-02

一个核心问题：一行代码究竟能实现什么？ "一行命令就能完成‘一条龙’实验运行。 " 这正是 CogDL 的承诺，也是它被创建的核心意义。近年来，结构化数据的表示学习已成为业界与学术界高度关注的方向，图神经网络（GNN）也因此成为处理这类任务的主流工具。基于随机游走、矩阵分解等方法，在搜索推荐、分子与

一个核心问题：一行代码究竟能实现什么？

"一行命令就能完成‘一条龙’实验运行。"

这正是 CogDL 的承诺，也是它被创建的核心意义。

近年来，结构化数据的表示学习已成为业界与学术界高度关注的方向，图神经网络（GNN）也因此成为处理这类任务的主流工具。基于随机游走、矩阵分解等方法，在搜索推荐、分子与药物生成等领域的实用价值早已得到广泛验证。

然而，问题也随之而来。许多项目的代码并未开源，即便开源，风格也千差万别。对于真正希望推进工作的研究人员和开发者而言，实验复现成为实际痛点。在自己的数据集上运行模型、调整参数，所耗费的时间有时甚至超过研发新模型本身。

具体而言，在学术研究中，通常需要将自己的模型与现有模型进行对比。这就需要选定若干下游任务，并在每个任务上采用公平的评估方式，比较不同模型的效果。问题在于，不同的模型在提出时往往使用了不同的任务和评估指标。仅是将那些基线模型（baseline）的代码适配到可运行状态，就已经需要耗费大量精力。

那么，如何快速且便捷地复现基线模型的结果，并将其应用到自定义数据集上呢？

为应对这一实际需求，清华大学知识工程实验室（KEG）与北京智源人工智能研究院（BAAI）联合推出了 CogDL——一个基于 PyTorch 的图深度学习开源工具包。

据开发者介绍，该工具包的核心思路是将多种不同的下游任务集成在一起，并配以合适的评估方式。这样，研究人员和用户就能方便、快速地获取各类基线模型的结果，从而将更多精力投入到真正有价值的工作——研发新模型上。

"对于图领域的每一种任务，我们都提供了一套完整的‘数据处理—模型搭建—模型训练—模型评估’方案。以图半监督节点分类为例，我们整合了 Cora、Citeseer、Pubmed 等常用数据集，提供了 GCN、GAT、GCNII 等经典与前沿模型，并附带相应的训练脚本以及一个排行榜供参考。"开发者解释道。

CogDL 最为独特之处在于它以任务为导向来集成所有算法。每个算法都会被分配到至少一个任务下，形成"数据处理-模型搭建-模型训练和评估"的一体化流程。这正是其核心价值所在。

此外，CogDL 还支持研究人员和用户自定义模型与数据集，并将其嵌入到整体框架中。它包含了当前多个数据集上的 SOTA 算法实现，并且持续更新。

以任务为导向，持续扩展算法

图表示学习算法大致可分为两类：一类是基于图神经网络的，例如 GCN、GAT、GraphSAGE、DiffPool，以及针对异构图的 RGCN、GATNE 等；另一类是基于 Skip-gram 或矩阵分解的，比如 Deepwalk、Node2Vec、HOPE、NetMF，还有用于图分类的 DGK、graph2vec。

CogDL 将现有算法划分为以下 6 项任务：

有监督节点分类任务：包括 GCN、GAT、GraphSAGE、MixHop、GRAND 等；
无监督节点分类任务：包含 DGI、GraphSAGE（无监督版），以及 Deepwalk、Node2vec、ProNE 等；
有监督图分类任务：有 GIN、DiffPool、SortPool 等；
无监督图分类任务：涵盖 InfoGraph、DGK、Graph2Vec 等；
链接预测任务：涉及 RGCN、CompGCN、GATNE 等；
异构节点分类任务：包括 GTN、HAN、Metapath2vec 等。

此外，CogDL 还包含一个图上的预训练模型 GCC，它利用图的结构信息对图神经网络进行预训练，然后迁移到其他数据集上执行节点分类或图分类任务，效果表现优异。

CogDL 能做什么？

那么，使用 CogDL 究竟能实现哪些功能？核心作用包括三点：跟进 SOTA、复现实验、自定义模型与数据。

跟进 SOTA。CogDL 持续追踪最新发布的算法，涵盖了不同任务下的 SOTA 实现，并建立了各任务的排行榜，便于研究人员和开发者直接比较不同算法的性能。

复现实验。论文模型的可复现性至关重要，不言自明。CogDL 通过实现不同论文中的模型，本身也对这些模型的可复现性进行了检验。

自定义模型与数据。在 CogDL 中，"数据-模型-训练"三个部分是相互独立的。用户可以自定义其中任意一部分，其余部分可直接复用，从而显著提升开发效率。

如何使用 CogDL？

使用方式有两种：通过命令行直接运行，或者通过 API 调用。

命令行直接运行。通过命令行直接指定 task、model、dataset 以及对应的超参数，最便捷的是支持同时指定多个模型和数据集。代码示例如下：

支持自定义数据集与模型，并提供了自动调参的示例。

自 2019 年启动以来，CogDL 经历了多次密集的研发迭代，目前已整合了图领域的重要任务及其经典与前沿模型。

开发者回忆道："起初，我们只是整合了实验室内部同学用到的相关代码，方便大家开展实验。后来决定将其开源，以惠及更多用户。"

目前，CogDL 已更新至 v0.1.1 版本。新版本新增了一些最前沿的图神经网络模型，包括图自监督模型和图预训练模型。用户可以利用预训练模型完成不同的下游任务。在下游任务方面，新增了知识图谱的链接预测任务。

具体而言，监督节点分类任务新增了 GRAND 和 DisenGCN——前者在 Cora、PubMed、Citeseer 上取得了 SOTA 或接近 SOTA 的效果；无监督节点分类任务新增了 DGI、MVGRL、GraphSAGE（无监督版）；链接预测任务新增了知识图谱链接预测的 GNN 模型 RGCN 和 CompGCN；此外还新增了图上的预训练模型 GCC。

此外，CogDL 还提供了使用 Optuna 进行超参数搜索的示例，只需指定"模型、数据集、参数"即可自动完成搜索。

谈到下一步计划，研究者表示将继续补充更多图领域的下游任务，增加数据集并更新排行榜；同时增加最前沿的预训练图神经网络模型，支持用户直接使用预训练模型进行应用；还将完善教程与文档，帮助新手快速上手。

最终愿景十分明确：一方面，让从事图数据研究的用户能够借助 CogDL 便捷地开展实验；另一方面，让面向实际应用的开发者能够快速搭建下游应用。最终，打造一个完善的图领域研发生态。

来源：https://m.elecfans.com/article/1310573.html

Python

延伸阅读

补充最近整理过的热点入口。

基于图深度学习的开源工具包CogDL

相关热点

延伸阅读