游乐游手机版
首页/AI热点日报/热点详情

基于图深度学习的开源工具包CogDL

类型:热点整理2026-07-02
一个核心问题:一行代码究竟能实现什么? "一行命令就能完成‘一条龙’实验运行。 " 这正是 CogDL 的承诺,也是它被创建的核心意义。 近年来,结构化数据的表示学习已成为业界与学术界高度关注的方向,图神经网络(GNN)也因此成为处理这类任务的主流工具。基于随机游走、矩阵分解等方法,在搜索推荐、分子与

一个核心问题:一行代码究竟能实现什么?

"一行命令就能完成‘一条龙’实验运行。"

这正是 CogDL 的承诺,也是它被创建的核心意义。

近年来,结构化数据的表示学习已成为业界与学术界高度关注的方向,图神经网络(GNN)也因此成为处理这类任务的主流工具。基于随机游走、矩阵分解等方法,在搜索推荐、分子与药物生成等领域的实用价值早已得到广泛验证。

然而,问题也随之而来。许多项目的代码并未开源,即便开源,风格也千差万别。对于真正希望推进工作的研究人员和开发者而言,实验复现成为实际痛点。在自己的数据集上运行模型、调整参数,所耗费的时间有时甚至超过研发新模型本身。

具体而言,在学术研究中,通常需要将自己的模型与现有模型进行对比。这就需要选定若干下游任务,并在每个任务上采用公平的评估方式,比较不同模型的效果。问题在于,不同的模型在提出时往往使用了不同的任务和评估指标。仅是将那些基线模型(baseline)的代码适配到可运行状态,就已经需要耗费大量精力。

那么,如何快速且便捷地复现基线模型的结果,并将其应用到自定义数据集上呢?

为应对这一实际需求,清华大学知识工程实验室(KEG)与北京智源人工智能研究院(BAAI)联合推出了 CogDL——一个基于 PyTorch 的图深度学习开源工具包。

据开发者介绍,该工具包的核心思路是将多种不同的下游任务集成在一起,并配以合适的评估方式。这样,研究人员和用户就能方便、快速地获取各类基线模型的结果,从而将更多精力投入到真正有价值的工作——研发新模型上。

"对于图领域的每一种任务,我们都提供了一套完整的‘数据处理—模型搭建—模型训练—模型评估’方案。以图半监督节点分类为例,我们整合了 Cora、Citeseer、Pubmed 等常用数据集,提供了 GCN、GAT、GCNII 等经典与前沿模型,并附带相应的训练脚本以及一个排行榜供参考。"开发者解释道。

CogDL 最为独特之处在于它以任务为导向来集成所有算法。每个算法都会被分配到至少一个任务下,形成"数据处理-模型搭建-模型训练和评估"的一体化流程。这正是其核心价值所在。

此外,CogDL 还支持研究人员和用户自定义模型与数据集,并将其嵌入到整体框架中。它包含了当前多个数据集上的 SOTA 算法实现,并且持续更新。

以任务为导向,持续扩展算法

图表示学习算法大致可分为两类:一类是基于图神经网络的,例如 GCN、GAT、GraphSAGE、DiffPool,以及针对异构图的 RGCN、GATNE 等;另一类是基于 Skip-gram 或矩阵分解的,比如 Deepwalk、Node2Vec、HOPE、NetMF,还有用于图分类的 DGK、graph2vec。

CogDL 将现有算法划分为以下 6 项任务:

有监督节点分类任务:包括 GCN、GAT、GraphSAGE、MixHop、GRAND 等;
无监督节点分类任务:包含 DGI、GraphSAGE(无监督版),以及 Deepwalk、Node2vec、ProNE 等;
有监督图分类任务:有 GIN、DiffPool、SortPool 等;
无监督图分类任务:涵盖 InfoGraph、DGK、Graph2Vec 等;
链接预测任务:涉及 RGCN、CompGCN、GATNE 等;
异构节点分类任务:包括 GTN、HAN、Metapath2vec 等。

此外,CogDL 还包含一个图上的预训练模型 GCC,它利用图的结构信息对图神经网络进行预训练,然后迁移到其他数据集上执行节点分类或图分类任务,效果表现优异。

CogDL 能做什么?

那么,使用 CogDL 究竟能实现哪些功能?核心作用包括三点:跟进 SOTA、复现实验、自定义模型与数据。

跟进 SOTA。CogDL 持续追踪最新发布的算法,涵盖了不同任务下的 SOTA 实现,并建立了各任务的排行榜,便于研究人员和开发者直接比较不同算法的性能。

复现实验。论文模型的可复现性至关重要,不言自明。CogDL 通过实现不同论文中的模型,本身也对这些模型的可复现性进行了检验。

自定义模型与数据。在 CogDL 中,"数据-模型-训练"三个部分是相互独立的。用户可以自定义其中任意一部分,其余部分可直接复用,从而显著提升开发效率。

如何使用 CogDL?

使用方式有两种:通过命令行直接运行,或者通过 API 调用。

命令行直接运行。通过命令行直接指定 task、model、dataset 以及对应的超参数,最便捷的是支持同时指定多个模型和数据集。代码示例如下:

支持自定义数据集与模型,并提供了自动调参的示例。

自 2019 年启动以来,CogDL 经历了多次密集的研发迭代,目前已整合了图领域的重要任务及其经典与前沿模型。

开发者回忆道:"起初,我们只是整合了实验室内部同学用到的相关代码,方便大家开展实验。后来决定将其开源,以惠及更多用户。"

目前,CogDL 已更新至 v0.1.1 版本。新版本新增了一些最前沿的图神经网络模型,包括图自监督模型和图预训练模型。用户可以利用预训练模型完成不同的下游任务。在下游任务方面,新增了知识图谱的链接预测任务。

具体而言,监督节点分类任务新增了 GRAND 和 DisenGCN——前者在 Cora、PubMed、Citeseer 上取得了 SOTA 或接近 SOTA 的效果;无监督节点分类任务新增了 DGI、MVGRL、GraphSAGE(无监督版);链接预测任务新增了知识图谱链接预测的 GNN 模型 RGCN 和 CompGCN;此外还新增了图上的预训练模型 GCC。

此外,CogDL 还提供了使用 Optuna 进行超参数搜索的示例,只需指定"模型、数据集、参数"即可自动完成搜索。

谈到下一步计划,研究者表示将继续补充更多图领域的下游任务,增加数据集并更新排行榜;同时增加最前沿的预训练图神经网络模型,支持用户直接使用预训练模型进行应用;还将完善教程与文档,帮助新手快速上手。

最终愿景十分明确:一方面,让从事图数据研究的用户能够借助 CogDL 便捷地开展实验;另一方面,让面向实际应用的开发者能够快速搭建下游应用。最终,打造一个完善的图领域研发生态。

来源:https://m.elecfans.com/article/1310573.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。