论文解读（DropEdge）《DropEdge: Towards Deep Graph Convolutional Networks on Node Classification》

技术分享 2年前 (2022-08-10) 0 999+

论文信息

论文标题：DropEdge: Towards Deep Graph Convolutional Networks on Node Classification
论文作者：Yu Rong, Wenbing Huang, Tingyang Xu, Junzhou Huang
论文来源：2020, ICLR
论文地址：download
论文代码：download

1 Introduction

　　由于 2022 年的论文看不懂，找了一篇 2020 的论文缓解一下心情，我太难了。

　　提出一种可以缓解过拟合、过平滑的策略，并且和其他 backbone 模型组合将得到更好的性能。

　　验证小图上容易出现过平滑现象：参见 Figure 1 Cora 数据集上使用 8 层 GCN 的结果。

论文解读（DropEdge）《DropEdge: Towards Deep Graph Convolutional Networks on Node Classification》

　　DropEdge 主要思想是：在每次训练时，随机删除掉原始图中固定比例的边。

　　在GCN训练过程中应用DropEdge有许多好处：

DropEdge 可以看成是数据增强技术。在训练过程中对原始图中的边进行不同的随机删除，也就增强了输入数据的随机性和多样性，可以缓解过拟合的问题。
DropEdge 还可以看成是一个消息传递减少器。GCNs中，邻接节点间的消息传递是通过连边实现的，随机删除掉一些边就可以让节点连接更加稀疏，在一定程度上避免了GCN层数加深引起的过平滑问题。

2 Preliminary

GCN

　　前向传播层为：

　　　　$boldsymbol{H}^{(l+1)}=sigmaleft(hat{boldsymbol{A}} boldsymbol{H}^{(l)} boldsymbol{W}^{(l)}right)quadquadquad(1)$

　　其中，$hat{boldsymbol{A}}=hat{boldsymbol{D}}^{-1 / 2}(boldsymbol{A}+boldsymbol{I}) hat{boldsymbol{D}}^{-1 / 2}$，$boldsymbol{W}^{(l)} in mathbb{R}^{C_{l} times C_{l-1}}$。

3 Method

3.1 Methodlogy

　　在每个训练 epoch，DropEdge 技术随机删除输入图的一定边。形式上，它随机地强制邻接矩阵 $A$ 的 $V_p$ 非零元素为零，其中 $V$ 是边的总数，$p$ 是丢弃率。如果我们将得到的邻接矩阵表示为 $A_{drop}$，那么它与 $A$ 的关系就变成了

　　　　$A_{mathrm{drop}}=A-A^{prime}quadquadquad(2)$

　　其中 $boldsymbol{A}^{prime}$ 是原始图中删除的边集，然后对 $boldsymbol{A}_{text {drop }}$ 进行 re-normalization 得到 $hat{mathbf{A}}_{text {drop }}$ ，替换 $text{Eq.1}$ 中的 $hat{mathbf{A}}$。

Preventing over-fitting

　　DropEdge 对图中的连接带来了扰动，它对输入数据产生了不同的随机变形，可以看成是数据增强。

　　GCNs 的核心思想是对每个节点的邻居特征进行加权求和，实现对邻居信息的聚合。那么 DropEdge 可以看成在 GNN 训练时使用的是随机的邻居子集进行聚合，而没有使用所有的邻居。若 DropEdge 删边率为 $p$，对邻居聚合的期望是由 $p$ 改变的，在对权重进行归一化后就不会再使用 $p$。

Layer-Wise DropEdge

　　上述所说的是每个 epoch ，GNN 各层共享一个 $boldsymbol{A}_{text {drop }}$ 但每层也可以单独进行 DropEdge，为数据带来更多的随机性。

　　Note：同样，类似的还有可以为每层单独计算 KNN graph。

　　下文将阐述 DropEdge 如何缓解过平滑问题，并且假设使用的所有层将共用一个 $boldsymbol{A}_{text {drop }}$。