图注意力网络 GAT：动态加权邻居的重要性

FreeGuideOnline 最新 2026-06-14

什么是图注意力网络

图注意力网络（Graph Attention Network，GAT）是一种基于注意力机制的图神经网络架构。它通过动态加权邻居节点的重要性来聚合信息，让模型能够自动判断哪些邻接节点对当前任务更重要。相比传统图卷积网络使用固定的归一化系数，GAT 为每条边计算一个可学习的注意力权重，从而捕捉更复杂的图结构关系。

为什么需要动态加权

在图结构数据中，同一节点的不同邻居往往具有不同的影响力。例如：

在社交网络中，紧密朋友的意见比泛泛之交更重要。
在分子图中，某些原子对功能基团的影响远大于远处原子。
在引文网络中，高被引论文的邻居权重应该更高。

传统的图卷积网络（GCN） 使用对称归一化邻接矩阵，对所有邻居一视同仁（权重仅由度决定）。这种方式忽略了节点之间的精细化差异。GAT 引入注意力机制，使每个邻居的权重变为学习得到的动态注意力系数，从而提升模型的表达能力和鲁棒性。

GAT 的核心原理

GAT 的聚合过程可以概括为三个步骤：计算注意力系数 → 归一化 → 加权聚合。

1. 线性变换

首先，每个节点特征通过一个共享的权重矩阵 $W$ 进行线性变换，得到更高层的表达：

$$ \mathbf{h}'_i = W \mathbf{h}_i $$

这一步与 GCN 相同，目的是提升特征维度并增强表达能力。

2. 计算注意力系数

对于节点 $i$ 和它的邻居 $j \in \mathcal{N}i$（包含自环），我们计算一个初始注意力得分 $e{ij}$，表示 $j$ 对 $i$ 的重要程度：

$$ e_{ij} = \text{LeakyReLU}\left(\mathbf{a}^\top [W\mathbf{h}_i ,\Vert, W\mathbf{h}_j]\right) $$

其中：

$\mathbf{a}$ 是一个可学习的注意力向量，将拼接后的特征映射为一个标量。
$\Vert$ 表示特征拼接。
LeakyReLU 提供非线性。

这里的关键在于，注意力函数是对称且共享的：$\mathbf{a}$ 在整个图上共享参数，而 $W\mathbf{h}_i$ 和 $W\mathbf{h}_j$ 的顺序决定了方向（有向图），但对于无向图来说，由于拼接操作包含了两个节点信息，这个得分可以捕获双向关系。

3. 归一化为注意力权重

使用 softmax 将注意力系数归一化，得到最终的注意力权重 $\alpha_{ij}$：

$$ \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k \in \mathcal{N}i} \exp(e{ik})} $$

这样确保对于每个节点 $i$，所有邻居（包括自己）的权重之和为 1，保证了数值稳定性，并且符合概率解释。

4. 特征聚合

用计算出的注意力权重对邻居特征进行加权求和，得到节点 $i$ 的新特征：

$$ \mathbf{h}i' = \sigma\left( \sum{j \in \mathcal{N}i} \alpha{ij} W \mathbf{h}_j \right) $$

其中 $\sigma$ 是非线性激活函数（通常为 ELU 或 ReLU）。整个过程是完全端到端可微的。

多头注意力机制

为了稳定学习过程并捕获多种不同的邻域卷积模式，GAT 通常使用多头注意力（multi-head attention）。

多头聚合方式

设置 $K$ 个独立的注意力头，每个头拥有自己的参数 $W^k$ 和 $\mathbf{a}^k$。然后将 $K$ 个头的输出进行拼接（或平均）：

中间层（拼接）： $$ \mathbf{h}i' = \overset{K}{\underset{k=1}{\Vert}} \sigma\left( \sum{j \in \mathcal{N}i} \alpha{ij}^k W^k \mathbf{h}_j \right) $$ 输出特征的维度变为 $K \times d'$，增加了特征容量。
预测层（平均）： $$ \mathbf{h}i' = \sigma\left( \frac{1}{K} \sum{k=1}^K \sum_{j \in \mathcal{N}i} \alpha{ij}^k W^k \mathbf{h}_j \right) $$ 当作为最终分类层的输出时，采用平均整合，然后送入 softmax。

多头注意力可类比于 CNN 中的多个卷积核，让模型从不同表示子空间学习邻居重要性。

GAT vs. GCN：关键差异一览

特性	GCN	GAT
邻居权重	固定的度归一化系数 $\frac{1}{\sqrt{d_id_j}}$	学习得到的动态注意力系数 $\alpha_{ij}$
参数量	仅一层权重矩阵 $W$	额外注意力向量 $\mathbf{a}$，若多头则更多
归纳能力	直推式与归纳式均可，但权重无法自适应	归纳式，权重完全由局部特征决定
可解释性	弱	强，可通过注意力可视化分析节点关系
计算复杂度	较低	略高（需计算成对注意力）

值得注意的是，GAT 的权重计算仅依赖邻居节点的特征，不依赖全局图结构，因此它天然适用于归纳式学习：即使在训练中未出现的新节点或全新的图，也能根据其特征计算出注意力权重。相比之下，GCN 依赖于整张图的拉普拉斯算子，通常是直推式的。

实现 GAT 层（PyTorch Geometric 示例）

以下展示如何使用 PyTorch Geometric 库轻松搭建 GAT 模型。

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch_geometric.nn import GATConv

class GAT(nn.Module):
    def __init__(self, in_channels, hidden_channels, out_channels, heads=8):
        super(GAT, self).__init__()
        # 第一层：多头注意力，输出维度 heads * hidden_channels
        self.gat1 = GATConv(in_channels, hidden_channels, heads=heads, dropout=0.6)
        # 第二层：单头注意力（或均值多头），输出分类维度
        self.gat2 = GATConv(hidden_channels * heads, out_channels, heads=1, 
                            concat=False, dropout=0.6)
        self.dropout = nn.Dropout(0.6)

    def forward(self, x, edge_index):
        # 第一层：多头拼接，用ELU激活
        x = self.dropout(x)
        x = self.gat1(x, edge_index)
        x = F.elu(x)
        # 第二层：输出分类结果
        x = self.dropout(x)
        x = self.gat2(x, edge_index)
        return F.log_softmax(x, dim=1)

模型的关键参数说明：

heads：注意力头数，增大可以提高模型容量，但也增加计算开销。
dropout：应用于注意力系数和输入特征的正则化，一般设为 0.6（原论文标准）。
concat：设为 False 时，输出层使用平均聚合，适合分类任务。

对于 Cora、Citeseer、Pubmed 等标准引文数据集，该结构通常能达到与原始 GAT 相当甚至更优的性能。

从零实现注意力机制（教学示例）

为了深入理解原理，我们可以用纯 PyTorch 实现一个简化的单头 GAT 前向传播：

import torch
from torch import nn

class SimpleGATLayer(nn.Module):
    def __init__(self, in_features, out_features, alpha=0.2):
        super().__init__()
        self.W = nn.Linear(in_features, out_features, bias=False)
        self.a = nn.Linear(2 * out_features, 1, bias=False)
        self.leakyrelu = nn.LeakyReLU(alpha)

    def forward(self, h, edge_index):
        # h: [N, in_features]
        # edge_index: [2, E]
        N = h.size(0)
        Wh = self.W(h)                     # [N, out_features]

        # 构建源节点和目标节点的特征对
        src, dst = edge_index              # 源和目标
        Wh_concat = torch.cat([Wh[src], Wh[dst]], dim=1)  # [E, 2*out_features]

        # 计算未归一化的注意力系数 e
        e = self.leakyrelu(self.a(Wh_concat)).squeeze(-1) # [E]

        # 用 softmax 归一化（基于目标节点分组）
        from torch_geometric.utils import softmax
        alpha = softmax(e, dst, num_nodes=N)  # [E]

        # 加权聚合
        out = torch.zeros(N, Wh.size(1), device=h.device)
        out.index_add_(0, dst, Wh[src] * alpha.unsqueeze(-1))
        return out

要点说明：

权重矩阵 W 对所有节点共享。
a 是将拼接特征映射为标量的向量（单层线性）。
利用了 softmax 函数按目标节点索引分组进行归一化，保证数值稳定性。

注意力权重的可视化与解释

GAT 的注意力系数可以直接用于解释模型决策。例如在引文网络中，我们可以查看一篇论文对其他邻居论文分配的权重。权重越高，说明模型认为该邻居的影响力越大。通过绘制注意力热力图，可以发现社区结构、关键连接等隐藏模式，这在药物发现、社交分析中具有很高的实用价值。

在实践中，需要提取 alpha 系数并对每个节点的邻居权重进行归一化显示。这种透明度是 GCN 这类黑箱模型无法直接提供的。

应用场景与最佳实践

适用场景：

社交网络影响力分析、推荐系统。
分子性质预测，其中原子间作用的强度不同。
知识图谱补全，关系权重可学习。
任何需要对邻居差异化建模的图结构数据任务。

训练技巧：

注意力机制容易在小图上过拟合，建议使用较强的 dropout（特征和注意力系数双重 dropout）。
对于非常大的图，可以使用邻居采样或图分割技术配合 GAT，因为计算全图注意力代价高。
初始学习率通常设为 0.005 ~ 0.01 左右，配合 L2 正则化权重衰减 5e-4。
早停（early stopping）基于验证集准确率，耐心值设为 100 epochs。

扩展变体：

GATv2：修复了原始 GAT 中注意力分数的静态排序问题，引入动态注意力，进一步提升表达能力。
异构 GAT：用于处理多种节点和边类型的异构图。
edge-feature GAT：将边特征也输入注意力函数，增强边信息的利用。

总结

图注意力网络通过可学习的注意力机制，让每个节点自动判别邻居的重要程度，突破 GCN 的固定权重限制。其核心在于计算拼接特征的注意力得分、softmax归一化以及多头集成，最终实现动态加权的邻域聚合。GAT 的灵活性、归纳式学习能力和天然的可解释性，使它成为图神经网络家族中不可或缺的基础模块。