图异常检测：识别图中的异常节点与边

FreeGuideOnline 最新 2026-06-14

什么是图异常检测

图异常检测是数据挖掘与网络安全领域的一项重要技术，目标是在由节点（如用户、设备）与边（如交易、通信）构成的图结构中，自动识别与大多数对象行为显著不同的节点、边或子结构。这些“不一样”的对象通常被称为异常（anomalies），可能代表欺诈账户、网络入侵、虚假评论或系统故障。

区别于传统表格数据的异常检测，图数据的关键在于关联性：一个节点的行为不仅取决于自身属性，还与其邻居、所处的社区结构密切相关。因此，图异常检测需要同时考虑属性信息和拓扑结构。

为什么要做图异常检测

在现实世界中，许多重要数据天然以图的形式存在：

金融反欺诈：信用卡交易构成二部图，异常边可能表示套现或洗钱。
社交网络净化：清理机器人账户、虚假关注关系。
网络安全：计算机通信图中检测扫描攻击或恶意软件传播。
电商反作弊：识别刷单团伙，这类异常常表现为密集的子图。
知识图谱一致性：发现错误的实体关系。

与孤立点检测相比，图异常检测能捕获团伙作案、伪装成正常结构的隐蔽异常，以及仅通过邻居关系才能暴露的异常节点。

图异常的类型

根据异常在图中的表现形式，通常分为以下三类：

节点异常

单个节点在属性或连接模式上偏离图中大多数节点。

属性异常：比如社交网络中，一个节点的个人资料全是空字段，但拥有大量好友。
结构异常：度数极高、形成星形连接的中心节点，或者纯孤立节点。
社区异常：与自身社区内其他节点属性差异巨大，例如一个安全网络中突然出现高带宽外联设备。

边异常

某条边本身不符合图的整体连接规律。

权重异常：正常交易金额在$100左右，突然出现一条$100万的边。
桥接异常：一条边连接了两个本不应有联系的稠密社区，可能表示数据泄露通道。
罕见边类型：在异质图中，出现不应存在的节点类型对之间的边。

子图异常

一组节点和边共同表现出异常模式，而非孤立个体。

密集子图：如刷单团伙，账号间互相关注、共同评论同一批商品，形成近完全子图。
攻击子图：恶意账户短时间内大量关注正常用户，构成星形注入结构。
异构异常子图：例如“卖家-买家-资金流”模式中，资金循环流动形成闭环。

常用检测方法

基于统计与度分布的方法

利用图的全局统计特征，将偏离预期分布的对象标记为异常。

度分布异常：检测度数远超过正常范围（如超过平均度数加3个标准差）的节点。
稀有属性组合：计算节点属性值的频率，找出出现概率极低的特征向量。
幂律模型：在真实社交网络中，边形成通常符合幂律，若某些边的出现概率极低，则为异常。

优点：实现简单，可解释性强。
缺点：难以捕捉复杂的依赖关系，容易被高维特征稀释。

基于特征工程的方法

将图结构信息转化为可计算的数值特征，再套用传统异常检测算法（如孤立森林、LOF）。

常用特征：

一阶结构特征：节点度、入度、出度、加权度。
二阶邻域特征：邻居的平均度、邻居的标签分布差异性。
中心性特征：介数中心性、接近中心性——异常节点往往具有极端中心性值。
聚类系数：异常节点通常破坏局部三角闭包性，ego-network的聚类系数异常低。
图基元计数：统计每个节点参与的三角形或更复杂模体的个数，刷单团伙的模体计数会显著偏高。

工程流程：

提取所有节点/边的结构化特征。
使用标准异常检测模型（如Elliptic Envelope、Isolation Forest）进行评分。
将得分最高的对象作为异常候选。

优点：可复用成熟的表格异常检测方法，工程化程度高。
缺点：特征设计强依赖领域知识，难以自适应捕获非预见性异常。

基于图神经网络的方法

图神经网络（GNN）通过信息传递机制学习节点/边的低维嵌入表示，并利用重建误差或生成对抗方式实现端到端异常检测。

典型框架：基于自编码器的异常检测

思想：正常样本的嵌入能被精准重建，而异常样本的重建误差会很大。

Dominant（SIGIR 2020）：同时重构节点属性矩阵和邻接矩阵，将两个模态的重构误差融合为异常分数。
GCNAE：利用GCN编码器生成节点嵌入，再通过点积解码器重建邻接矩阵，重建误差作为边的异常分数。
GAE系列：变分图自编码器（VGAE）学习隐变量分布，用负对数似然度量边的异常程度。

基于对比学习

CoLA（WWW 2021）：通过随机增强图生成锚点-邻域对，训练GNN区分真实邻居与生成负样本，异常节点因难以匹配其邻域，对比损失更高。
SL-GAD：将节点属性与结构进行对偶增强，异常节点往往在两个视图间一致性低。

基于生成式对抗网络

NetWalk：基于随机游走学习节点嵌入，利用重构概率检测动态异常边。
GCAN：通过生成器生成假样本，判别器鉴别节点真伪，异常节点被期望判别得分较低。

优点：能同时学习复杂的结构-属性关联，检测精度高。
缺点：训练成本大，可解释性弱，需要一定数量的正常样本标注。

社区与谱分析方法

利用图的特征值与特征向量（谱分析）检测变化。

迭代残差分析：计算邻接矩阵的奇异值分解，重构矩阵，将重构残差大的边标记为异常。
模块度变化：检查移除某个节点/边后，图的模块度是否发生显著下降，若是则可能为关键异常连接。
基于残差的自编码：使用低秩矩阵分解逼近邻接矩阵，超出低秩逼近的偏差即为异常。

简单实例：检测刷单团伙

假设我们有一个用户-商品交互图，边表示用户购买了商品。刷单团伙的特点：一小群用户同时购买了几乎完全相同的商品集合，形成近似二分团。

基于子图异常检测方案：

特征计算：对每个用户，计算其ego-network（邻居的商品集合）的Jaccard相似度矩阵。
密度检测：利用频繁子图挖掘算法（如GRAPHIT）或基于三角形的密度指标，找出所有用户间连接稠密的子图。
统计筛选：对于候选子图，若其内部商品共现次数超过总体平均值的5倍，且内部用户度集中在异常高区间，则判定为异常团伙。

实践建议与工具

数据准备：确保图数据干净，处理孤立节点和缺失属性。
无监督设定为主：真实场景通常缺乏异常标签，优先使用无监督方法。
特征与模型结合：前期可以用特征工程快速建立基线，再用GNN方法迭代提升。
可解释性：业务需要落地时，务必提供每条异常的理由（如“节点A异常，因为其邻居度的方差是平均水平的17倍”）。
常用库：
- PyGOD：专门为图异常检测设计的Python库，内置大多主流无监督模型。
- Stellargraph：封装了Deep Graph Infomax、GCNAE等。
- DGL-LifeSci + DGL：用于自定义GNN模型。
- NetworkX + Scikit-learn：实现基础特征工程+异常检测。

总结

图异常检测跨越了图挖掘与异常检测两大领域，核心在于结合结构与属性来查找潜在风险。从简单的度分布统计到先进的图神经网络重构，没有一种方法适用于所有场景。初学时不妨先从基于度、聚类系数等统计特征入手，逐步尝试Dominant、CoLA等预实现模型，理解重建误差背后的含义。随着数据规模和维度的增长，图神经网络家族正在成为主流，但永远不要忽视领域特征工程带来的可解释性优势。