孤立森林 iForest：基于划分的轻量异常检测

FreeGuideOnline 最新 2026-06-14

什么是孤立森林 (iForest)

孤立森林 (Isolation Forest，简称 iForest) 是一种专门为异常检测设计的无监督学习算法。与传统的基于距离或密度的异常检测方法不同，iForest 的核心思路并不是去描述“正常数据应该长什么样”，而是直接利用异常点“少而不同”的特性，通过随机划分的方式将其快速“孤立”出来。

它的主要优势在于：

线性时间复杂度：训练和预测都很快，适合处理大规模数据。
低内存消耗：不需要计算距离矩阵或密度，是一种轻量级算法。
对高维数据有效：通过随机选择特征和分割点，能有效避免“维度灾难”对距离度量的影响。
无需预先定义正常分布：完全基于数据驱动，对数据分布没有假设。

核心直觉：为什么“孤立”能检测异常

想象在一张白纸上随机散落着一些点。大多数点（正常点）聚集在一起，形成一个或几个致密的区域。而少数几个异常点则远离这些区域，孤零零地待在一边。

现在，我们玩一个游戏：每次用一把随机方向的刀切向平面，把整个空间切成两半。重复这个切分过程，直到每个点都被完全隔离在一个不能再分的区域内。

正常点位于密集区域，你需要反复切很多刀，才能把它们一个个分开。
异常点本身就“离群索居”，往往只需要很少的几刀，就会被独自隔离在一个区域内。

孤立森林正是受这种直觉启发：异常点更容易被随机划分过程快速隔离。因此，用于隔离一个点所需的划分次数（路径长度），可以直接作为它的异常程度指标——路径越短，越可能是异常。

算法工作原理解析

iForest 由多棵 孤立树 (iTree) 组成，每棵树都是一个完全随机的二叉树。最终的异常分数通过对所有树的路径长度进行平均得到。

1. 构建一棵孤立树 (iTree)

构建 iTree 是一个递归的随机划分过程，非常像构建一棵极其简单的随机决策树，但没有任何标签指导：

从训练数据中随机抽样出一个大小为 (\psi) 的子样本集（通常 (\psi = 256)）。
在当前节点数据上：
- 如果数据不可再分（只剩一条数据，或所有数据完全相同），则将该节点标记为外部节点（叶子节点），并记录当前节点深度。
- 否则，随机选择一个特征，并在该特征的最小值和最大值之间随机选一个分割值。
- 根据该特征值是否小于分割值，将数据划分到左、右子节点。
对两个子节点递归执行步骤 2，直到达到停止条件（如达到最大深度 (\log_2(\psi))），或者数据已被完全孤立。

关键点在于：完整的训练从不使用全部数据，而是对每个 iTree 使用不同的随机子样本。这样做既能降低计算成本，又能通过子采样的多样性来增强异常检测效果——异常点在子样本中依然容易被孤立，而正常点在不同子样本中的表现会被平滑。

2. 异常分数的量化计算

当森林构建完成后，对于任意一个数据点 (x)，我们让它遍历森林中的每一棵 iTree，记录它最终落在叶子节点时的路径长度 (h(x))。由于不同的树深度不同，路径长度需要进行标准化处理。

路径长度标准化
对于一个包含 (n) 个样本的数据集，在随机生成的二叉树中，失败搜索（即从根到叶子节点的路径）的平均路径长度具有理论上的平均值：

[ c(n) = 2H(n-1) - \frac{2(n-1)}{n} ]

其中 (H(i)) 为调和数，可近似为 (H(i) \approx \ln(i) + 0.5772156649)（欧拉常数）。这个 (c(n)) 被用作归一化常数，可以理解为在 (n) 个点中随机划分时，平均需要多少步才能隔离一个点。

异常分数公式
点 (x) 在大小为 (n) 的数据集中的异常分数 (s(x, n)) 定义为：

[ s(x, n) = 2^{-\frac{E[h(x)]}{c(n)}} ]

其中 (E[h(x)]) 是点 (x) 在所有 iTree 上路径长度的平均值。

分数解读：

如果 (s) 非常接近 1，说明该点平均路径长度极短，极容易被孤立，可以判定为异常。
如果 (s) 远小于 0.5，说明该点路径长度明显长于平均，此点很可能处于一个极其密集的区域，非常安全，可视为明显正常。
如果 (s) 大约等于 0.5，说明该点的路径长度与随机期望持平，整个数据集可能没有明显的异常。

关键参数与调优指南

iForest 的参数非常少，且默认值通常能提供不错的表现，这使其成为异常检测入门的最佳选择之一。

n_estimators（树的数量）
- 默认值：100。树越多，结果越稳定，但计算消耗也线性增加。通常 100 棵树就能很好地收敛。
max_samples（子采样大小 (\psi)）
- 默认值：256。这是 iForest 最核心的参数。较小的 (\psi) 能使异常点更容易在树中被隔离（因为正常点扎堆效应更强），且极大提高了训练速度。经验上，(\psi) 设置在 256 到 512 之间通常足够，即使数据量巨大也不建议设置过高，否则可能会将大量正常点的密集子结构“喂”给树，降低检测灵敏度。
contamination（污染率）
- 虽然 iForest 本身输出连续分数，但在需要硬分类时（异常/正常），可通过此参数指定数据集中异常点的预期比例。算法会自动选取分数阈值。如果你对异常比例毫无概念，可先用 auto 或留空，然后根据分数直方图手动选择阈值。
max_features（每次划分候选特征数）
- 默认通常为 1.0（使用所有特征），但在高维数据中，可限制为较小的值（如 0.5 或 sqrt(d)），进一步降低个别强相关特征带来的干扰，增加树的多样性。

典型使用场景

孤立森林特别擅长检测全局稀疏异常和孤立的小簇异常，但不适合检测那些与正常集群相对位置接近、只存在形状细微差异的异常。

最适用的场景包括：

金融风控：信用卡欺诈交易检测（异常行为模式明显偏离正常交易）。
网络安全：网络入侵检测、异常流量识别。
工业物联网：传感器数据中的设备故障预警。
数据清洗：自动发现并处理数据集中的离群点样本。
制造质检：生产线产品质量异常检测。

不适用的情况：正常数据本身包含多个密度差异巨大且合理的簇，且异常只是位于这些合理簇之间的过渡带。此时 iForest 可能会错误地将低密度正常簇划分为异常，而密度敏感的算法（如 LOF）可能更合适。

简单代码结构示意（以 Python 为例）

以下展示使用 scikit-learn 实现 iForest 的核心步骤，帮助你直接上手。

from sklearn.ensemble import IsolationForest
import numpy as np

# 生成示例数据，包含正常点和少量异常点
rng = np.random.RandomState(42)
X_normal = 0.3 * rng.randn(100, 2) + [2,2]   # 正常簇
X_outliers = rng.uniform(low=-4, high=4, size=(10,2)) # 随机异常
X = np.vstack([X_normal, X_outliers])

# 初始化 iForest
# contamination=0.08 表示预期8%的异常率（10/110≈0.09），可根据需求调整
clf = IsolationForest(n_estimators=100, 
                      max_samples=256,
                      contamination=0.08,
                      random_state=42)

# 训练模型（无监督，不需要标签）
clf.fit(X)

# 预测：返回 1 表示正常，-1 表示异常
y_pred = clf.predict(X)

# 获取连续异常分数（分数越低越异常）
scores = clf.decision_function(X)

# 也可以直接获取分数：score_samples 为正，越负越异常
raw_scores = clf.score_samples(X) 
# 注意 score_samples 与异常分数 s 反向，可用 -raw_scores 转换为“异常值越大越可能异常”

深入理解：为何子采样如此重要

一个初学者容易忽略的细节是 max_samples 的作用。假设我们有一大批聚集的正常点，如果不进行子采样而使用全部数据构建 iTree，那么异常点（数量极少）在随机划分中很难“脱颖而出”，因为树可能会花很多步先把巨大的正常簇分开。但当我们只用一小部分样本（如256个）建树时，正常点在子样本中仍然是相对密集的，而异常点则可能在当前子样本中变成了一个明显孤立的点，路径长度立刻变短。这种通过反复随机欠采样正常数据的手段，是 iForest 在保持对异常敏感的同时又极为高效的根本原因。

总结

孤立森林是一种直观、快速且内存友好的异常检测算法，它通过“越是异常越容易被随机划分孤立”的优雅思想，将异常检测问题转化为一个只需统计树深度的简单概率问题。它的核心优势在于：

极低的计算开销
对高维和大型数据集的良好适应能力
几乎没有需要精细调整的超参数

在你的下一个异常检测任务中，不妨将 iForest 作为第一个尝试的基线模型，它常常会带给你惊喜。