交叉验证与调参：网格搜索与贝叶斯优化

FreeGuideOnline 最新 2026-06-16

为什么需要交叉验证与调参

在机器学习中，模型表现不仅取决于算法本身，还高度依赖于超参数的选择。超参数是在训练前设定的配置（如树的深度、学习率、正则化系数），无法通过训练自动学习。如果仅凭单一训练/测试划分来评估不同超参数组合，结果会高度不稳定，容易过拟合或低估泛化误差。

交叉验证（Cross-Validation, CV）提供了一种更稳健的性能评估方法；而调参（Hyperparameter Tuning）则借助交叉验证，在超参数空间中搜索最优配置。本教程将系统讲解两种主流调参策略：网格搜索与贝叶斯优化，并通过代码实例帮助你扎实掌握。

1. 交叉验证的本质与常见方法

交叉验证的核心思想是：将有限的数据重复划分，轮流用不同子集进行训练和验证，最终取平均性能作为模型表现的可靠估计。

1.1 为什么不用单一验证集？

单一划分很可能因为一次偶然的“幸运”或“不幸”的分割，导致评估偏差。比如，验证集中恰好包含大量容易样本，模型得分虚高。交叉验证通过多次评估，降低方差，更接近真实泛化能力。

1.2 K 折交叉验证（最常用）

将数据集均分为 K 个互斥子集（fold）。
每次选择其中 1 份作为验证集，其余 K-1 份作为训练集。
重复 K 次，得到 K 个性能指标。
最终报告 K 次的平均值和标准差。

这种方法的数据利用率高，所有样本都会被验证一次。K 通常取 5 或 10：K 越大偏差越小但计算量上升，K 越小方差越大但计算更快。极端情况 留一交叉验证（K=样本数）在小数据集中会采用，但计算成本极高。

1.3 分层 K 折（Stratified K-Fold）

对于分类问题，需要保持每个 fold 中的类别比例与原始数据集一致。这能避免某一折中某个类完全缺失，使评估更稳定。scikit-learn 中 StratifiedKFold 是默认的 CV 切割器。

1.4 时间序列交叉验证

针对时间序列数据，不能随机打乱顺序，因为要用过去数据预测未来。常用方法为滚动预测：每次训练集是历史窗口，验证集是紧接着的下一段时间，逐步向前滚动。TimeSeriesSplit 类实现了该逻辑。

在选择 CV 策略时，务必匹配问题结构。例如：分类采用分层，时间序列采用时序分割，否则会导致数据泄露（data leakage）。

2. 调参之网格搜索：暴力穷举的智慧

网格搜索（Grid Search）是最直观的调参方法——在超参数空间上，为每个超参数指定一组候选值，遍历所有组合，用交叉验证评估每一组，最后选择交叉验证得分最高的超参数组合。

2.1 工作原理

假设我们调整随机森林的 n_estimators 和 max_depth，定义搜索范围：

n_estimators: [100, 200, 300]
max_depth: [5, 10, 15]

网格搜索会构建 3×3=9 种组合，对每种组合进行 K 折交叉验证，输出平均得分。最终选择最优组合作为最终模型。

2.2 代码示例：使用 scikit-learn 的 GridSearchCV

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

# 创建数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# 基础模型
rf = RandomForestClassifier(random_state=42)

# 参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 15],
    'min_samples_split': [2, 5]
}

# 创建 GridSearchCV 对象
grid_search = GridSearchCV(
    estimator=rf,
    param_grid=param_grid,
    cv=5,                 # 5折交叉验证
    scoring='accuracy',
    n_jobs=-1,            # 使用所有 CPU 核心
    verbose=1
)

# 执行搜索
grid_search.fit(X, y)

# 查看最佳参数与得分
print("Best parameters:", grid_search.best_params_)
print("Best CV score:", grid_search.best_score_)

# 最终模型：自动用最佳参数在全量数据上重新训练
best_model = grid_search.best_estimator_

2.3 随机搜索：当网格太大时的优化

网格搜索随着超参数数量或多值范围增加，组合数量爆炸。随机搜索（RandomizedSearchCV） 在参数空间中随机采样固定数量的组合，通常设定 n_iter（如 100）。实践证明，在相同计算预算下，随机搜索往往比全网格搜索找到更优解，因为它能探索更宽的值域，而不死守网格点。示例替换 GridSearchCV 为 RandomizedSearchCV，并传入分布（如 scipy.stats.randint）即可。

2.4 网格搜索的局限

维度灾难：参数稍多（如 5 个参数，每个 5 个候选值）即产生 3125 次评估，计算不可行。
非光滑空间：对条件参数（有些参数仅在特定条件下起作用）表现笨拙。
无法利用历史信息：每一次评估都是独立的，不会从之前的评估中学习。

3. 贝叶斯优化：更智能的超参数搜索

贝叶斯优化（Bayesian Optimization）是一种序列模型优化方法，尤其适合评估成本高、计算耗时的超参数搜索（如深度学习）。它通过不断更新对目标函数（模型在验证集上的表现）的概率模型，智能地选择下一个最值得尝试的超参数点，从而在更少的试验次数内找到近似最优解。

3.1 核心思想

构建代理模型：通常使用高斯过程（Gaussian Process, GP）或 Tree-structured Parzen Estimator (TPE) 来拟合已有的（超参数，性能）观测点，得到目标函数的代理分布。
采集函数（Acquisition Function）：基于代理模型，计算在候选点上“尝试的价值”。它平衡探索（尝试不确定性高的区域）和利用（在已知表现好的区域附近深挖）。常用的有 EI（Expected Improvement）、POI（Probability of Improvement）、UCB（Upper Confidence Bound）。
迭代优化：
- 用现有观测点构建代理模型；
- 通过优化采集函数，推荐下一个最值得评估的超参数；
- 真实评估该超参数（使用交叉验证），得到性能值；
- 将新结果加入历史，重复直到达到最大试验次数。

3.2 代码示例：使用 Optuna（流行库）

Optuna 是目前最流行的超参数优化框架之一，内部实现了基于 TPE 的贝叶斯优化，支持剪枝、并行化等高级特性。

import optuna
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

def objective(trial):
    # 定义搜索空间
    n_estimators = trial.suggest_int('n_estimators', 50, 300)
    max_depth = trial.suggest_int('max_depth', 3, 20)
    min_samples_split = trial.suggest_int('min_samples_split', 2, 10)
    
    model = RandomForestClassifier(
        n_estimators=n_estimators,
        max_depth=max_depth,
        min_samples_split=min_samples_split,
        random_state=42
    )
    
    # 使用5折交叉验证评估
    score = cross_val_score(model, X, y, cv=5, scoring='accuracy', n_jobs=-1).mean()
    return score

# 创建 study 并优化
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=50, n_jobs=-1)  # n_trials 即最大试验次数

print("Best trial:")
trial = study.best_trial
print("Value (CV accuracy):", trial.value)
print("Params:", trial.params)

3.3 贝叶斯优化 vs 网格搜索

特性	网格搜索 / 随机搜索	贝叶斯优化
决策方式	静态（预先定义所有组合）	动态（根据历史结果选取下一点）
评估次数	指数级增长	通常 50~200 次即可找到良好解
处理连续分布	需要离散化	天然支持连续空间（如学习率对数均匀分布）
并行性	极易并行（所有组合无关）	部分可并行（受序列依赖影响）
实现复杂度	极低	中等，但库已封装好
适用场景	小规模搜索、快速基准线	高成本评估、复杂搜索空间

3.4 何时使用贝叶斯优化？

模型训练一次非常耗时（如神经网络、大型集成模型）。
搜索空间包含连续型超参数或条件依赖关系。
希望尽可能少地评估真实目标函数。
已有一个良好基线，想进一步精调。

对于轻量级模型（如决策树、朴素贝叶斯）且参数较少时，网格/随机搜索往往已足够。

4. 交叉验证与调参的最佳实践

切勿在测试集上重复调参：调参过程必须使用交叉验证集（即训练集再划分）。最终测试集只用来检验一次最终模型的泛化能力。数据泄露会导致过分乐观的估计。
嵌套交叉验证（Nested CV）用于公正评估：如果要客观比较不同模型或调参策略，需要使用双层循环。外层 CV 用于划分训练/测试，内层 CV 在训练集上进行调参（如网格搜索），最后在外层测试集上评估。这样可以避免调参过程中的乐观偏差。
选择合适的评分指标：scoring 根据业务目标选择——如 'accuracy'、'f1'、'roc_auc'。对于不平衡数据，准确率会欺骗你。
利用早停法结合贝叶斯优化：一些库支持在交叉验证中间报告指标，若验证曲线无提升可提前终止（Optuna 的 TrialPruned），大幅节省计算。
固定随机种子保证可重复性：random_state 在所有划分和模型中都要指定，否则结果不可复现。
可视化搜索过程：Optuna 提供 optuna.visualization 模块，可绘制参数重要性、优化历史等，帮助理解超参数对性能的影响。

5. 总结

交叉验证是调参的基石，它提供了稳健的性能估计，使搜索到的超参数更可信。网格搜索简单暴力，适合小空间快速上基线；随机搜索以相同预算探索更广空间，是性价比之选；贝叶斯优化则利用历史信息，用更少尝试逼近最优，是深度学习和大规模模型的标配。掌握这三种技术后，你将在任何机器学习项目中都能更高效地榨取模型潜力。

下一步，建议你亲手运行本教程中的代码，并尝试将 RandomForestClassifier 替换为其他模型（如 XGBoost、LightGBM），体验不同搜索策略的差异。如果数据量较大，可先从随机搜索开始，再转向贝叶斯优化精调。