Kubeflow：Kubernetes 上的机器学习流水线

FreeGuideOnline 最新 2026-06-20

什么是 Kubeflow

Kubeflow 是一个专为 Kubernetes 设计的开源机器学习平台，目标是将机器学习工作流的每一个阶段——从数据准备、模型训练、调优到部署——都以可重复、可移植、可扩展的方式运行在容器化环境中。它将复杂的 ML 基础设施抽象为一组 Kubernetes 原生资源，使数据科学家和 ML 工程师能够专注于模型本身，而不是底层调度与运维。

Kubeflow 的核心理念是 “Composable, Portable, Scalable”。它并不重新发明轮子，而是将业界成熟的开源组件（如 TensorFlow、PyTorch、Istio、Argo Workflows 等）无缝集成到 Kubernetes 生态中，提供统一的体验。

为什么需要 Kubeflow

在传统机器学习交付中，实验环境与生产环境不一致、训练任务难以追踪、模型部署流程繁琐、资源利用率低等问题十分常见。Kubeflow 正是为了解决这些痛点而设计的：

可重复性：通过容器化和流水线定义，确保每次实验的环境与流程完全一致。
可移植性：基于 Kubernetes，可以在任何云（AWS、GCP、Azure）或本地集群中运行。
弹性伸缩：利用 Kubernetes 自动扩缩容能力，按需分配 GPU/CPU 资源，降低成本。
端到端管理：从 Notebook 开发、分布式训练、超参数调优到模型服务，提供统一界面。
协作与共享：多个团队成员可以在同一集群上工作，共享镜像、流水线组件与模型工件。

Kubeflow 核心组件概览

Kubeflow 由一系列松散耦合的组件组成，每个组件解决 ML 工作流中的一个特定环节。初次使用时不必全部启用，可以按需集成。

1. 中心仪表盘——Kubeflow Dashboard

基于 Web 的中央控制台，提供对所有 Kubeflow 资源的统一访问入口。用户可以在这里启动 Jupyter Notebook、提交训练作业、管理流水线、查看模型服务等。它集成了身份认证与多租户隔离，让团队成员安全地共享集群资源。

2. 开发环境——Jupyter Notebooks

Kubeflow 提供了深度集成的 Jupyter Notebook 服务。通过仪表盘即可启动预配置好 TensorFlow、PyTorch 等框架的 Notebook 容器，并自动挂载持久化存储。每位用户拥有独立的 Notebook 实例，支持 GPU 资源申请，非常适合交互式数据探索与模型开发。

3. 流水线引擎——Kubeflow Pipelines (KFP)

这是 Kubflow 最核心的组件之一，用于构建、部署和管理端到端的机器学习工作流。流水线由一系列容器化步骤组成，每个步骤可以是数据预处理、模型训练或评估等。KFP 基于 Argo Workflows，但提供了更上层的 Python SDK 和可视化编辑能力。

关键概念：

Pipeline：定义整个 ML 工作流的 DAG（有向无环图）。
Component：流水线中的单个可执行步骤，封装为标准容器镜像。
Experiment：用于组织一组相关的流水线运行。
Run：流水线的一次实际执行，会记录每一步的输入、输出与状态。

KFP 还提供可复用的预制组件仓库，并支持将流水线运行结果、指标、元数据自动记录到 ML Metadata 服务。

4. 训练操作器——Training Operators

Kubeflow 提供多种针对分布式训练框架的 Kubernetes Operator，用户只需定义一个 PyTorchJob 或 TFJob 资源描述，Kubernetes 就会自动启动参数服务器、工作节点等 Pod，完成分布式训练。目前支持的主流框架：

TensorFlow (TFJob)
PyTorch (PyTorchJob)
MXNet (MXJob)
XGBoost (XGBoostJob)

5. 超参数调优——Katib

Katib 是一个自动化的超参数优化系统，支持随机搜索、网格搜索、贝叶斯优化等多种算法。它可以与任意训练框架结合，通过定义 Experiment 资源来并行进行多组超参数试验，并自动分析结果，找到最优超参数组合。

6. 模型服务——KServe (原 KFServing)

KServe 提供标准化的模型推理服务，支持多种服务框架（如 TensorFlow Serving、TorchServe、MLServer 等）。它抽象了推理服务的通用能力：

自动扩缩容（根据请求量调整副本数）
金丝雀发布与 A/B 测试
请求/响应日志记录
模型版本管理

用户只需将模型文件上传到存储系统（如 S3），创建一个 InferenceService 资源，Kubeflow 就会自动部署可弹性伸缩的 API 端点。

7. 元数据管理——ML Metadata

记录流水线运行过程中生成的工件（如数据集、模型）、执行步骤及其输入输出关系。这些信息对于模型溯源、实验对比和合规性审计至关重要。通过 ML Metadata，用户可以查询“哪个训练作业生成了这个模型？使用了哪个数据集？”等关键信息。

8. 多租户与身份管理——Profiles & Istio

Kubeflow 利用 Istio 实现细粒度的访问控制和流量管理。通过 Profile 资源为每个团队或项目创建独立的命名空间，并关联权限、资源配额和 Pod 安全策略。这种方式保证了多个团队在同一集群上互不干扰。

安装 Kubeflow 快速入门

Kubeflow 提供了多种安装方式，以适应不同 Kubernetes 发行版与云平台。推荐新手从以下路径开始。

准备工作

一个可用的 Kubernetes 集群（建议 v1.22+），本地可使用 kind 或 minikube。
安装了 kubectl 并配置完成。
足够的计算资源（本地至少 4CPU、8GB 内存）。

使用 Kind 在本地部署体验

下载并安装 Kind: brew install kind 或参考官方文档。

创建一个多节点集群（因为 Kubeflow 需要较多 Pod）：

cat <<EOF | kind create cluster --name kubeflow --config=-
kind: Cluster
apiVersion: kind.x-k8s.io/v1alpha4
nodes:
- role: control-plane
- role: worker
- role: worker
EOF

根据 Kubeflow 官方安装指南选择清单文件。对于 Kind，推荐使用 kfctl_k8s_istio 配置：

export KF_NAME=kubeflow
export BASE_DIR=/opt/kubeflow
export KF_DIR=${BASE_DIR}/${KF_NAME}
mkdir -p ${KF_DIR}
cd ${KF_DIR}
# 下载 kfctl 二进制并解压
wget https://github.com/kubeflow/kfctl/releases/download/v1.7.0/kfctl_v1.7.0-0-g6c4658e_linux-amd64.tar.gz
tar -xvf kfctl_v1.7.0-0-g6c4658e_linux-amd64.tar.gz

使用 kfctl 构建部署文件并应用到集群：

export CONFIG_URI="https://raw.githubusercontent.com/kubeflow/manifests/v1.7-branch/kfdef/kfctl_k8s_istio.v1.7.0.yaml"
./kfctl build -V -f ${CONFIG_URI}
./kfctl apply -V

等待所有 Pod 就绪（可能需要 10-15 分钟）：

kubectl get pods -n cert-manager
kubectl get pods -n istio-system
kubectl get pods -n auth
kubectl get pods -n kubeflow

转发 istio-ingressgateway 服务以访问仪表盘：
```
kubectl port-forward -n istio-system svc/istio-ingressgateway 8080:80
```
浏览器打开 http://localhost:8080，默认用户名 admin@kubeflow.org，密码 12341234（仅限开发环境）。

构建第一个 Kubeflow 流水线

场景描述

我们要创建一个简单的流水线：下载数据集 → 数据预处理 → 训练一个分类模型 → 输出准确率。使用 KFP Python SDK 定义。

步骤一：安装 Kubeflow Pipelines SDK

在任意 Python 环境中：

pip install kfp

步骤二：定义流水线组件

每个组件函数需要用 @dsl.component 装饰器，并在函数内调用 kfp.v2.dsl 提供的输入输出方法。更推荐使用 KFP v2 轻量级组件装饰器（要求 kfp>=2.0.0）。

创建一个文件 pipeline.py：

from kfp import dsl
from kfp.dsl import component, Input, Output, Dataset, Model, Metrics, ClassificationReport

@component(base_image="python:3.9")
def download_data(data: Output[Dataset]):
    import requests
    from sklearn.datasets import load_iris
    import pandas as pd
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    df.to_csv(data.path, index=False)

@component(base_image="python:3.9", packages_to_install=["scikit-learn"])
def train_model(
    train_data: Input[Dataset],
    model: Output[Model],
    metrics: Output[Metrics],
):
    import pandas as pd
    from sklearn.model_selection import train_test_split
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.metrics import accuracy_score
    import pickle

    df = pd.read_csv(train_data.path)
    X = df.drop('target', axis=1)
    y = df['target']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
    clf = RandomForestClassifier()
    clf.fit(X_train, y_train)
    accuracy = accuracy_score(y_test, clf.predict(X_test))
    with open(model.path, 'wb') as f:
        pickle.dump(clf, f)
    metrics.log_metric("accuracy", accuracy)

注意：KFP v2 组件函数体在容器内执行，所有依赖需要明确定义在 packages_to_install 或基础镜像中。输入输出通过路径传递。

步骤三：组合为流水线

在同一个文件中添加流水线定义：

@dsl.pipeline(
    name="Iris Classification Pipeline",
    description="A demo pipeline that trains a Random Forest on the Iris dataset."
)
def iris_pipeline():
    download_task = download_data()
    train_task = train_model(train_data=download_task.outputs["data"])

步骤四：编译与运行

编译为 JSON 格式的流水线描述文件，然后提交到 Kubeflow Pipelines。

from kfp import compiler

compiler.Compiler().compile(iris_pipeline, "iris_pipeline.json")

编译成功后，登录 Kubeflow Dashboard，进入 "Pipelines" 页面，点击 "Upload pipeline"，上传生成的 iris_pipeline.json。然后可以创建 Experiment 并运行，即可可视化地看到 DAG 图，每一步的日志、输出和准确率指标都会记录下来。

也可以使用 Python 客户端直接提交运行：

import kfp
client = kfp.Client()  # 需要配置 KFP 端点
experiment = client.create_experiment(name="demo")
run = client.run_pipeline(
    experiment.id,
    job_name="iris-run",
    pipeline_package_path="iris_pipeline.json"
)

高级特性与应用场景

使用 Kubeflow 进行超参调优

假设我们要优化随机森林的 n_estimators 和 max_depth，可以定义 Katib Experiment。Katib 通过 trial 模板调度训练任务，每个 trial 接收一组超参，执行并返回目标指标（如准确率）。Katib 支持 Trial 模板直接引用 Kubeflow 的 TF/PyTorch Job，无缝结合训练操作器。

示例关键配置片段（HyperParameter Training）：

apiVersion: kubeflow.org/v1beta1
kind: Experiment
metadata:
  name: katib-random-forest
spec:
  objective:
    type: maximize
    goal: 0.99
    objectiveMetricName: accuracy
  parameters:
    - name: n_estimators
      parameterType: int
      feasibleSpace:
        min: "50"
        max: "200"
    - name: max_depth
      parameterType: int
      feasibleSpace:
        min: "3"
        max: "15"
  trialTemplate:
    primaryContainerName: training-container
    trialSpec:
      apiVersion: batch/v1
      kind: Job
      spec:
        template:
          spec:
            containers:
              - name: training-container
                image: your-training-image
                command:
                  - "python"
                  - "train.py"
                  - "--n_estimators=${trialParameters.n_estimators}"
                  - "--max_depth=${trialParameters.max_depth}"

模型部署与 A/B 测试

训练完成后，通常需要将模型部署为可在线调用的预测服务。通过 KServe 的 InferenceService，可以轻松实现多版本流量分割。

例如，将模型 A 部署为默认版本，模型 B 作为金丝雀版本，分配 10% 流量：

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: iris-classifier
spec:
  predictor:
    canaryTrafficPercent: 10
    model:
      modelFormat:
        name: sklearn
      storageUri: s3://my-models/iris-model-v2
    default:
      model:
        modelFormat:
          name: sklearn
        storageUri: s3://my-models/iris-model-v1

当金丝雀版本性能稳定时，将 canaryTrafficPercent 调整为 100 并移除默认模型即可完成发布。

总结与学习路径

Kubeflow 为 Kubernetes 注入了机器学习原生能力，显著降低了 ML 工程化门槛。初学者可以从单节点 Kind 环境开始，体验 Notebook 开发和简单流水线；进阶用户可以结合 Katib、KServe 和训练操作器，构建完整的 MLOps 体系。

建议学习路线：

在本地用 Kind 部署 Kubeflow，完成 Dashboard 所有页面的点击体验。
使用 KFP SDK 编写并运行第一个流水线，理解组件、输入输出传递。
尝试在训练组件中使用 GPU 资源，并查看资源请求配置。
部署一个简单的 KServe 服务，调用其 REST/gRPC 接口。
引入 Katib 对模型超参数进行自动搜索。
探索多用户 Profile 和 RBAC 实现团队协作。

通过实际的端到端项目，您将深刻体会到 Kubeflow 带来的标准化、自动化与高效协作价值。