TensorBoard：深度学习训练的可视化利器

FreeGuideOnline 最新 2026-06-14

什么是 TensorBoard

TensorBoard 是 TensorFlow 官方出品的可视化工具包，现已成为深度学习项目跟踪、调试与优化的通用标准。它可以直观地展示模型结构、训练过程中的损失及评估指标变化、权重分布、嵌入向量降维投影等，让隐性的训练信息变得一目了然。

对本教程而言，你需要具备 Python 和任意一种主流深度学习框架（PyTorch、TensorFlow 二选一）的入门知识即可。

安装与环境准备

TensorBoard 随 TensorFlow 一同安装，也可以作为独立包安装。推荐在虚拟环境中进行。

# 独立安装（仅TensorBoard）
pip install tensorboard

# 如果使用TensorFlow，通常会同时安装
pip install tensorflow

验证安装：

tensorboard --version

5 分钟快速体验

TensorBoard 的运行逻辑是：先将训练过程中的数据序列化写入“事件文件”（event file），然后用 Web 界面读取该文件集合。

创建一个测试日志文件夹（通常放在项目的 logs/ 下），并写入几行标量数据：

from torch.utils.tensorboard import SummaryWriter

# 创建写入器，日志保存在 logs/run1
writer = SummaryWriter("logs/run1")
for epoch in range(20):
    writer.add_scalar("Loss/train", 1.0 / (epoch + 1), epoch)
    writer.add_scalar("Accuracy/val", 0.5 + epoch * 0.02, epoch)
writer.close()

在上述 logs 目录的父级启动 TensorBoard：

tensorboard --logdir=logs

用浏览器打开 http://localhost:6006，你将看到实时的 Loss 与 Accuracy 曲线。

核心可视化面板详解

标量面板（Scalars）

使用场景：绘制损失值、准确率、学习率等单值指标随步骤或时间的变化曲线。

代码示例（PyTorch）：

for step in range(1000):
    loss = calc_loss(...)
    accuracy = calc_acc(...)
    writer.add_scalar("Loss/train", loss, global_step=step)
    writer.add_scalar("Accuracy/train", accuracy, global_step=step)
    # 多组实验可放在不同子标签下
    writer.add_scalars("Loss/compare", {"model_a": loss_a, "model_b": loss_b}, step)

在 TensorBoard 界面中，你可以平滑曲线、切换相对/对数坐标轴，并通过左侧标签分组快速过滤。

图面板（Graphs）

使用场景：检查模型的结构，确认计算图是否符合预期，追踪 Tensor 的流动。

TensorFlow：使用 tf.function 或 Keras 时，通过回调 tf.keras.callbacks.TensorBoard 自动记录图。
PyTorch：需要传入一个样例输入显式添加图。

model = MyModel()
dummy_input = torch.randn(1, 3, 224, 224)  # 根据模型设计
writer.add_graph(model, dummy_input)

图中节点可点开查看操作属性、形状和计算设备，方便排查模型架构错误。

图像面板（Images）

使用场景：可视化输入样本、特征图、生成结果、分割掩膜等。

# images 为张量或ndarray，形状应为 (N, C, H, W) 或 (N, H, W, C)
# 需要手动调整通道维度
img_grid = torchvision.utils.make_grid(images)
writer.add_image("Input Batch", img_grid, global_step=epoch)

# 特征图可视化
feat_map = model.feature_layer(input)
writer.add_images("Feature Maps", feat_map, epoch, dataformats="NCHW")

直方图面板（Histograms）与分布面板（Distributions）

使用场景：监测权重、梯度、激活值的分布变化，识别梯度消失、爆炸或神经元死亡。

for name, param in model.named_parameters():
    writer.add_histogram(name, param, epoch)
    if param.grad is not None:
        writer.add_histogram(f"{name}.grad", param.grad, epoch)

分布面板以百分位线性图展示相同数据，适合观察分布宽窄和长尾情况。

嵌入投影仪（Embedding Projector）

使用场景：对高维嵌入向量（如词向量、句子编码、用户 Embedding）进行 PCA 或 t-SNE 降维，以 2D/3D 散点图交互式探索。

features = torch.randn(100, 128)       # 100条数据，128维
labels = [f"sample_{i}" for i in range(100)]
metadata = ["class_A", "class_B"] * 50  # 类别标签
writer.add_embedding(features, metadata=metadata, label_img=None, global_step=0)

在 Projector 面板中可任意旋转、缩放、根据元数据着色，快速发现聚类模式。

超参数调优面板（HParams）

使用场景：同时记录多组超参数实验（学习率、批量大小、层数等）与其对应的最终指标，以平行坐标系或散点图对比。

核心是通过 SummaryWriter.add_hparams() 记录：

from torch.utils.tensorboard import SummaryWriter

hparam_dict = {"lr": 0.001, "batch_size": 64}
metric_dict = {"best_accuracy": 0.92, "final_loss": 0.23}
with SummaryWriter("logs/hparam_tuning") as w:
    w.add_hparams(hparam_dict, metric_dict)

框架实战：完整训练流程集成

PyTorch + TensorBoard

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter("logs/experiment_1")
model = MyModel().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=1e-3)
dummy_input = torch.randn(1, 3, 32, 32).to(device)

# 记录模型图
writer.add_graph(model, dummy_input)

for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    for i, (inputs, labels) in enumerate(train_loader):
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        global_step = epoch * len(train_loader) + i
        writer.add_scalar("Loss/train_step", loss.item(), global_step)

    # 记录每轮权重直方图
    for name, param in model.named_parameters():
        writer.add_histogram(name, param, epoch)

    # 验证阶段
    val_acc = evaluate(model, val_loader)
    writer.add_scalar("Accuracy/val", val_acc, epoch)

    # 记录图像示例
    img_grid = torchvision.utils.make_grid(inputs[:8])
    writer.add_image("Images/train_batch", img_grid, epoch)

writer.close()

运行后使用 tensorboard --logdir=logs 查看所有曲线、结构和分布变化。

TensorFlow / Keras + TensorBoard

Keras 中最便捷的方式是回调函数：

import tensorflow as tf

model = tf.keras.models.Sequential([...])
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

tensorboard_cb = tf.keras.callbacks.TensorBoard(
    log_dir='./logs',
    histogram_freq=1,           # 每轮记录一次权重直方图
    write_graph=True,           # 记录模型图
    write_images=False,
    update_freq='epoch'
)

model.fit(x_train, y_train,
          epochs=20,
          validation_data=(x_val, y_val),
          callbacks=[tensorboard_cb])

训练开始后启动 TensorBoard 即可实时监控。

进阶技巧与常见问题

多实验对比：将不同运行日志放在不同的子文件夹中（如 logs/run1, logs/run2），在 SCALARS 面板可以方便地对比各条曲线的相对路径。

远程服务器访问：若训练在远程 GPU 服务器上，可通过端口转发或使用 --bind_all 暴露。

# 本地终端建立 ssh 隧道
ssh -L 6006:localhost:6006 user@remote_ip
# 远程主机启动（绑定所有网络接口）
tensorboard --logdir=logs --bind_all

然后本地浏览器访问 http://localhost:6006。

降低日志膨胀：不要每步都记录直方图或图像，通常每几百步或每个 epoch 记录一次即可。避免 logdir 被过大日志文件撑满。

加载旧实验：运行 tensorboard --logdir_spec=exp1:./logs/run1,exp2:./logs/run2 可在界面中给不同实验命名。

缺失 PyTorch profiler：PyTorch 还提供 torch.profiler 结合 TensorBoard 的 add_metadata 查看 GPU/CPU 时间线和显存使用，是优化性能的强大工具。

总结

TensorBoard 已经成为深度学习工作流中不可或缺的一环。它不只是一个绘图工具，更是模型调试、超参选择、沟通成果的统一平台。将以上方法融入你的日常训练，项目的可解释性和迭代效率都将得到质的提升。