时间序列数据生成：TimeGAN 与条件扩散模型

FreeGuideOnline 最新 2026-06-27

引言：为什么需要生成时间序列数据？

在许多现实场景中，获取足量、高质量的时间序列样本极其昂贵或受到隐私限制，例如医疗传感器数据、金融交易记录、工业设备遥测等。数据增强与隐私保护的需求推动了时间序列生成模型的发展。传统方法（如拟合ARIMA后采样）难以捕捉复杂分布和长程依赖，而深度学习生成模型则能学习原始数据的分布，合成逼真、多样且可保护隐私的时间序列。

本文将讲解两类前沿方法：

TimeGAN：将生成对抗网络（GAN）与自回归时间序列表征相结合
条件扩散模型：概率扩散框架下加入条件控制，生成高质量且可控的序列

我们将从原理、架构、训练细节到简明代码示例，完整呈现这两大方向。

时间序列生成的独特挑战

与图像生成不同，时间序列生成面临三个核心难点：

时间依赖结构：真实序列的观测值在时间上高度相关，生成模型必须理解并捕捉短期与长期依赖。
静态特征与时间特征的耦合：例如患者序列中，静态属性（年龄、性别）影响动态信号变化（心率、血氧）。
评估的主观性：没有单一指标衡量生成质量，常需结合分布距离、自相关性保留、可预测性等多项指标。

针对这些挑战，先进的生成模型应运而生。

方法一：TimeGAN —— 时间序列对抗生成网络

TimeGAN (Time-series Generative Adversarial Network) 由Yoon等人在2019年提出，它将无监督GAN的生成能力与自回归模型对时间依赖的建模相结合，并引入监督损失以保持逐步过渡的合理性。

核心思想

TimeGAN 不只是生成直接输出，而是构造一个嵌入空间，在其中同时进行“对抗生成”与“逐步骤监督训练”。网络包含四个组件：

嵌入函数（Embedding）：将真实静态与动态输入映射到潜在空间。
恢复函数（Recovery）：从潜在表征恢复回原始空间。
序列生成器（Generator）：基于静态向量和过往潜在状态生成下一时刻的潜在状态。
序列判别器（Discriminator）：在潜在空间区分真实序列与生成序列。

训练时交替进行三个目标：

重建损失：嵌入后恢复必须接近原始输入。
对抗损失：让生成器的潜在序列骗过判别器。
监督损失：强迫潜在状态之间的转移与真实转移保持相似（借助嵌入函数对真实序列的变换提供教师标签）。

架构与训练流程

静态特征处理：如果数据包含静态向量 $s$，会被送入嵌入/生成器作为条件。

训练步骤简化描述：

嵌入网络 $e$ 和恢复网络 $r$ 以重建损失训练：$\mathcal{L}{R} = \mathbb{E}{\mathbf{x},\mathbf{s}} | \mathbf{x} - r(e(\mathbf{x},\mathbf{s}),\mathbf{s}) |^2$
监督损失：使用嵌入网络对真实序列各步的输出 $\mathbf{h}{1:T}$ 来约束生成器的隐含状态转移：
$\mathcal{L}{S} = \mathbb{E}{\mathbf{x},\mathbf{s}} \left[ \sum_t | \mathbf{h}t - g\theta(\mathbf{h}{t-1},\mathbf{z}_t) |^2 \right]$
对抗损失：判别器试图区分真实潜在序列和生成的潜在序列，生成器对抗训练。最终损失为三者的加权和。

通过这种设计，TimeGAN 学习到的潜在轨迹能保留数据的关键时间模式。

代码示例（PyTorch 简化片段）

以下展示核心的递归生成器结构（省略完整训练循环）：

class Generator(nn.Module):
    def __init__(self, input_dim, hidden_dim, static_dim):
        super().__init__()
        self.static_net = nn.Linear(static_dim, hidden_dim)
        self.rnn = nn.GRU(input_dim + hidden_dim, hidden_dim, batch_first=True)
        self.out = nn.Linear(hidden_dim, input_dim)

    def forward(self, z, static, seq_len):
        # z: 随机噪声序列 (batch, seq_len, noise_dim)
        # static: 静态向量 (batch, static_dim)
        s_emb = self.static_net(static).unsqueeze(1)  # (batch,1,hidden)
        # 拼接噪声与静态嵌入
        inp = torch.cat([z, s_emb.repeat(1, seq_len, 1)], dim=-1)
        h, _ = self.rnn(inp)
        return self.out(h)

判别器则采用双向RNN提取时序特征后进行分类。

优缺点

优点：显式监督过渡，生成序列更符合时间一致性；可以保留静态-动态耦合。
缺点：训练不稳定（继承GAN通病）；对长序列可能产生模式坍塌；需精细调整超参数。

方法二：条件扩散模型

扩散模型（Diffusion Models）近年来在图像生成领域大放异彩，其通过迭代去噪渐进生成数据，天然适合多维时间序列。条件扩散加入了外部信息控制生成方向，使生成过程更加灵活可控。

去噪扩散概率模型（DDPM）回顾

扩散模型包含两个过程：

前向过程：逐步向真实数据 $\mathbf{x}_0$ 添加高斯噪声，经过 $T$ 步得到纯噪声 $\mathbf{x}_T$：
$q(\mathbf{x}t|\mathbf{x}{t-1}) = \mathcal{N}(\mathbf{x}t; \sqrt{1-\beta_t}\mathbf{x}{t-1}, \beta_t\mathbf{I})$
逆向过程：训练一个去噪网络 $\epsilon_\theta$ 来逐步去除噪声，重建数据：
$\mathbf{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left(\mathbf{x}_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}t}} \epsilon\theta(\mathbf{x}_t, t) \right) + \sigma_t\mathbf{z}$

训练目标简化为预测添加的噪声：
$\mathcal{L} = \mathbb{E}_{\mathbf{x}0,\epsilon,t} | \epsilon - \epsilon\theta(\sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t) |^2$

时间序列的条件扩散生成

在时间序列领域，我们可以将序列 $\mathbf{x}{0} \in \mathbb{R}^{L \times d}$（$L$ 长度，$d$ 维度）直接视为扩散样本，并纳入条件 $c$（如类别标签、过去观察到的窗口、或静态属性）。模型训练时学习 $\epsilon\theta(\mathbf{x}_t, t, c)$。

常见架构选择：

1D卷积或Transformer 作为去噪网络 $\epsilon_\theta$，能同时捕获时间依赖。
条件通过嵌入后与时间步嵌入相加或拼接，注入到网络层中。
我们常采用 U-Net 1D 或基于Transformer Encoder 的架构。

条件注入的实现细节

时间步 $t$：通过正弦位置编码后经过全连接获得时间嵌入。
条件 $c$：若为类别，则学习嵌入向量；若为连续向量（如历史窗口），可经过编码器后与时间嵌入融合。
将融合后的条件向量通过 FiLM 层（特征级线性调制）或 Adaptive Group Normalization 注入每一残差块。

训练与采样流程

训练

# 假设 x: (batch, L, dim), c: (batch, cond_dim)
t = torch.randint(0, T, (batch_size,), device=device)
noise = torch.randn_like(x)
noisy = q_sample(x, t, noise)   # 前向加噪
pred_noise = denoise_fn(noisy, t, c)
loss = F.mse_loss(pred_noise, noise)

采样（生成）

从纯噪声 $\mathbf{x}_T$开始，循环 $t = T$ 到 $1$：

x_t = torch.randn(batch_size, L, d)
for t in reversed(range(T)):
    pred_noise = denoise_fn(x_t, t, c)
    x_t = p_sample(x_t, t, pred_noise)   # 根据DDPM公式去噪一步
return x_t

优势与灵活性

强样本质量：扩散模型生成样本的多样性与保真度平衡更好，不易模式坍塌。
条件灵活：可轻松加入趋势、类别、属性、甚至缺失掩模等条件。
适用于不规则采样：通过结合连续时间扩散模型，可处理非规则计时的时间序列。

两种方法对比简表

特性	TimeGAN	条件扩散模型
生成原理	对抗训练 + 监督潜在转移	迭代去噪，概率扩散
训练稳定性	较低（需平衡三个损失）	较高（单一回归损失）
样本多样性	容易模式坍塌	天然支持丰富多样性
时间依赖捕捉	通过RNN建模	通过卷积/注意力建模
条件引入	静态向量直接作为输入	灵活，多模态条件
适用序列长度	中等长度较优	可处理长序列，但开销更大
计算开销	较快	采样步骤多，速度较慢

评估生成的时间序列

评估生成质量不能只看训练损失，常用方法包括：

分布度量：使用t-SNE或UMAP可视化原始数据与生成数据分布重叠；计算一阶矩（均值）与二阶矩（方差）差异。
判别分数：训练一个分类器区分真假，分类准确率接近0.5为佳。
预测分数：在真实数据上训练预测模型，应用于生成数据，评估预测误差（误差越低表示生成数据捕获了预测性特征）。
自相关图比较：生成序列的自相关函数应接近真实序列。
领域实战指标：例如金融数据生成后，策略回测表现应接近原始数据表现。

实践建议与总结

从TimeGAN入手：适合快速尝试，理解生成对抗在时间序列的运作。注意监控监督损失与对抗损失的平衡。
追求质量与可控性：推荐条件扩散模型，尽管推理耗时长，但稳定性和输出质量更优。可使用DDIM（确定性隐式模型）加速采样。
数据预处理：必须归一化（如z-score）避免量纲影响。对于长序列，考虑分窗口训练或使用下采样技巧。
混合条件：条件扩散可以结合引导（classifier guidance或classifier‑free guidance），增强对特定属性的控制力。

时间序列数据生成正从研究走向实际应用，理解这两种核心方法将为你打开金融情景模拟、医疗数据增广、传感器异常注入等大门。接下来，不妨用公开数据集（如Stocks、PhysioNet）动手复现，逐步调整复杂条件，体验生成质量的变化。