血糖预测：动态血糖监测与个性化模型

FreeGuideOnline 最新 2026-06-26

text 输入: [CGM(t-30), ..., CGM(t)] + [进食记录, 胰岛素, 运动...] 输出: CGM(t+30) 或未来30分钟内的血糖趋势


### 2.2 关键评价指标
- **RMSE（均方根误差）**：最常用，衡量预测值与真实值的平均偏差，单位mg/dL。临床要求45分钟后RMSE<12 mg/dL。
- **MARD（平均绝对相对差）**：考虑百分比误差，更适合全范围评估。
- **克拉克误差网格（CEG）**：将预测-真实值对划分到A到E五个区域，A区代表临床可接受的决策，B区次之。A+B区比例越高模型越安全。
- **低血糖/高血糖预警灵敏度与特异性**：评估对危险事件的捕捉能力。

---

## 第三章：从简单到复杂——主流预测模型概览

### 3.1 统计模型：轻量级基线
**自回归模型（AR/ARIMA）**  
使用自身滞后值作为特征来预测未来值。优点是解释性强、计算快，适合作为基线。但难以捕捉进食、运动带来的非线性突变。

**指数平滑法（Holt-Winters）**  
能捕捉趋势和季节性，但对剧烈波动响应滞后。

### 3.2 经典机器学习模型
**支持向量回归（SVR）**  
将低维输入映射到高维空间寻找最佳拟合，适合小样本、维度高的场景，但对时序动态建模不够自然。

**随机森林与XGBoost**  
将多棵决策树集成，可方便引入手工特征（如血糖变化率、历史趋势、进餐时间特征等）。需要将时序转为监督学习格式（滑动窗口生成样本）。

### 3.3 深度学习模型：端到端的序列建模
**长短期记忆网络（LSTM）**  
专为时序设计，能记住长期依赖关系，捕捉餐后持续升高、胰岛素作用衰减等动态。通常将CGM、进餐、运动等编码为多变量序列输入。

**Transformer 与时域卷积网络（TCN）**  
利用自注意力机制或空洞卷积扩大感受野，并行处理能力更强，更擅长捕捉长距离依赖。

**生理模型 + 机器学习混合**  
将第一性原理的糖代谢微分方程嵌入网络架构（如PINNs），增强外推能力和可解释性。

### 3.4 个性化自适应方法
实际应用中，个体间生理差异巨大。常用策略包括：
- **微调（Fine-tuning）**：用群体数据预训练，再用个人数据继续训练少量epoch。
- **元学习（Meta-learning）**：学习“如何快速适应新个体”的初始化参数。
- **在线学习**：随着新数据到来持续更新模型权重，适应生活习惯变化。

---

## 第四章：动手构建一个基础血糖预测模型

在本章中，我们将使用 Python 和开源库，逐步实现一个简单但完整的血糖预测流程。我们假设已经有预处理好的CGM数据和对应的进餐、胰岛素记录。

### 4.1 环境准备与数据加载
安装核心库：
```bash
pip install pandas numpy scikit-learn tensorflow matplotlib

假设数据格式如下：一个CSV文件包含时间戳列Timestamp（间隔5分钟），CGM值列Glucose，以及布尔列Meal（1表示该时刻有进食），Insulin表示注射剂量。

import pandas as pd
import numpy as np

df = pd.read_csv('cgm_data.csv', parse_dates=['Timestamp'])
df = df.set_index('Timestamp').sort_index()
print(df.head())

4.2 特征工程：将时间序列转为监督学习数据集

我们需要构建样本：用过去samples_back个时间步的特征来预测未来predict_ahead步的血糖值。

def create_sequences(data, feature_cols, target_col, lookback, predict_ahead):
    X, y = [], []
    for i in range(len(data)-lookback-predict_ahead+1):
        past_features = data[feature_cols].iloc[i:i+lookback].values
        target = data[target_col].iloc[i+lookback+predict_ahead-1]
        X.append(past_features)
        y.append(target)
    return np.array(X), np.array(y)

# 定义特征列：除了血糖本身，还可加入进餐标志、胰岛素量
feature_columns = ['Glucose', 'Meal', 'Insulin']
target_column = 'Glucose'

LOOKBACK = 12    # 使用过去60分钟的数据 (12*5min)
PREDICT_HORIZON = 6  # 预测未来30分钟后的血糖 (6*5min)

X, y = create_sequences(df, feature_columns, target_column, LOOKBACK, PREDICT_HORIZON)
print("样本形状:", X.shape)  # (样本数, 12, 3)

4.3 划分训练集与测试集（时间序列分割）

禁止随机打乱，必须保持时间顺序。取前70%为训练，后30%为测试。

split_idx = int(0.7 * len(X))
X_train, X_test = X[:split_idx], X[split_idx:]
y_train, y_test = y[:split_idx], y[split_idx:]

4.4 构建基线模型：线性回归

先将三维序列展平为二维特征矩阵。

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

X_train_flat = X_train.reshape(X_train.shape[0], -1)
X_test_flat = X_test.reshape(X_test.shape[0], -1)

lr = LinearRegression()
lr.fit(X_train_flat, y_train)
y_pred_lr = lr.predict(X_test_flat)

rmse_lr = np.sqrt(mean_squared_error(y_test, y_pred_lr))
print(f"线性回归 RMSE: {rmse_lr:.2f} mg/dL")

4.5 提升模型：使用LSTM

LSTM能够直接处理三维时序输入，无需展平。

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from sklearn.preprocessing import StandardScaler

# 标准化特征（在训练集上拟合并应用到测试集）
scaler = StandardScaler()
X_train_reshaped = X_train.reshape(-1, X_train.shape[-1])
scaler.fit(X_train_reshaped)

X_train_scaled = scaler.transform(X_train_reshaped).reshape(X_train.shape)
X_test_scaled = scaler.transform(X_test.reshape(-1, X_test.shape[-1])).reshape(X_test.shape)

model = Sequential([
    LSTM(64, input_shape=(LOOKBACK, len(feature_columns)), return_sequences=True),
    Dropout(0.2),
    LSTM(32),
    Dense(1)
])
model.compile(optimizer='adam', loss='mse')
history = model.fit(X_train_scaled, y_train, epochs=50, batch_size=64, 
                    validation_split=0.1, verbose=0)

y_pred_lstm = model.predict(X_test_scaled).flatten()
rmse_lstm = np.sqrt(mean_squared_error(y_test, y_pred_lstm))
print(f"LSTM RMSE: {rmse_lstm:.2f} mg/dL")

4.6 结果可视化

绘制测试集上真实值与预测值曲线，直观判断模型性能。

import matplotlib.pyplot as plt

plt.figure(figsize=(12,4))
plt.plot(y_test[:200], label='真实值')
plt.plot(y_pred_lstm[:200], label='LSTM预测')
plt.legend()
plt.title('血糖预测对比 (测试集前200个点)')
plt.xlabel('测试样本序号')
plt.ylabel('血糖 (mg/dL)')
plt.show()