符号音乐生成：MIDI 与乐谱的 AI 作曲

FreeGuideOnline 最新 2026-06-19

符号音乐生成入门指南：让 AI 学会谱写旋律

符号音乐生成是人工智能作曲的核心方向之一。不同于音频波形生成，它直接操控音符、节奏、力度等音乐符号元素，输出可被人类阅读的乐谱或被数字设备直接执行的 MIDI 数据。本教程将带你从零理解符号音乐的基础知识、主流 AI 模型以及动手实践的方法。

什么是符号音乐？为什么选择 MIDI 与乐谱？

符号音乐指以离散符号记录的音乐信息，就像文字之于语言。音频是连续的声音波形，而符号音乐则明确记录每个音符的起始时间、持续时长、音高、力度和乐器类型。常见的载体有：

MIDI（乐器数字接口）：一种通信协议和文件格式，存储演奏指令而非声音本身。MIDI 文件轻量、易于编辑，是现代音乐制作和 AI 作曲的事实标准。
乐谱（如 MusicXML、ABC 记谱法）：面向人类阅读的图形化或文本化表示，包含更丰富的表情标记和结构信息。

选择符号音乐进行 AI 生成的优势在于：

可控性强：你可以精确修改任意音符，将生成结果导入 DAW（数字音频工作站）进行二次创作。
数据高效：符号序列比音频信号的维度低得多，模型学习更快速。
结构清晰：和声、节奏、复调等音乐理论特征可直接被模型捕捉。

符号音乐的数据表示

要让 AI 理解音乐，必须先将 MIDI 或乐谱转化为模型能够处理的序列。主流方法有三类：

1. 基于时间的序列表示

把音乐看作按时间发生的事件流。典型范式为 MIDI-like 事件，例如：

NOTE_ON <pitch> (时间偏移 n 个 tick 后按下某个音高)
NOTE_OFF <pitch> (释放该音高)
TIME_SHIFT <ticks> (等待一段时间) 这种表示法完整的再现了演奏的时序细节，适用于捕捉微妙的节奏变化。

2. 基于音符的钢琴卷帘钢琴卷帘表示

将时间轴划分为等长的时间步（time step），每一时刻的音符状态用二进制矩阵表示（音高 x 时间）。这种方法适合卷积网络或基于扩散的模型，但可能丢失微时序信息。

3. 类语言模型序列：REMI 与结构化 Tokenization

近年研究倾向于将音乐转化为文本般的离散 token 序列。以流行工具 MuseGAN 和 Music Transformer 为代表的 REMI（REvamped MIDI-derived events）表示法，引入了：

BAR (小节线)
POSITION (小节内位置)
Pitch, Velocity, Duration 等 token 这使得 Transformer 架构能像理解自然语言一样捕捉音乐的长程结构。许多大模型如 OpenAI 的 MuseNet、Google 的 MusicLM（虽然基于音频，但其内部符号表示类似）都采用类似的 token 化方案。

AI 符号作曲的核心模型

Transformer 自回归模型

在处理长序列方面表现卓越。Music Transformer 使用相对注意力机制，能生成具有重复主题和长期连贯性的旋律。训练时，模型根据前文的 token 预测下一个 token；生成时，从起始 token 开始逐步采样，产出完整的 MIDI 序列。

变分自编码器（VAE）

用于解耦音乐风格与内容。例如 MusicVAE 将旋律编码到连续隐空间，你可以在隐空间中插值，创作出“平滑过渡”的音乐，或通过解码器从随机点生成新旋律。

生成对抗网络（GAN）

MuseGAN 是早期经典的符号音乐 GAN，能够生成多轨复调音乐。生成器负责制造逼真的钢琴卷帘，判别器评估真假，二者博弈直至生成的音乐不可辨别。

扩散模型（Diffusion）

将去噪扩散概率模型应用到离散符号领域。D3PM 等模型通过逐步恢复被掩码的 token 来生成高质量序列，相比自回归模型能同步生成所有 token，效率更高。

动手实践：用预训练模型生成你的第一段旋律

无需从零训练，许多开源项目提供了开箱即用的符号音乐生成能力。

工具与库推荐

Magenta (TensorFlow / JavaScript)：谷歌开源项目，提供 MusicVAE、MelodyRNN、PolyphonyRNN 等模型，有 Python 和浏览器端实现。
MuseScore + 插件：免费制谱软件，可通过 ABC 记谱法或 MusicXML 导入 AI 生成的旋律进行可视化编辑。
MIDIUtil / pretty_midi (Python)：用于构建、解析和处理 MIDI 文件的库，适合自定义数据预处理。
Hugging Face 上的音乐模型：社区贡献的 musicgen、mellotron 等虽多为音频生成，但也有如 MuMIDI 等符号模型。

示例：使用 Magenta 生成旋律

安装 Magenta 与必要依赖：
```
pip install magenta pyfluidsynth
```

生成一段旋律，使用预训练的 MelodyRNN：

from magenta.models.melody_rnn import melody_rnn_sequence_generator
from magenta.models.shared import sequence_generator_bundle
from note_seq.protobuf import generator_pb2
import note_seq

# 加载预训练模型
bundle = sequence_generator_bundle.read_bundle_file('basic_rnn.mag')
generator_map = melody_rnn_sequence_generator.get_generator_map()
generator = generator_map['basic_rnn'](checkpoint=None, bundle=bundle)
generator.initialize()

# 设置生成参数
generator_options = generator_pb2.GeneratorOptions()
generator_options.generate_sections.add(
    start_time=0.0, end_time=30.0  # 30秒旋律
)
generator_options.args['temperature'].float_value = 0.9  # 创造性

# 生成
sequence = generator.generate(note_seq.NoteSequence(), generator_options)
note_seq.sequence_proto_to_midi_file(sequence, 'output.mid')
print("旋律已保存为 output.mid")

聆听与编辑：用任意支持 MIDI 的播放器打开，或导入 DAW（如 Audacity、Reaper），也可用 MuseScore 渲染为乐谱。

延伸挑战：调控生成风格

条件生成：在 Music Transformer 中，你可以提供前几个乐句作为提示（primer），模型将延续该风格。
隐空间操纵：在 MusicVAE 的隐向量上做加减操作（如“欢快” - “平静” + “忧郁”），探索混合情绪。
多轨生成：使用 MuseGAN 同时生成贝斯、和弦、鼓等多轨，构建丰富的编曲。

常见难题与优化方向

长期结构缺失：许多模型擅长短句，但整首曲子缺乏起承转合。使用分层模型（例如先规划和弦进行，再填充旋律）或强化学习奖励结构完整性可改善。
复调混乱：多个声部交织时容易产生不和谐音程。注意力掩码与和声先验知识能引导模型遵守对位法。
可控性不足：通过控制代码（如风格标签、情感向量）或交互式迭代编辑来增强人机协作。

资源与进阶阅读

数据集：Lakh MIDI Dataset（海量多风格 MIDI）、MAESTRO（钢琴演奏精细 MIDI）、OpenMusicTheory 数据集。
论文：Music Transformer (2018)、REMI (2020)、MusicLM (2023) 中的符号生成部分。
在线体验：Google Magenta 的 A.I. Duet 可在浏览器里直接与 AI 合奏；Suno AI 的合成器中也使用了符号音乐生成技术。

掌握符号音乐生成，你将真正踏入“计算音乐学”的门槛——不仅能创造旋律，还能用代码剖析和重塑音乐的基本元素。现在就找一个 MIDI 文件，拆解它的 token 序列，开始你的 AI 作曲之旅吧。