电子病历 NLP：非结构化临床文本的信息抽取

FreeGuideOnline 最新 2026-06-26

电子病历 NLP：非结构化临床文本的信息抽取

电子病历（EMR）中潜藏着海量临床洞察，但大量信息以叙述性文本形式存在——入院记录、病程日志、出院小结、影像报告等。这些非结构化文本无法直接用于统计或决策支持，自然语言处理（NLP）正是将它们转化为结构化数据的核心技术。本教程将带你系统地学习如何从临床自由文本中精准抽取关键信息，零基础也能构建自己的信息抽取流水线。

什么是电子病历中的非结构化文本？

电子病历系统既包含结构化数据（如检验数值、生命体征、给药记录），也充斥着非结构化文本。典型的非结构化临床文本包括：

主诉与现病史：患者用自己的话或医生转述的症状描述、时间线、诱因。
体格检查：各系统的查体发现，常含大量否定和修饰语（如“双肺未闻及干湿啰音”）。
辅助检查报告：放射、病理、内镜等报告的 “影像所见” 和 “诊断意见” 段落。
病程记录与出院小结：住院期间病情演变、治疗反应、出院带药等总结性描述。

这些文本富含实体（疾病、症状、药物、手术）、关系（药物-不良反应、疾病-检查）、事件（手术时间、转移复发）以及时间属性，是医疗智能化的核心原料，却因其自由句式、大量专业术语、缩写和隐含语义而难以直接利用。

为什么信息抽取至关重要？

将临床叙述转化为机器可读的结构化信息，能直接驱动以下高价值场景：

临床决策支持：自动识别药物禁忌症、过敏史，推荐循证诊疗路径。
科研队列构建：从数百万份病历中快速筛选符合入排标准的患者，加速真实世界研究。
不良事件监测：持续抽取药物不良反应、术后并发症等安全信号。
自动编码与计费：将出院诊断映射至 ICD-10 编码，提升效率和准确性。
质量指标计算：自动统计深静脉血栓预防率、感染达标率等质量监控指标。

没有信息抽取，这些工作只能依赖人工逐一阅读，成本高昂且难以规模化。NLP 将费时费力的手动病历阅读转变为自动化的数据挖掘管道。

关键 NLP 任务：从实体识别到关系抽取

临床信息抽取并非单一技术，而是由多个子任务构成的流水线。以下从基础到复杂依次介绍。

1. 命名实体识别 (NER)

NER 是临床 NLP 的基石，目标是标识出文本中的关键医学概念，并将其分类。例如：

文本：“患者于3天前无明显诱因出现胸痛，位于胸骨后，呈压榨性，向左肩放射，伴大汗、恶心。”

期望识别的实体：

症状：胸痛、大汗、恶心
部位：胸骨后、左肩
时间：3天前
性质：压榨性
诱因：无明显诱因
伴随：放射、大汗、恶心

临床实体类别通常远超通用 NER，需要覆盖药品、手术、基因、微生物等数十种语义类型。常用标签集如 UMLS 语义类型、SNOMED CT 概念。

2. 属性抽取与修饰检测

识别出实体后，必须理解其上下文语义才能用于实际推理。核心修饰包括：

肯定/否定：关键区分“有发热”（肯定）与“无发热”（否定）。典型表达如“否认发热”“体温正常”。
确定/可能：处理不确定描述，如“考虑心肌梗死可能”“待排肺栓塞”。
受试者归属：症状或疾病是属于患者本人还是家属？例如 “其父有高血压史”。
当前状态与历史：区分活动性问题与既往病史，如“既往有糖尿病史10年，目前血糖控制可”。

这些修饰常通过专用的否定检测和分词规则实现，也可用序列标注模型一并学习。

3. 关系抽取

实体间的关系构成临床推理网络。关系抽取的典型类型：

治疗关系：药物 × 疾病 → “阿司匹林治疗冠心病”
因果关系：药物 × 不良反应 → “卡马西平致皮疹”
位置关系：疾病 × 解剖部位 → “左下叶肺炎”
检查-发现关系：检验项目 × 结果值 → “肌钙蛋白 I 显著升高”
时间关系：症状 × 时间 → “术后第2天发热”

关系抽取常采用依存句法分析、远程监督或基于预训练模型 (如 BERT) 的微调方法。

4. 事件抽取与时间线构建

临床事件并非孤立实体，而是具有时间先后、存续时段的复杂结构。事件抽取要识别：

事件触发词：“入院”“手术”“死亡”“转移”等。
事件参数：手术时间、术式、麻醉方式、术前诊断等。
事件顺序：建立时间线，还原患者的疾病故事，例如“确诊 → 新辅助化疗 → 手术 → 辅助放疗”。

时间线构建常结合时间表达式标准化（如 “去年三月” 映射为具体日期）和关系推理，最终形成可查询的患者事件图谱。

常用方法与技术栈

从简单到复杂，针对不同资源条件选择合适方法。

1. 基于规则与词典

原理：利用成熟的医学术语集合（如 SNOMED CT、ICD-10、RxNorm）和正则表达式进行匹配。
工具示例：cTAKES、CLAMP、CLiX。
优点：不需要标注数据，可解释性高，适合快速原型。
缺点：维护成本高，难以覆盖隐含表达和多样化句型，召回率有限。

2. 传统机器学习

方法：条件随机场 (CRF)、结构化支持向量机 (SVM) 等用于序列标注；手工特征 + 分类器用于关系抽取。
特征工程：词袋、词性标注、词形、依存路径、布朗聚类等。
优势：在中小规模标注数据上效果稳定。
局限：需要大量领域特征设计，泛化能力一般。

3. 深度学习与预训练模型

当前临床 NLP 的主流方法：

词向量 + BiLSTM-CRF：使用 Word2Vec 或 BERT 生成的词嵌入，捕捉上下文语义。
预训练临床语言模型：
- BioBERT：在 PubMed 文摘和 PMC 全文上预训练。
- ClinicalBERT / BioClinicalBERT：在重症监护 (MIMIC-III) 临床笔记上进一步预训练。
- PubMedBERT、GatorTron 等大规模临床模型。
微调范式：将 NER、关系抽取等任务统一为序列标注或分类问题，在少量标注数据上微调即能达到出色效果。

4. 大语言模型 (LLM)

近期 GPT-4、ClinicalCamel、Med-PaLM 等大模型可直接通过提示工程完成信息抽取，无需额外训练。

零样本/少样本抽取：给定任务说明和少量示例，即可抽取实体和关系。
优点：快速适应新需求，语义理解强。
挑战：幻觉风险、隐私合规、成本控制。通常需结合结构化校验与人工审核。

典型应用场景实战解析

临床决策支持：急性心肌梗死早期识别

从急诊入院记录中抽取胸痛特征（位置、性质、放射、持续时间）、心电图描述、肌钙蛋白水平，结合规则判断是否为 STEMI，触发绿色通道预警。技术流水线：NER 抽取症状/检查 → 属性修饰（确认阳性）→ 关系（心肌标志物升高）→ 决策规则引擎。

科研队列筛选：癌症患者生物标记物研究

从病理报告和基因检测报告中抽取基因突变、变异丰度、蛋白表达水平，并与诊断、治疗史关联，自动生成符合研究协议的病例列表。常使用 BioBERT 系列模型微调实体和关系抽取。

自动化编码：ICD-10 映射

依据出院小结的完整临床叙述，通过多标签文本分类或生成模型自动推荐主要诊断和手术编码，结合规则纠正编码规范约束，大幅提升编码效率。

挑战与最佳实践

数据隐私与安全：临床文本含 PHI（受保护健康信息）。必须进行去标识化（姓名、日期、地址、ID 等），可使用 Off-the-shelf 工具如 Philter、CRAN 等。模型训练和推理应在安全的医疗云或私有环境进行。
标注数据稀缺：领域专家标注昂贵。可采用主动学习、弱监督（基于 SNOMED 词典的远程标注）、数据增强和跨机构联邦学习缓解。
语言多样性与方言：病历文本充满不完整句、缩写、错别字。需要进行拼写校正和缩写扩展预处理，且模型宜在目标医院数据上持续适配。
可解释性与可信度：临床决策辅助要求输出溯源文本片段，可借助注意力可视化或片段高亮方式增强信任。
持续运行与更新：医学知识持续演进，模型需设定重训练周期，监控概念漂移。

免费在线学习资源与工具推荐

公开数据集

MIMIC-III / MIMIC-IV：重症监护开放数据集，含脱敏临床笔记，可申请使用。
i2b2 / n2c2 挑战赛数据：多个临床 NLP 任务标注集（去标识化、NER、关系），需提交申请。
NCBI Disease Corpus：疾病提及标注数据集，适合训练和评估。

开源 NLP 库与工具

spaCy + scispaCy：面向生物医学文本的实体识别和分词流水线，提供 BioBERT 等模型。
CLAMP：集成的临床 NLP 工具包，提供 GUI 和 API，支持命名实体识别、否定检测。
cTAKES：Apache 项目，提供疾病、症状、药物、检查等实体抽取管道。
MedSpaCy：整合临床规则与深度学习的轻量库。
Hugging Face Transformer：BioBERT、ClinicalBERT、PubMedBERT 等模型可直接调用，微调更方便。

在线课程与文档

Coursera: “Clinical Natural Language Processing” （科罗拉多大学）
NLP-with-Python 系列实战教程 搜索相关临床案例
各工具官方文档和教程：scispaCy 官网、CLAMP wiki

小结

电子病历 NLP 的信息抽取是将沉睡的临床叙事转化为可计算知识的桥梁。从基础的命名实体识别到复杂的关系、事件与时间线构建，现代方法正让精准医疗和智能管理成为现实。初学者可从公开数据集和预置流水线起步，逐步尝试微调预训练模型，并在真实场景中持续迭代。掌握临床文本信息抽取，你就能解锁电子病历的最大价值。