ERNIE（2019）：知识增强预训练

导出时间：2025/11/24 08:57:01

1、研究背景与动机

🌍 一、研究背景：从“词向量”到“知识理解”

在 BERT 问世后，NLP 取得了巨大突破——机器终于能理解上下文的语言语义。

但研究者很快发现：

BERT 虽然懂语言，但不懂“世界”。

也就是说，BERT 学到的只是表面语义关系（上下文共现），却不具备真实的知识常识与实体概念理解。

举个例子👇

“马云是阿里巴巴的创始人。” “阿里巴巴是一家中国公司。”

BERT 只知道这两句话里“马云”“阿里巴巴”经常同时出现，

但并不知道两者是**“人物—公司”的关系**，更不会推理出：

“马云是中国企业家。”

—— 这种“基于知识的语言理解”正是传统语言模型的短板。

🧠 二、动机核心：让模型“懂知识”

ERNIE（Enhanced Representation through kNowledge IntEgration）由百度提出，

其目标是：

在语言模型中融入真实世界的结构化知识，让机器不仅懂语言，还懂常识。

它希望解决 BERT 类模型的三个核心痛点：

1️⃣ BERT 的切词方式打碎了实体语义

BERT 使用 subword 分词（如 WordPiece / BPE）， “北京大学”会被切成 [北][京][大][学]；
结果导致模型难以识别“北京大学”是一个完整实体。

ERNIE 改进：在训练中识别实体边界，对整块实体进行 Mask。

即：“北京大学” 整体遮盖，而不是遮一个“京”字。模型由此学习到更稳固的“知识单元表示”。

2️⃣ BERT 不了解词语背后的概念与层级关系

例如“苹果”既可以是水果，也可以是公司；
纯上下文模型很难区分。

ERNIE 引入“知识图谱（Knowledge Graph）”的实体链接机制：自动把文本中的实体对齐到百科知识库（如百度百科 / Wikidata），让模型在预训练时学习实体-概念-关系的结构化知识。

3️⃣ BERT 的 Mask 学习目标太“随机”

BERT 只随机遮盖 token；学习目标碎片化，缺乏高级语义层次；
无法建模句子、篇章乃至跨句逻辑。

ERNIE 设计层次化 Mask 策略：在不同阶段随机遮盖：

词级（Word-level）
实体级（Entity-level）
短语/句子级（Phrase-level） 使模型逐步掌握从词到句、再到知识层的语言理解。

⚡ 三、研究动机总结

问题	BERT 的局限	ERNIE 的动机
语义碎片化	Subword 打碎实体	引入实体级 Mask 保留完整语义
缺乏世界知识	不理解实体与关系	结合知识图谱融入现实知识
理解层次浅	只做词级 Mask	多层次 Mask，学习结构化语义

✅ 四、一句话总结

ERNIE 的研究动机： 在 BERT 的语言理解基础上，引入知识图谱与层次化 Mask，让模型“既懂语言，也懂世界”。

换句话说：

BERT 读懂句子，ERNIE 读懂常识。

2、模型的核心创新点总结（含知识融合策略与多级 Mask 机制）

一、总体思路：从“词的共现”到“知识的融合”

BERT 只依赖“语言上下文”学习语义，而 ERNIE 的创新核心 是让模型在预训练阶段就：

将语言的表层语义与世界的结构化知识融合在一起。

换句话说，BERT 通过“读大量文本”学会语言规律，而 ERNIE 在读文本的同时，还从知识图谱里“查百科”。

二、创新点一：知识增强的多粒度 Mask 机制

ERNIE 最大的创新，是引入了多级别的 Mask 学习目标（Knowledge-Enhanced Masking），从“词 → 实体 → 句子”三个层面逐步建模语义。

1️⃣ 词级 Mask（Word-Level Masking）

类似于 BERT 的随机词遮盖；
让模型学会基本语法与上下文语言规律；
比如：“马云创办了 [MASK]” → 模型预测“阿里巴巴”。

🧩 对应能力：词汇层语言理解（Lexical Semantics）。

2️⃣ 实体级 Mask（Entity-Level Masking）

通过实体链接（Entity Linking），识别文本中的命名实体（如人名、地名、机构等）；
遮盖整个实体单元，而非子词：例如：“[MASK] 是阿里巴巴的创始人。” → 模型需利用知识图谱推测“马云”。

🧩 效果：

模型学到“实体是整体的概念”；
掌握实体之间的语义关系（如“马云—创始人—阿里巴巴”）。

🧠 这是 BERT 所缺乏的“知识级理解”。

3️⃣ 短语 / 句子级 Mask（Phrase / Sentence-Level Masking）

随机遮盖更大语义单元（如子句或整句）；
模型需根据上下文重建被遮盖的句子，学习篇章层语义关联。

🧩 效果：

让模型学到“句子之间”的逻辑关系与上下文一致性；
在问答、摘要、阅读理解等任务中尤为有用。

🪜 总结一下三层 Mask 的层次关系：

层次	学习目标	学到的能力
词级 Mask	填词预测	基础语言语法
实体级 Mask	实体识别与关系建模	世界知识与常识
句子级 Mask	语义预测与逻辑关系	篇章理解与推理

ERNIE = 把“语言理解”提升为“知识理解 + 逻辑理解”。

🧩 三、创新点二：知识融合策略（Knowledge Integration）

除了 Mask 策略，ERNIE 的第二大创新是“显式知识融合”机制。

1️⃣ 实体对齐（Entity Alignment）

模型通过自动实体链接（Entity Linking），将文本中提到的实体对齐到**知识图谱（如百度百科 / Wikidata）**中的节点。
这样，“马云”“阿里巴巴”不仅是词串，还对应知识图谱中的对象：
马云 → 实体ID：Person#123 阿里巴巴 → Organization#456 关系：创始人 (founderOf)
模型可从图谱中读取额外特征（实体类型、上位概念、关系边）。

2️⃣ 知识嵌入融合（Knowledge Embedding Integration）

将实体的语义向量（从知识图谱学习）与词的上下文表示结合；
通过共享注意力层（Shared Attention Layer）让模型在“文本语义”和“知识语义”间相互补充。

3️⃣ 动态知识感知（Knowledge-Aware Context Encoding）

模型在每个 Transformer 层中动态调整注意力权重；
当输入中包含知识实体时，模型会更多关注实体相关上下文；
实现“读句子时带着常识去理解”的效果。

四、创新点三：多阶段预训练（Multi-Stage Pretraining）

ERNIE 的训练不是一步到位，而是分阶段逐步增强知识理解：

阶段	学习内容	对应 Mask
阶段 1	基础语言结构	词级 Mask
阶段 2	实体识别与语义关系	实体级 Mask
阶段 3	篇章逻辑与语义一致性	句子级 Mask

每个阶段的输出会成为下一阶段的输入，使模型逐步从“语法”过渡到“知识与推理”。

五、实验验证的结果要点（简述）

论文中实验证明：

在 阅读理解（CMRC 2018）、自然语言推断（XNLI）、语义相似度（LCQMC） 等任务上，ERNIE 全面超越 BERT；
在中文任务中优势尤其明显；
Mask 实验表明：实体级 Mask 比随机词 Mask 更有信息效率；
模型在需要常识和世界知识的任务中表现尤为突出。

六、一句话总结

ERNIE 的核心创新：

提出多粒度 Mask（词、实体、句子），实现从语言到知识的层次化学习；
引入知识图谱实体链接与嵌入融合，让模型在训练中具备现实世界的常识与关系感知；
采用多阶段训练，使语言理解逐步演化为“知识理解”。

🧩 一句话记忆法：

BERT 学语言，ERNIE 学知识。它把“读句子”升级为“读世界”。

3、模型结构与运行原理（配图 + 模块化讲解）

总体思路：“双路编码 + 逐层对齐融合” 左侧是整体架构；右侧是“Aggregator（信息融合器）”，用于让**词（token）与实体（entity）**两条通道在每一层相互交换信息

0）输入与对齐（Token ↔ Entity）

文本先切成 token 序列 {w1,…,wn}；
通过实体链接把其中可识别的 mentions 对齐到知识图谱实体序列 {e1,…,em}；并把实体对齐到其 首个 token（图中虚线箭头所示）。论文显式给出了这种对齐记号 f(w)=e
因为不是每个词都有实体，m 不一定等于 n

1）双路编码：T-Encoder 与 K-Encoder

1.1 词路（T-Encoder）

结构：标准 Transformer Encoder 堆叠 NNN 层（多头自注意力 + 前馈层）；
作用：像 BERT 一样从上下文中学习 token 的语义表示

1.2 实体路（K-Encoder）

结构：面向实体序列的编码器，包含多头注意力与前馈块，堆叠 MMM 层；
作用：在知识图谱实体之间建模关系，得到 entity 表示

图中左侧标注 T-Encoder (Nx)、K-Encoder (Mx) 即表示两条通道各自堆叠的层数论文给出的一个规模是 N=6、M=6（Base 设置）

2）聚合器（Aggregator）：层内“互相对话”

右图是 Aggregator 的细节：每一层在两条通道之间做一次“信息交换”。它包含两步：

2.1 自注意力更新（各自先消化）

底部的两个 Multi-Head Attention 分别对 token 序列与entity 序列做自注意力，更新各自的上下文表示（黄色两块）

2.2 信息融合（Token↔Entity 交互）

顶部的 Information Fusion 层把两路信息对齐并融合：
- 输入一：纯 token embedding；
- 输入二：token embedding 与其对齐的 entity embedding 的拼接；
- 输出：新的 token 表示 与 entity 表示，作为下一层的输入

直观理解：每层都让“词表示”参考“实体知识”，也让“实体表示”反过来看上下文，从而逐层强化语言与知识的对齐。

3）层间迭代与顶层输出

如此 （自注意力 → 信息融合） 的两个步骤会在 N/M 层上反复迭代；
顶部得到 Token Output 与 Entity Output 两路表征，供预训练或下游任务使用

4）预训练目标（和结构如何配合）

ERNIE 的预训练是多任务：MLM（掩码语言建模） + NSP + dEA（面向实体的去噪自编码）；
训练语料以 Wikipedia 与 Wikidata 对齐，构造成既含 subword 又含 实体标注的序列；论文统计了约 4.5B 子词与 140M 实体
其中 实体嵌入 可用图谱上游模型（如 TransE）初始化，并与 Transformer 共同训练/融合

因为每层都做 Token↔Entity 交互，MLM 能借助实体知识补全被遮盖词；dEA 则直接训练实体表征的鲁棒性；两者协同提升“语言 × 知识”的统一表征。

5）与 BERT 的差异点（从结构视角快速对比）

方面	BERT	ERNIE
输入	只有 token	token + 对齐的 entity（来自 KG）【P19-1139】
主干	单路 Transformer	双路编码（T/K）+ 每层聚合器【P19-1139】
融合	无显式知识通道	Information Fusion：token 与 entity 拼接/融合【P19-1139】
预训练	MLM + NSP	MLM + NSP + dEA（实体去噪）【P19-1139】

6）一句话流程图（文字版）

文本 → 分词 & 实体链接 → [T-Encoder(词)]  与  [K-Encoder(实体)]  并行编码

        ↓（各自自注意力）Aggregator：Information Fusion（词↔实体）

        ↓（输出新 token/entity 表示）

  重复 N/M 层 → 顶层 Token/Entity 表示

↓

预训练任务：MLM / NSP / dEA（或下游微调）

4、模型的优势、不足与改进方向

🌟 一、模型的主要优势

1️⃣ 知识增强：让模型“懂世界”

与 BERT 最大不同点是：ERNIE 不仅学习语言形式，还整合了知识图谱信息；
通过 实体对齐 + 实体级 Mask，模型能学习“谁是什么”“谁与谁相关”的现实关系；
这种“知识增强表示”让模型在需要常识或实体理解的任务（如问答、阅读理解、关系抽取）中表现显著更优。

✅ 优势关键词：语言 × 知识融合

2️⃣ 多粒度 Mask 策略：层次化理解语言

ERNIE 的多层 Mask（词级、实体级、句子级）使模型能从不同语义层面捕获信息；
这种分阶段 Mask 训练让模型逐步学习： 语法 → 实体语义 → 篇章逻辑；
比 BERT 的随机词遮盖更高效、更语义一致。

✅ 优势关键词：分层学习语义

3️⃣ 多阶段训练：渐进式知识注入

训练分为多个阶段，从纯语言到实体知识，再到篇章理解；
每一阶段都建立在前一阶段的语义基础上；
实验证明：这种“渐进式预训练”显著提升了模型的稳定性与收敛速度。

✅ 优势关键词：逐步增强理解

4️⃣ 在中文任务上表现突出

由于 ERNIE 的实体识别和知识库整合依托百度百科 / 知识图谱，在中文阅读理解、命名实体识别、自然语言推断等任务上全面超越 BERT；
对中文多义词（如“苹果”=水果/公司）的区分能力尤其强。

✅ 优势关键词：中文优势显著

⚠️ 二、模型的不足与局限

1️⃣ 知识依赖性强

需要高质量的知识图谱（如百科实体链接），若知识库不完整或存在噪声，会直接影响效果；
不同语言或领域（医学、法律）下迁移困难，因为知识图谱需要重新构建。

⚠️ 局限关键词：知识域依赖

2️⃣ 架构复杂，训练成本高

ERNIE 需要额外的实体链接模块和知识嵌入通道；
比单一 Transformer 结构的 BERT 训练更耗算力；
同时，实体标注/对齐步骤使得大规模预训练流程更复杂。

⚠️ 局限关键词：计算开销大

3️⃣ 知识更新困难

模型训练完成后，内部“知识”是静态的；
当现实世界发生变化（如公司更名、新人物出现）时，模型无法自我更新；
需要重新训练或外部检索增强（retrieval-augmented）机制来弥补。

⚠️ 局限关键词：静态知识问题

4️⃣ 知识融合方式相对浅层

实体嵌入与文本嵌入的融合多为拼接或加权平均；
缺乏深层语义推理或动态知识选择机制；
难以捕捉复杂的知识图谱结构（如多跳推理）。

⚠️ 局限关键词：融合深度有限

🔧 三、改进方向与后续发展

ERNIE 的理念（“知识增强语言模型”）开创了一个新方向，

也启发了大量后续工作在不同维度进行改进：

1️⃣ 持续知识学习（Continual Knowledge Learning）

后续 ERNIE 2.0（2019） 提出了“持续学习（Continual Learning）”框架，把知识注入拆分为多个子任务（如语法、关系、语义匹配），模型可动态增量学习新知识，无需完全重训。

🧩 改进关键词：动态知识注入

2️⃣ 知识检索增强（Retrieval-Augmented Models）

新一代模型（如 RAG、REALM、K-BERT）将外部知识库或检索器与语言模型结合，训练时动态查询相关知识，而非将全部知识硬编码；
这种方式解决了 ERNIE 的“知识更新慢”问题。

🧩 改进关键词：可更新知识

3️⃣ 跨语言与跨模态知识融合

ERNIE-M（2021）扩展到多语言场景；
ERNIE-ViL（2021）将文本与图像知识联合建模，用于视觉问答与多模态推理；
说明知识增强思路可以跨越语言与模态边界。

🧩 改进关键词：多语言 & 多模态扩展

4️⃣ 知识结构建模与推理增强

后续研究（如 K-BERT、CoLAKE、KEPLER）尝试在 Transformer 内部显式建模知识图谱结构；
引入图注意力（Graph Attention）或关系编码（Relation Embedding）以提升逻辑推理能力；
让模型能“像人一样”在知识网络中跳跃推理。

🧩 改进关键词：结构化推理