ERNIE(2019):知识增强预训练

ERNIE(2019):知识增强预训练

导出时间:2025/11/24 08:57:01

1研究背景与动机


🌍 一、研究背景:从“词向量”到“知识理解”

在 BERT 问世后,NLP 取得了巨大突破——机器终于能理解上下文的语言语义。
但研究者很快发现:

BERT 虽然懂语言,但不懂“世界”。

也就是说,BERT 学到的只是表面语义关系(上下文共现), 却不具备真实的知识常识与实体概念理解
举个例子👇

“马云是阿里巴巴的创始人。” “阿里巴巴是一家中国公司。”

BERT 只知道这两句话里“马云”“阿里巴巴”经常同时出现,
但并不知道两者是**“人物—公司”的关系**,更不会推理出:

“马云是中国企业家。”

—— 这种“基于知识的语言理解”正是传统语言模型的短板。

🧠 二、动机核心:让模型“懂知识”

ERNIE(Enhanced Representation through kNowledge IntEgration)由百度提出,
其目标是:

在语言模型中融入真实世界的结构化知识,让机器不仅懂语言,还懂常识。

它希望解决 BERT 类模型的三个核心痛点:

1️⃣ BERT 的切词方式打碎了实体语义

  • BERT 使用 subword 分词(如 WordPiece / BPE), “北京大学”会被切成 [北][京][大][学]
  • 结果导致模型难以识别“北京大学”是一个完整实体。
ERNIE 改进:在训练中识别实体边界,对整块实体进行 Mask。

即:“北京大学” 整体遮盖,而不是遮一个“京”字。 模型由此学习到更稳固的“知识单元表示”。


2️⃣ BERT 不了解词语背后的概念与层级关系

  • 例如“苹果”既可以是水果,也可以是公司;
  • 纯上下文模型很难区分。
ERNIE 引入“知识图谱(Knowledge Graph)”的实体链接机制: 自动把文本中的实体对齐到百科知识库(如百度百科 / Wikidata), 让模型在预训练时学习实体-概念-关系的结构化知识。

3️⃣ BERT 的 Mask 学习目标太“随机”

  • BERT 只随机遮盖 token;学习目标碎片化,缺乏高级语义层次;
  • 无法建模句子、篇章乃至跨句逻辑。
ERNIE 设计层次化 Mask 策略: 在不同阶段随机遮盖:
  • 词级(Word-level)
  • 实体级(Entity-level)
  • 短语/句子级(Phrase-level) 使模型逐步掌握从词到句、再到知识层的语言理解。

⚡ 三、研究动机总结

问题
BERT 的局限
ERNIE 的动机
语义碎片化
Subword 打碎实体
引入实体级 Mask 保留完整语义
缺乏世界知识
不理解实体与关系
结合知识图谱融入现实知识
理解层次浅
只做词级 Mask
多层次 Mask,学习结构化语义

✅ 四、一句话总结

ERNIE 的研究动机: 在 BERT 的语言理解基础上,引入知识图谱与层次化 Mask,让模型“既懂语言,也懂世界”。

换句话说:

BERT 读懂句子,ERNIE 读懂常识。


2、模型的核心创新点总结(含知识融合策略与多级 Mask 机制)

一、总体思路:从“词的共现”到“知识的融合”

BERT 只依赖“语言上下文”学习语义,而 ERNIE 的创新核心 是让模型在预训练阶段就:

将语言的表层语义 与 世界的结构化知识融合在一起。

换句话说,BERT 通过“读大量文本”学会语言规律, 而 ERNIE 在读文本的同时,还从知识图谱里“查百科”。

二、创新点一:知识增强的多粒度 Mask 机制

ERNIE 最大的创新,是引入了多级别的 Mask 学习目标(Knowledge-Enhanced Masking), 从“词 → 实体 → 句子”三个层面逐步建模语义。

1️⃣ 词级 Mask(Word-Level Masking)

  • 类似于 BERT 的随机词遮盖;
  • 让模型学会基本语法与上下文语言规律
  • 比如:“马云创办了 [MASK]” → 模型预测“阿里巴巴”。
🧩 对应能力:词汇层语言理解(Lexical Semantics)。

2️⃣ 实体级 Mask(Entity-Level Masking)

  • 通过实体链接(Entity Linking),识别文本中的命名实体(如人名、地名、机构等);
  • 遮盖整个实体单元,而非子词: 例如:“[MASK] 是阿里巴巴的创始人。” → 模型需利用知识图谱推测“马云”。
🧩 效果:
  • 模型学到“实体是整体的概念”;
  • 掌握实体之间的语义关系(如“马云—创始人—阿里巴巴”)。
🧠 这是 BERT 所缺乏的“知识级理解”。

3️⃣ 短语 / 句子级 Mask(Phrase / Sentence-Level Masking)

  • 随机遮盖更大语义单元(如子句或整句);
  • 模型需根据上下文重建被遮盖的句子,学习篇章层语义关联。
🧩 效果:
  • 让模型学到“句子之间”的逻辑关系与上下文一致性;
  • 在问答、摘要、阅读理解等任务中尤为有用。

🪜 总结一下三层 Mask 的层次关系:
层次
学习目标
学到的能力
词级 Mask
填词预测
基础语言语法
实体级 Mask
实体识别与关系建模
世界知识与常识
句子级 Mask
语义预测与逻辑关系
篇章理解与推理

ERNIE = 把“语言理解”提升为“知识理解 + 逻辑理解”


🧩 三、创新点二:知识融合策略(Knowledge Integration)

除了 Mask 策略,ERNIE 的第二大创新是“显式知识融合”机制。

1️⃣ 实体对齐(Entity Alignment)

  • 模型通过自动实体链接(Entity Linking), 将文本中提到的实体对齐到**知识图谱(如百度百科 / Wikidata)**中的节点。
  • 这样,“马云”“阿里巴巴”不仅是词串,还对应知识图谱中的对象:
  • 马云 → 实体ID:Person#123 阿里巴巴 → Organization#456 关系:创始人 (founderOf)
  • 模型可从图谱中读取额外特征(实体类型、上位概念、关系边)。

2️⃣ 知识嵌入融合(Knowledge Embedding Integration)

  • 将实体的语义向量(从知识图谱学习)与词的上下文表示结合;
  • 通过共享注意力层(Shared Attention Layer)让模型在“文本语义”和“知识语义”间相互补充。

3️⃣ 动态知识感知(Knowledge-Aware Context Encoding)

  • 模型在每个 Transformer 层中动态调整注意力权重;
  • 当输入中包含知识实体时,模型会更多关注实体相关上下文
  • 实现“读句子时带着常识去理解”的效果。

四、创新点三:多阶段预训练(Multi-Stage Pretraining)

ERNIE 的训练不是一步到位,而是分阶段逐步增强知识理解
阶段
学习内容
对应 Mask
阶段 1
基础语言结构
词级 Mask
阶段 2
实体识别与语义关系
实体级 Mask
阶段 3
篇章逻辑与语义一致性
句子级 Mask
每个阶段的输出会成为下一阶段的输入,使模型逐步从“语法”过渡到“知识与推理”。

五、实验验证的结果要点(简述)

论文中实验证明:
  • 阅读理解(CMRC 2018)、自然语言推断(XNLI)、语义相似度(LCQMC) 等任务上,ERNIE 全面超越 BERT;
  • 在中文任务中优势尤其明显;
  • Mask 实验表明:实体级 Mask 比随机词 Mask 更有信息效率
  • 模型在需要常识和世界知识的任务中表现尤为突出。

六、一句话总结

ERNIE 的核心创新:

  1. 提出多粒度 Mask(词、实体、句子),实现从语言到知识的层次化学习;
  2. 引入知识图谱实体链接与嵌入融合,让模型在训练中具备现实世界的常识与关系感知;
  3. 采用多阶段训练,使语言理解逐步演化为“知识理解”。

🧩 一句话记忆法:

BERT 学语言,ERNIE 学知识。它把“读句子”升级为“读世界”。



3、模型结构与运行原理(配图 + 模块化讲解)

总体思路:“双路编码 + 逐层对齐融合” 左侧是整体架构;右侧是“Aggregator(信息融合器)”,用于让**词(token)实体(entity)**两条通道在每一层相互交换信息


0)输入与对齐(Token ↔ Entity)

  • 文本先切成 token 序列 {w1,…,wn};
  • 通过实体链接把其中可识别的 mentions 对齐到知识图谱实体序列 {e1,…,em};并把实体对齐到其 首个 token(图中虚线箭头所示)。论文显式给出了这种对齐记号 f(w)=e
  • 因为不是每个词都有实体,m 不一定等于 n

1)双路编码:T-Encoder 与 K-Encoder

1.1 词路(T-Encoder)

  • 结构:标准 Transformer Encoder 堆叠 NNN 层(多头自注意力 + 前馈层);
  • 作用:像 BERT 一样从上下文中学习 token 的语义表示

1.2 实体路(K-Encoder)

  • 结构:面向实体序列的编码器,包含多头注意力与前馈块,堆叠 MMM 层;
  • 作用:在知识图谱实体之间建模关系,得到 entity 表示

图中左侧标注 T-Encoder (Nx)K-Encoder (Mx) 即表示两条通道各自堆叠的层数 论文给出的一个规模是 N=6、M=6(Base 设置)


2)聚合器(Aggregator):层内“互相对话”

右图是 Aggregator 的细节:每一层在两条通道之间做一次“信息交换”。它包含两步:

2.1 自注意力更新(各自先消化)

  • 底部的两个 Multi-Head Attention 分别对 token 序列entity 序列做自注意力,更新各自的上下文表示(黄色两块)

2.2 信息融合(Token↔Entity 交互)

  • 顶部的 Information Fusion 层把两路信息对齐并融合
    • 输入一:纯 token embedding
    • 输入二token embedding 与其对齐的 entity embedding 的拼接
    • 输出:新的 token 表示entity 表示,作为下一层的输入

直观理解:每层都让“词表示”参考“实体知识”,也让“实体表示”反过来看上下文,从而逐层强化语言与知识的对齐


3)层间迭代与顶层输出

  • 如此 (自注意力 → 信息融合) 的两个步骤会在 N/M 层上反复迭代;
  • 顶部得到 Token OutputEntity Output 两路表征,供预训练或下游任务使用

4)预训练目标(和结构如何配合)

  • ERNIE 的预训练是多任务:MLM(掩码语言建模) + NSP + dEA(面向实体的去噪自编码)
  • 训练语料以 WikipediaWikidata 对齐,构造成既含 subword 又含 实体标注的序列;论文统计了约 4.5B 子词140M 实体
  • 其中 实体嵌入 可用图谱上游模型(如 TransE)初始化,并与 Transformer 共同训练/融合

因为每层都做 Token↔Entity 交互,MLM 能借助实体知识补全被遮盖词;dEA 则直接训练实体表征的鲁棒性;两者协同提升“语言 × 知识”的统一表征。


5)与 BERT 的差异点(从结构视角快速对比)

方面
BERT
ERNIE
输入
只有 token
token + 对齐的 entity(来自 KG)【P19-1139】
主干
单路 Transformer
双路编码(T/K)+ 每层聚合器【P19-1139】
融合
无显式知识通道
Information Fusion:token 与 entity 拼接/融合【P19-1139】
预训练
MLM + NSP
MLM + NSP + dEA(实体去噪)【P19-1139】

6)一句话流程图(文字版)

文本 → 分词 & 实体链接 → [T-Encoder(词)] 与 [K-Encoder(实体)] 并行编码 ↓(各自自注意力)Aggregator:Information Fusion(词↔实体) ↓(输出新 token/entity 表示) 重复 N/M 层 → 顶层 Token/Entity 表示 预训练任务:MLM / NSP / dEA(或下游微调)
image.png

4、模型的优势、不足与改进方向


🌟 一、模型的主要优势

1️⃣ 知识增强:让模型“懂世界”

  • 与 BERT 最大不同点是:ERNIE 不仅学习语言形式,还整合了知识图谱信息
  • 通过 实体对齐 + 实体级 Mask,模型能学习“谁是什么”“谁与谁相关”的现实关系;
  • 这种“知识增强表示”让模型在需要常识或实体理解的任务(如问答、阅读理解、关系抽取)中表现显著更优 。

✅ 优势关键词:语言 × 知识融合


2️⃣ 多粒度 Mask 策略:层次化理解语言

  • ERNIE 的多层 Mask(词级、实体级、句子级)使模型能从不同语义层面捕获信息;
  • 这种分阶段 Mask 训练让模型逐步学习: 语法 → 实体语义 → 篇章逻辑
  • 比 BERT 的随机词遮盖更高效、更语义一致。

✅ 优势关键词:分层学习语义


3️⃣ 多阶段训练:渐进式知识注入

  • 训练分为多个阶段,从纯语言到实体知识,再到篇章理解;
  • 每一阶段都建立在前一阶段的语义基础上;
  • 实验证明:这种“渐进式预训练”显著提升了模型的稳定性与收敛速度 。

✅ 优势关键词:逐步增强理解


4️⃣ 在中文任务上表现突出

  • 由于 ERNIE 的实体识别和知识库整合依托百度百科 / 知识图谱, 在中文阅读理解、命名实体识别、自然语言推断等任务上全面超越 BERT;
  • 对中文多义词(如“苹果”=水果/公司)的区分能力尤其强。

✅ 优势关键词:中文优势显著


⚠️ 二、模型的不足与局限

1️⃣ 知识依赖性强

  • 需要高质量的知识图谱(如百科实体链接), 若知识库不完整或存在噪声,会直接影响效果;
  • 不同语言或领域(医学、法律)下迁移困难,因为知识图谱需要重新构建。

⚠️ 局限关键词:知识域依赖


2️⃣ 架构复杂,训练成本高

  • ERNIE 需要额外的实体链接模块知识嵌入通道
  • 比单一 Transformer 结构的 BERT 训练更耗算力;
  • 同时,实体标注/对齐步骤使得大规模预训练流程更复杂。

⚠️ 局限关键词:计算开销大


3️⃣ 知识更新困难

  • 模型训练完成后,内部“知识”是静态的;
  • 当现实世界发生变化(如公司更名、新人物出现)时,模型无法自我更新;
  • 需要重新训练或外部检索增强(retrieval-augmented)机制来弥补。

⚠️ 局限关键词:静态知识问题


4️⃣ 知识融合方式相对浅层

  • 实体嵌入与文本嵌入的融合多为拼接或加权平均
  • 缺乏深层语义推理或动态知识选择机制;
  • 难以捕捉复杂的知识图谱结构(如多跳推理)。

⚠️ 局限关键词:融合深度有限


🔧 三、改进方向与后续发展

ERNIE 的理念(“知识增强语言模型”)开创了一个新方向,
也启发了大量后续工作在不同维度进行改进:

1️⃣ 持续知识学习(Continual Knowledge Learning)

  • 后续 ERNIE 2.0(2019) 提出了“持续学习(Continual Learning)”框架, 把知识注入拆分为多个子任务(如语法、关系、语义匹配), 模型可动态增量学习新知识,无需完全重训。

🧩 改进关键词:动态知识注入


2️⃣ 知识检索增强(Retrieval-Augmented Models)

  • 新一代模型(如 RAG、REALM、K-BERT)将外部知识库或检索器与语言模型结合, 训练时动态查询相关知识,而非将全部知识硬编码;
  • 这种方式解决了 ERNIE 的“知识更新慢”问题。

🧩 改进关键词:可更新知识


3️⃣ 跨语言与跨模态知识融合

  • ERNIE-M(2021)扩展到多语言场景;
  • ERNIE-ViL(2021)将文本与图像知识联合建模,用于视觉问答与多模态推理;
  • 说明知识增强思路可以跨越语言与模态边界。

🧩 改进关键词:多语言 & 多模态扩展


4️⃣ 知识结构建模与推理增强

  • 后续研究(如 K-BERT、CoLAKE、KEPLER)尝试在 Transformer 内部显式建模知识图谱结构;
  • 引入图注意力(Graph Attention)或关系编码(Relation Embedding)以提升逻辑推理能力;
  • 让模型能“像人一样”在知识网络中跳跃推理。

🧩 改进关键词:结构化推理