BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

时间：2020-03-15 18:00:59 阅读：81 评论：0 收藏：0 [点我收藏+]

摘要

该论文介绍了一种新的语言表示模型BERT，它表示转换器的双向编码器表示。与最近的语言表示模型不同，BERT利用不标记的文本通过在所有层的上下文联合调节来预训练深层双向表示。因此，只需一个额外的输出层就可以对预先训练好的BERT表示进行微调，以便为各种任务创建最先进的模型，例如问答和语言推断，而无需基本的任务特定架构修改。
BERT概念简单，经验丰富。它在11项自然语言处理任务中获得了最新的技术成果，包括将GLUE的基准值提高到80.4%(7.6%的绝对改进)、多项准确率提高到86.7%(5.6%的绝对改进)、将SQuAD v1.1的问答测试F1提高到93.2(1.5的绝对改进)，比human的表现高出2.0。

简介

语言模型预训练已经证明对改进许多自然语言处理任务是有效的。这些任务包括句子级任务，如自然语言推理和释义，旨在通过整体分析来预测句子之间的关系，以及令牌级任务，如命名实体识别和SQuAD问题回答，其中模型需要在令牌级别生成细粒度输出。
将预训练语言表示应用于下游任务有两种现有策略：基于特征和微调。基于特征的方法，例如ELMo（Peters等，2018），使用特定于任务的体系结构，其包括预先训练的表示作为附加特征。微调方法，例如Generative Pre-trained Transformer（OpenAI GPT）（Radford等，2018），引入了最小的任务特定参数，并通过简单地微调预训练参数来训练下游任务。在以前的工作中，两种方法在预训练期间共享相同的目标函数，在这些方法中，他们使用单向语言模型来学习一般语言表示
我们认为当前的技术严重限制了预训练表示的能力，特别是对于微调方法。主要限制是标准语言模型是单向的，这限制了在预训练期间可以使用的体系结构的选择。这些限制对于句子级别任务来说是次优的，且在将基于微调的方法应用于令牌级别任务（例如SQuAD问答）时可能是毁灭性的，在这些任务中，从两个方向合并上下文至关重要。
在本文中，我们通过提出BERT：变换器的双向编码器表示来改进基于微调的方法。 BERT通过提出一个新的预训练目标来解决前面提到的单向约束：“掩盖语言模型”（MLM），受到完形任务的启发。被掩盖的语言模型从输入中随机地掩盖一些标记，并且目标是仅基于其上下文来预测被掩盖的单词的原始词汇id。与从左到右的语言模型预训练不同，MLM目标允许表示融合左右上下文，这允许我们预训练一个深度双向变换器。除了蒙面语言模型，我们还引入了一个“下一句预测”任务，联合预训练文本对表示。
本文的贡献如下：

我们证明了双向预训练对语言表达的重要性。与Radford等人不同。其使用单向语言模型进行预训练，BERT
使用掩蔽语言模型来实现预训练的深度双向表示。这也与Peters等人(2018年)形成了鲜明对比，Peters等人使用的是一种由独立训练的从左到右和从右到左的LMs的浅层连接。
我们展示了预先训练的表示消除了许多经过大量工程设计的特定于任务的体系结构的需求。BERT是第一个基于微调的表示模型，它在大量的句子级和令牌级任务上实现了最先进的性能，优于许多具有任务特定体系结构的系统。
BERT推进了11项NLP任务的最新技术。我们还报告了对BERT的广泛消融，证明了我们模型的双向性质是最重要的新贡献。代码和预先训练的模型将在goo.gl/language/bert上提供。

BERT

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

原文：https://www.cnblogs.com/yyqxwh1128/p/12498537.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)