首页 > 其他 > 详细

第四篇:Named Entity Recognition with Bidirectional LSTM-CNNs

时间:2020-04-11 18:49:13      阅读:98      评论:0      收藏:0      [点我收藏+]

一、论文主要内容

  collobert 的那个联合训练,虽然提出了神经网络,但仅仅是一个简单的前向反馈网络,抛弃了上下文长距离的依赖,仅仅依赖与窗口大小之内的单词依赖,其次,由于仅仅依赖于单词嵌入,它无法利用明确的字符级别特征,如前缀和后缀,这可能很有用,特别是在单词嵌入的罕见单词中。

  一个新模型:bi-sltm-CNNs;

a bi-directional LSTM model can take into account an effectively infifinite amount of context on both sides of a word and eliminates the problem of limited context that applies to any feed-forward model,但是缺乏计算能力
技术分享图片
字符级的双向LSTM并不比字符级CNN好很多,而且,LSTM计算成本昂贵
于是我们结合两者的优点,建立一个模型,去执行NER任务,可以学习字符级和字级特征。
技术分享图片
 双向LSTM中输出层的解码
技术分享图片

 

 (1)序列标签和双向LSTM:将提取的每个词的特征反馈给前向和后向LSTM网络中,输出层铜线一个线性层和一个log-softmax层将每个时间步长解码为每个标签的对数概率,再将两个向量简单的相加产生最后的输出向量。

(2)使用CNN提取字符特征:每个词都要经过一个卷积以及一个最大层,从字符嵌入以及附加的特征(比如字符类型)中提取一个新的特征向量。且再字符的两边填充了特殊的padding字符。CNN的窗口大小和输出层向量大小都是超参数。

  一个新方法:一种新的神经网络部分词汇匹配编码方法,并将其与现有方法进行了比较

 

二、模型相关工作----word embedding、character embedding、additional character-level features

附加的字符级特征:大写、小写、标点符号以及其他,词典(词汇特征)

目标函数:

技术分享图片

 

 句子级别对数似然,用softmax:

技术分享图片

 

 通过梯度下降以及动态规划算法优化, 在推理时,给定神经网络输出[fθ]i,t我们使用Viterbi算法找到标记序列[i]T1,使分数S([x]T1,[i]T1,θ0)最大化。

 

三、个人想法

  1、就前四篇论文来说,最先是传统的神经网络模型与Log-bilinear CRF;其次就是将NER任务优化的模型是一个前向反馈模型加CRF的联合训练模型;再之后就是词嵌入加CRF模型;最后就是这篇双向LSTM加CNN模型,这也是当前最基础的NER任务模型,代码可深入了解;

  2、本文,主要是基于句子级别的对数似然进行计算优化,以及添加了附加的特征,当我们使用现在的词向量训练词嵌入时,再加上一些特征工程,应该会比以前的效果好很多,不过此文主要是针对外文,中文的双向LSTM和CRF模型,要另阅读文章。

  3、中文的NER任务,主要还是再分词上,词的边界清楚,切分词很正确,加上标注的一些标签,NER任务的完成度会很高的

  4、中文中存在很多简写、缩写,这些更需要一个好多模型去学习,但是这些模型学习对了,又会出现过拟合,这是个很难的问题,而且简写的时候还会出现歧义,这是正在研究的一个问题----实体消歧

  5、如果实体消歧也加入人工特征词典,应该也能准确判断,此时重要的有两个点,一个是,人工特征词典是一个泛化的,另一个是,如何将这些加入再实体识别中

  6、基于前几篇文章,实体消歧,最主要的还是先大部分完成准确识别,之后再通过人工特征加入,这样可以进行实体消歧。

第四篇:Named Entity Recognition with Bidirectional LSTM-CNNs

原文:https://www.cnblogs.com/xujia-go/p/12674671.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!