序列标注 Sequencce Labeling

时间：2020-04-19 02:34:31 阅读：85 评论：0 收藏：0 [点我收藏+]

Structured Learning 4: Sequence Labeling on YouTube

序列标注是一种在NLP中很基础但是也很重要的任务。以POS词性标注为例，输入是一个句子，输出是每个单词的词性。

如果每个单词只有一种词性，我们可以简单的做一个hash table，读到单词直接去查找就可以了。然而问题就在于很多单词不只一种词性，我们需要根据上下文对其词性进行推测，这要求我们读到整个句子的信息。

HMM 隐式马尔科夫模型

HMM的假设

HMM的假设，认为你在说一句话的时候，是会现在脑中呈现一个词性序列，然后在词性序列的基础上构建对应语义的单词。

Steps

你的脑子里现在有一个马尔可夫链，表示了你构建一个句子，从一个词性\(u\)后面再接一个另一个词性\(v\)的概率\(p(v|u)\)，起点是start，重点是end。整个句子的概率就是：

\[p(y) = \prod_i p(w_i | w_{i-1},w_{i-2}..start) p(end|w_n) \]

如果我们还知道了，给出每一个词性之后我选择某一个单词的概率\(p(v_j|w_i)\)，那么我可以得到这个词性序列对应的一个确定单词的句子的概率：

\[p(x|y) = \prod_i p(x_i|y_i) \]

且有：

\[p(x, y) = p(y) p(x|y) \]

我们称\(p(y)\)中的连乘为转移概率(transition probability)，\(p(x|y)\)中的连乘为发射概率(emission probability)。这两个概率我们都可以从数据中统计出来。

回到标注任务

现在我们已经知道了\(x\)，求序列\(y\)，一个猜测就是我要的应该满足下面这个条件。

\[y = arg \max_{y \in Y} p(y|x)\= arg \max_{y \in Y} p(x, y) \]

Viterbi Algorithm

利用上面的式子，我们可以通过枚举\(y\)序列选出最大值，然而这种做法相当低效。下面介绍一种名为Viterbi的算法在\(O(L|S|^2)\)的时间里解决这个问题。

通过对式子的观察，我们容易发现，一个位置选择词性之后的概率只和这个位置的单词和前一个词性有关，那我们直接简单的动态规划解决就完了，这个做法就叫Viterbi Algorithm。

\[dp[i][j] = \max_k (dp[i - 1][k] * p(w_j|w_k) * p(v_i|w_k)) \]

HMM 的问题

HMM虽然简单，但是它却有一个问题：他会从训练数据中预测出训练数据本来没有的结果。注意这些结果不一定是正确的。

问题在于HMM认为发射概率和转移概率是无关的，分开训练，也就是用\(p( x\_i |y\_i)\)而不是\(p(x\_i | y\_i,y_{ i -1} )\)。如果你还没有明白这个问题，可以想一下这两个概率表达式的区别。

CRF

CRF全称为条件随机场。之前HMM产生的问题，CRF可以很好的解决。

CRF 的假设

\[P(x, y) \propto \exp (w \cdot \phi(x, y) )\P(y|x) = \frac{P(x, y)}{\sum_{y‘} P(x, y‘)} = \frac{ \exp (w \cdot \phi(x, y) )}{\sum_{y‘ \in Y} \exp (w \cdot \phi(x, y‘) )} \]

令

\[z(x) = \sum_{y‘ \in Y} \exp (w \cdot \phi(x, y‘) ) \]

CRF 与 HMM 相似性

技术分享图片

train

我们找一个目标函数

\[O(w) = \sum_{i=1}^{N} \log P(\hat y^i | x^i) \]

由之前的推导，我们知道

\[\log P(\hat y^i | x^i) = \log P(x^i, \hat y^i) - \log \sum_{y‘ \in Y} P(x^i, y‘) \]

因为要最大化这个函数，我们需要 Gradient Ascent。在\(w\)里面，有两部分需要求导：

\[O(w) = \sum_{n=1}^N \log P(\hat y^i | x^i) = \sum_{n=1}^N O^n(w) \]

技术分享图片

** CRF 之所以能够改善 HMM 存在的问题，就在于矩阵\(w\)是一个 learnable 的参数，它的 weights 并不是拘泥于数据中的概率的，它可以通过下面的 steps 一点点改善其中的概率。**

\[\frac{ \partial O^n (w)}{\partial w_{s,t}} = N_{s,t}(x^n, \hat y^n) - \sum_{y‘ \in Y} P(y‘ | x^n) N_{s,t}(x^n, y‘) \]

从中观察到2点：

如果\((s,t)\)在训练数据样本中出现次数多，\(w\_{s,t}\)就应该增加。
如果\((s,t)\)在其他数据中出现也很多，\(w\_{s,t}\)就会减小。

这种改进方法相比HMM就好太多了，它可以自己调出需要的\(P_{s,t}(x,y)\)。

将梯度写出来：

\[\triangledown O(w) = \phi(x^n, \hat y^n) - \sum_{y‘ \in Y} P(y‘ | x^n) \phi(x^n, y‘) \]

判定

\[y = arg \max_{y \in Y} P(x, y)\= arg \max_{y \in Y} w \cdot \phi(x, y) \]

这一项也可以用 Viterbi Algorithm 进行计算。

Structed Perceptron

Structed Perceptron 有助于我们联系理解Structed Learning 和 CRF。与 CRF 相比，Structed Perceptron 的 train 是这样的：

\[\tilde y^n = arg \max_{y \in Y} w \cdot \phi(x^n, y)\w += \phi(x^n, \hat y^n) - \phi(x^n, \tilde y^n) \]

而 CRF 是

\[w += \eta (\phi(x^n, \hat y^n) - \sum_{y‘ \in Y} P(y‘|x^n) \phi(x^n, y‘)) \]

如果不看 learning rate，它们的相似性是很大的。CRF 是对所有的\(y\)以不同权重减去他们的特征，而 Structed Perceptron 是只减去当前判断概率最大的那个\(\tilde y^n\)。

由于 Structed SVM 还不太明白，也没有办法和深度模型作结合，暂且搁置，回头再更 ??咕咕咕~

序列标注 Sequencce Labeling

原文：https://www.cnblogs.com/TABball/p/12727287.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)