2013.6.24 - OpenNE第四天

时间：2014-02-18 10:20:12 阅读：160 评论：0 收藏：0 [点我收藏+]

今天晚上跟师兄讨论，这那几篇论文，对于《领域多词表达翻译对的自动抽取及其应用》那篇，我的感觉是跟实体识别不太吻合。他的大概意思就是先讲所有有可能的多词表达都找出来，然后在用C-value、上下文熵、北京语料库等手段进行过滤，不过我看了前面生成预选集合的地方就觉得不太对劲。因为多词表达跟实体差别还是挺大的，实体对于内部结构有依赖，他的方法就是连续统计一句话每词之间的相关联度，然后将最大的一个一个接着规约合并，合并的中间产物和最终产物都算是有可能的多词表达，整个规约过程可以被表达成一颗树。但是这样并不好，因为对于多词表达来说这样做也许能够奏效，因为多词表达对于结构依赖的不是那么多，然而对于实体来说，情况太多了，想做的好点，大部分都得通过结构来判别是不是某种实体的，如果像文章那样做，每次都只考虑两个词之间的关联程度来规约的话，很多真正的实体可能就不会在预选机里面，以后再怎么筛都不可能筛出来了，也就是说第一步就不对了。比如预料中只有“鱼香肉丝”，没有“鱼香茄条”这个词，所以“鱼香“跟“肉丝”的关联度可能很大，但“鱼"跟"茄条”之间的关联程度最后算出来的可能就是零，或者经过平滑之后得到一个很小的值，但是“鱼香茄条”、“鱼香黄瓜”都是正常的实体，他们有着相同的结构。所以最后大师兄说这个地方可能还需要考虑考虑别的思路。

不过目前大概的思路就是两张牌：

实体结构
话题模型

目前大师兄的意思是我们先从实体结构上下手，看看能不能抽出来，效果怎么样。让我先看着论文《基于维百科和条件随机场的领域主题词抽取方法》，师兄说这个文章的方法比较简单，大概写一个简单的代码，看能跑出来什么。先对着几个领域试一下：

化学品名
药品名
动植物名
菜名
疾病名

最后就是定了一下碰头的固定时间，周一的晚上，还有周三和周五的下午一起商量。

夜里看多次表达那篇论文的高潮部分，感觉那个上下文熵还有点意思。不过还没理解好，主要是不知道那个熵为什么这样设计，其中的C/N代表什么，为什么把N放在分母上，为什么认为N越小越好？不过这个人做的手法现在大概已经很清晰了，其实他识别多次表达的时候就用了四张牌：

内部结合紧密程度：其实就是两个词之间的关联程度，他说衡量的手法还挺多，比如频次、互信息、DICE系数、LLR、卡方统计量、选择关联度、对称条件概率等。他这里采用的是LLR，主要用于生成候选集合。我主要是认为他这张牌出的不好，针对命名实体的话。接下来的四张牌都用于候选集合的筛选了。
嵌套搭配：因为如果一个多词表达，出现在另外一个多次表达的内部，那么我们算大的那个，不算里面的，他把这个考虑进去了，其实这不应该是一张牌，但是这其中的C-value方法中考虑到了词串的长度，他认为词串越长奇异性越小，而且含有的信息越多，我觉得这个值得考虑。
使用自由度：他用的是上下文熵。还要继续琢磨。
背景语料库：这里他用的是KL距离，来计算前景语料库和背景语料库的差异，表示没太看懂。

明天主要就是研究这四张牌，然后编码那个抽取结构的demo。

2013.6.24 - OpenNE第四天

原文：http://www.cnblogs.com/SnakeHunt2012/p/3553096.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)