首页 > 其他 > 详细

【数学之美】第3章 统计语言模型

时间:2014-05-25 23:12:20      阅读:431      评论:0      收藏:0      [点我收藏+]

用数学的方法描述语言规律

 

贾里尼克:一个句子是否合理,等同于判断其可能性的大小,用概率来衡量

Markov模型:简化条件概率运算。

二元模型 Bigram model,N元模型

为什么合理?上下文相关,短程依赖。

不足之处:忽略长程依赖性 Long Distance Dependency

N的取值?tradeoff,同时关注:效果的提升,资源的耗费

 

模型训练的问题:零概率问题(不平滑)

解决办法:平滑方法

理论基础:

Good-Turing Estimate: 相信可靠的统计数据,对不可信的统计数据打折扣,将折扣出来的小部分概率给予为看见的事件 (Unseen Events)

(IBM)Katz backoff

 

语料的选取问题:训练语料尽量和模型应用的领域相结合

训练数据尽可能多。但在某些领域(如机器翻译的双语语料)训练数据很少,无法追求大量数据

需要过滤训练数据

【数学之美】第3章 统计语言模型,布布扣,bubuko.com

【数学之美】第3章 统计语言模型

原文:http://www.cnblogs.com/chenhuanfa/p/3751155.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!