首页 > 其他 > 详细

【NLP】|01 NLP常见模型(三)LDA

时间:2021-04-16 21:19:13      阅读:18      评论:0      收藏:0      [点我收藏+]

理论:参考链接

Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。

共轭的意思是,以Beta分布和二项式分布为例,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后续分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

计算过程:参考链接

文档-主题矩阵:

技术分享图片

 

 主题-单词矩阵:

技术分享图片

 

参数说明:

 技术分享图片

 

 训练方法:

技术分享图片

 

 通过样本的学习不断调整先验概率,最后学出一个参数的分布

z为主题词,w为单词。所以:

(1)两个先验分布分别生成主题词的分布和单词的分布

技术分享图片

 

 技术分享图片其中|V|是单词的个数,所以相当于单词的概率,K是主题的个数,对每个主题,它对每个单词都有概率。

 

 (2)由主题词分布生成主题词,再由主题词生成单词

技术分享图片

 

 技术分享图片


 

整个LDA训练的流程:

技术分享图片

 

  通过样本的学习不断调整先验概率,最后学出一个参数的分布。

【NLP】|01 NLP常见模型(三)LDA

原文:https://www.cnblogs.com/Joyce-good-girl/p/14668325.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!