> LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
所谓生成模型,就是说,一篇文章的每个词都是通过 “以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”
这样一个过程得到,先从文档选择好主题,然后从主题里选择词。
文档到主题服从多项式分布,主题到词服从多项式分布。
LDA 生成:
* 1. 确定一个文档中的单词数。假设我们的文档有六个单词。
* 2. 确定该文档由哪些主题混合而来,例如,这个文档包含 1/2 的“健康”(health)主题和