LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。 所谓生成模型,就是说,一篇文章的每个词都是通过 “以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语” 这样一个过程得到,先从文档选择好主题,然后从主题里选择词。 文档到主题服从多项式分布,主题到词服从多项式分布。 LDA 生成: 1. 确定一个文档中的单词数。假设我们的文档有六个单词。 2. 确定该文档由哪些主题混合而来,例如,这个文档包含 1/2 的“健康”(health)主题和