如何计算两个文档的相似度

作者：职业培训时间： 2025-01-13 16:38:18 阅读：720

当前课程图谱中所有课程之间的相似度全部基于gensim计算，自己写的调用代码不到一百行，topic模型采用 LSI (Latent semantic indexing, 中文译为浅层语义索引），LSI和 LSA （Latent semantic analysis，中文译为浅层语义分析）

1） TF-IDF，余弦相似度，向量空间模型

这几个知识点在信息检索中是最基本的，入门级的参考资料可以看看吴军老师在《数学之美》中第11章“如何确定网页和查询的相关性”和第14章“余弦定理和新闻的分类”中的通俗介绍或者阮一峰老师写的两篇科普文章“ TF-IDF与余弦相似性的应用（一）：自动提取关键词 ”和“ TF-IDF与余弦相似性的应用（二）：找出相似文章 ”。

专业一点的参考资料推荐王斌老师在中科院所授的研究生课程“ 现代信息检索(Modern Information Retrieval) ”的课件，其中“第六讲向量模型及权重计算”和该主题相关。或者更详细的可参考王斌老师翻译的经典的《信息检索导论》第6章或者其它相关的信息检索书籍。

2）SVD和LSI

想了解LSI一定要知道SVD（ Singular value decomposition , 中文译为奇异值分解），而SVD的作用不仅仅局限于LSI，在很多地方都能见到其身影，SVD自诞生之后，其应用领域不断被发掘，可以不夸张的说如果学了线性代数而不明白SVD，基本上等于没学。想快速了解或复习SVD的同学可以参考这个英文tutorail: Singular Value Decomposition Tutorial , 当然更推荐MIT教授 Gilbert Strang的线性代数公开课和相关书籍，你可以直接在网易公开课看相关章节的视频。

关于LSI，简单说两句，一种情况下我们考察两个词的关系常常考虑的是它们在一个窗口长度（譬如一句话，一段话或一个文章）里的共现情况，在语料库语言学里有个专业点叫法叫 Collocation ，中文译文搭配或词语搭配。而LSI所做的是挖掘如下这层词语关系： A和C共现，B和C共现，目标是找到A和B的隐含关系，学术一点的叫法是second-order co-ocurrence 。

标签：

本文地址： http://www.goggeous.com/20250108/1/1326946

文章来源：天狐定制

上一篇：如何树立正确的人生观，价值观

下一篇：6-18岁最佳教育方法！