当前 课程图谱 中所有课程之间的相似度全部基于gensim计算,自己写的调用代码不到一百行,topic模型采用 LSI (Latent semantic indexing, 中文译为浅层语义索引),LSI和 LSA (Latent semantic analysis,中文译为浅层语义分析)
1) TF-IDF,余弦相似度,向量空间模型
这几个知识点在信息检索中是最基本的,入门级的参考资料可以看看吴军老师在《 数学之美 》中第11章“如何确定网页和查询的相关性”和第14章“余弦定理和新闻的分类”中的通俗介绍或者阮一峰老师写的两篇科普文章“ TF-IDF与余弦相似性的应用(一):自动提取关键词 ”和“ TF-IDF与余弦相似性的应用(二):找出相似文章 ”。
专业一点的参考资料推荐王斌老师在中科院所授的研究生课程“ 现代信息检索(Modern Information Retrieval) ”的课件,其中“第六讲向量模型及权重计算”和该主题相关。或者更详细的可参考王斌老师翻译的经典的《 信息检索导论 》第6章或者其它相关的信息检索书籍。
2)SVD和LSI
想了解LSI一定要知道SVD( Singular value decomposition , 中文译为奇异值分解),而SVD的作用不仅仅局限于LSI,在很多地方都能见到其身影,SVD自诞生之后,其应用领域不断被发掘,可以不夸张的说如果学了线性代数而不明白SVD,基本上等于没学。想快速了解或复习SVD的同学可以参考这个英文tutorail: Singular Value Decomposition Tutorial , 当然更推荐MIT教授 Gilbert Strang的线性代数公开课 和相关书籍,你可以直接在网易公开课看相关章节的视频。
关于LSI,简单说两句,一种情况下我们考察两个词的关系常常考虑的是它们在一个窗口长度(譬如一句话,一段话或一个文章)里的共现情况,在语料库语言学里有个专业点叫法叫 Collocation ,中文译文搭配或词语搭配。而LSI所做的是挖掘如下这层词语关系: A和C共现,B和C共现,目标是找到A和B的隐含关系,学术一点的叫法是second-order co-ocurrence 。
本文地址: http://www.goggeous.com/a/1/1326946
文章来源:天狐定制
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08职业培训
2025-01-08 14:50:37职业培训
2025-01-08 14:50:36职业培训
2025-01-08 14:50:27职业培训
2025-01-08 14:50:26职业培训
2025-01-08 14:50:26职业培训
2025-01-08 14:50:25职业培训
2025-01-08 14:50:24职业培训
2025-01-08 14:50:23职业培训
2025-01-08 14:50:14职业培训
2025-01-08 14:50:12职业培训
2024-12-17 12:46职业培训
2024-11-28 12:38职业培训
2025-01-01 09:32职业培训
2024-12-27 22:22职业培训
2024-12-01 05:52职业培训
2024-12-27 13:56职业培训
2025-01-07 23:49职业培训
2025-01-02 00:03职业培训
2024-11-30 18:16职业培训
2024-12-06 12:13职业培训
扫码二维码
获取最新动态