关于NLP中的文本相似度算法简单整理
计算文本相似度的算法分类
- 基于词向量
- 基于具体字符
- 基于概率统计
- 基于词嵌入的
从0到1,了解NLP中的文本相似度(简单易懂)
https://segmentfault.com/a/1190000018328273
NLP点滴,文本相似度
https://www.cnblogs.com/xlturing/p/6136690.html
什么是TF-IDF
https://zhuanlan.zhihu.com/p/31197209
【NLP】Google BERT详解
https://zhuanlan.zhihu.com/p/46652512
[NLP自然语言处理]谷歌BERT模型深度解析
https://blog.csdn.net/qq_39521554/article/details/83062188
图解当前最强语言模型BERT:NLP是如何攻克迁移学习的?
https://www.jiqizhixin.com/articles/121304
语义相似度 Semantic Similarity
基于融合共线距离的句法网络下文本语义相似度计算
文本相似度主要分为三个过程:
- 文本表示
- 特征提取
- 相似度计算
文本表示
基于词袋模型
向量空间模型VSM简单高效,却往往存在稀疏性、高维性和语义缺失等问题
基于语义模型
特征提取
相似度计算
word2vec 可以成功解决文本特征的维数灾难问题,运用词嵌入方法,无需引入外部知识库也能计算词语的语义相似度。
TF-IDF 文本特征权重计算方法
频率 倒排档文本频率 衡量特征项的重要程度
TF考虑了特征项在文本中的使用次数,但存在部分高频特征项在单个文本毫无意义,引入IDF消除这类词的干扰
余弦相似度
传统的余弦相似度只能依靠文本中具有的相同词语计算文本相似度,而忽略了词语间的语义关系和语法关系
文本语义相似度计算
在计算文本语义相似度之前,需要计算文本特征项之间的相似度,采用word2vec模型通过词嵌入基于神经网络训练大量语料库,将训练集中每个词语映射为特定长度的向量,以此计算词语间的语义相似度。