NLP中的文本相似度

关于NLP中的文本相似度算法简单整理

计算文本相似度的算法分类

从0到1，了解NLP中的文本相似度（简单易懂）
https://segmentfault.com/a/1190000018328273

图解当前最强语言模型BERT：NLP是如何攻克迁移学习的？
https://www.jiqizhixin.com/articles/121304

语义相似度 Semantic Similarity

文本相似度主要分为三个过程：

基于词袋模型
向量空间模型VSM简单高效，却往往存在稀疏性、高维性和语义缺失等问题

基于语义模型

word2vec 可以成功解决文本特征的维数灾难问题，运用词嵌入方法，无需引入外部知识库也能计算词语的语义相似度。

TF-IDF 文本特征权重计算方法
频率倒排档文本频率衡量特征项的重要程度
TF考虑了特征项在文本中的使用次数，但存在部分高频特征项在单个文本毫无意义，引入IDF消除这类词的干扰

余弦相似度

传统的余弦相似度只能依靠文本中具有的相同词语计算文本相似度，而忽略了词语间的语义关系和语法关系

文本语义相似度计算

在计算文本语义相似度之前，需要计算文本特征项之间的相似度，采用word2vec模型通过词嵌入基于神经网络训练大量语料库，将训练集中每个词语映射为特定长度的向量，以此计算词语间的语义相似度。