Stay hungry. Stay foolish.

0%

NLP中的文本相似度

  关于NLP中的文本相似度算法简单整理

计算文本相似度的算法分类

  1. 基于词向量
  2. 基于具体字符
  3. 基于概率统计
  4. 基于词嵌入的

从0到1,了解NLP中的文本相似度(简单易懂)
https://segmentfault.com/a/1190000018328273

NLP点滴,文本相似度
https://www.cnblogs.com/xlturing/p/6136690.html

什么是TF-IDF
https://zhuanlan.zhihu.com/p/31197209

【NLP】Google BERT详解
https://zhuanlan.zhihu.com/p/46652512

[NLP自然语言处理]谷歌BERT模型深度解析
https://blog.csdn.net/qq_39521554/article/details/83062188

图解当前最强语言模型BERT:NLP是如何攻克迁移学习的?
https://www.jiqizhixin.com/articles/121304

语义相似度 Semantic Similarity

基于融合共线距离的句法网络下文本语义相似度计算

文本相似度主要分为三个过程:

  1. 文本表示
  2. 特征提取
  3. 相似度计算

文本表示

基于词袋模型
向量空间模型VSM简单高效,却往往存在稀疏性、高维性和语义缺失等问题

基于语义模型

特征提取

相似度计算

word2vec 可以成功解决文本特征的维数灾难问题,运用词嵌入方法,无需引入外部知识库也能计算词语的语义相似度。

TF-IDF 文本特征权重计算方法
频率 倒排档文本频率 衡量特征项的重要程度
TF考虑了特征项在文本中的使用次数,但存在部分高频特征项在单个文本毫无意义,引入IDF消除这类词的干扰

余弦相似度

传统的余弦相似度只能依靠文本中具有的相同词语计算文本相似度,而忽略了词语间的语义关系和语法关系

文本语义相似度计算

在计算文本语义相似度之前,需要计算文本特征项之间的相似度,采用word2vec模型通过词嵌入基于神经网络训练大量语料库,将训练集中每个词语映射为特定长度的向量,以此计算词语间的语义相似度。

基于领域词典的中文文本相似度匹配