所有栏目

头条检测文章内容重复率工具

已输入 0 字
优质回答
  • 对图文进行重复检测,一般从图文的标题、正文、封面三个维度做重复检测,用到的方法有编辑距离(针对标题)、Simhash(针对标题和正文)、dHash(针对封面)等。

    Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果会更好一些,比如可以将整个正文输入得到BERT向量,比较两个BERT向量的距离。若存量文章很多的话,还需要借助Facebook开源的Faiss进行向量TopN距离召回。

    2023-12-24 02:24:54
最新问题 全部问题