ES_SSE:一种文本重复检测方法

作者:杨荣; 李兵; 王电化; 吴谋; 邓树文

摘要:对集合的相似性进行高效估计,在计算机的很多应用中都是要解决的一个核心问题。基于原始最小哈希算法,提出一种压缩二进制解决框架ES_SSE(Even Sketch for Set Similarity Estimation)来对集合间的杰卡德相似系数进行估计。对ES_SSE和b-bit进行了模型介绍,并详细描述了ES_SSE的构造原理;分析了Jaccard similarity估计所利用的理论模型基础,并建立了估计量模型;通过实验验证了ES_SSE的高效性能,当J值大于80%时,ES_SSE比b-bit的性能优势更加明显。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 计算机软件及计算机应用
收录:
  • 知网收录(中)
  • 剑桥科学文摘
  • 维普收录(中)
  • 万方收录(中)
  • 国家图书馆馆藏
  • 上海图书馆馆藏
  • 北大期刊(中国人文社会科学期刊)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 相似性
  • 哈希算法
  • 杰卡德相似性
  • b位最小哈希
  • 估计量

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机应用与软件

期刊级别:北大期刊

期刊人气:7056

杂志介绍:
主管单位:上海科学院
主办单位:上海市计算技术研究所;上海计算机软件技术开发中心
出版地方:上海
快捷分类:计算机
国际刊号:1000-386X
国内刊号:31-1260/TP
邮发代号:4-379
创刊时间:1984
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.61
综合影响因子:1.27