一种基于隐私保护下的多方记录链接方法

作者:韩姝敏; 申德荣; 聂铁铮; 寇月; 于戈

摘要:多方隐私保护下的记录链接(privacy-preserving record linkage,简称PPRL)是在隐私保护下,从多个数据源中找出代表现实世界中同一实体的过程.该过程除了最终匹配结果被数据源之间共享外,其他信息均未被泄露.随着数据量的日益增大和现实世界数据质量问题的存在(如拼写错误、顺序颠倒等)多方PPRL方法的可扩展性和容错性面临挑战.目前,已有的大部分多方PPRL方法都是精确匹配方法,不具有容错性.还有少部分多方PPRL近似方法具有容错性,但在处理存在质量问题的数据时,由于容错性差和时间代价过大,并不能有效地找出数据源间的共同实体。因此,提出一种结合布隆过滤、安全合计、动态阈值、检查机制和改进的Dice相似度函数的多方PPRL近似方法.首先,利用布隆过滤将各数据源中的每条记录信息转换成由0和1组成的位数组.然后,计算每个对应位置bit1所占的比率,并利用动态阈值和检查机制来判定匹配成功的位置.最后,通过改进的Dice相似度函数计算出记录间的相似度,进而判断记录间是否匹配成功.实验结果表明:所提出的方法具有较好的可扩展性,并且在保证查准率的同时,比已有的多方近似PPRL方法具有更高的容错性.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 计算机软件及计算机应用
收录:
  • 上海图书馆馆藏
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 知网收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • 维普收录(中)
  • 国家图书馆馆藏
  • 万方收录(中)
  • SA 科学文摘(英)
  • Pж(AJ) 文摘杂志(俄)
  • EI 工程索引(美)
  • JST 日本科学技术振兴机构数据库(日)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 记录链接
  • 隐私保护
  • 布隆过滤
  • 动态阈值
  • 检查机制
  • 改进的dice相似度函教

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:软件学报

期刊级别:北大期刊

期刊人气:4838

杂志介绍:
主管单位:中国科学院
主办单位:中国科学院软件研究所;中国计算机学会
出版地方:北京
快捷分类:计算机
国际刊号:1000-9825
国内刊号:11-2560/TP
邮发代号:82-367
创刊时间:1990
发行周期:月刊
期刊开本:B5
下单时间:1-3个月
复合影响因子:2.86
综合影响因子:2.83