适用于PDF文本内容的高效模式匹配算法

作者:朱玲玉; 王旌舟; 陈庆春

摘要:高效、准确地对PDF文档文本内容中的敏感信息脱敏,成功的关键在于敏感词的有效匹配。因此,对经典单模式匹配BM算法、QS算法进行研究分析,结合PDF文本内容编码的规则,提出了一种适用于PDF文档的模式匹配算法。该算法利用BM算法的坏字符表的计算规则、QS算法的下一字符思想,结合已匹配的信息及PDF编码规则,使其最大跳跃距离为m+4,减少了匹配次数,提高了匹配效率。分析验证表明,该算法匹配效率相对于BM算法、QS算法有一定提高。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电信技术
收录:
  • 维普收录(中)
  • 万方收录(中)
  • 国家图书馆馆藏
  • 上海图书馆馆藏
  • 知网收录(中)
关键词:
  • 模式匹配
  • bm算法
  • qs算法
  • pdf编码

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:通信技术

期刊级别:部级期刊

期刊人气:10041

杂志介绍:
主管单位:中国电子科技集团有限公司
主办单位:中国电子科技集团公司第三十研究所
出版地方:四川
快捷分类:计算机
国际刊号:1002-0802
国内刊号:51-1167/TN
邮发代号:62-304
创刊时间:1967
发行周期:月刊
期刊开本:A4
下单时间:1个月内
复合影响因子:0.59
综合影响因子:0.65