摘要:高效、准确地对PDF文档文本内容中的敏感信息脱敏,成功的关键在于敏感词的有效匹配。因此,对经典单模式匹配BM算法、QS算法进行研究分析,结合PDF文本内容编码的规则,提出了一种适用于PDF文档的模式匹配算法。该算法利用BM算法的坏字符表的计算规则、QS算法的下一字符思想,结合已匹配的信息及PDF编码规则,使其最大跳跃距离为m+4,减少了匹配次数,提高了匹配效率。分析验证表明,该算法匹配效率相对于BM算法、QS算法有一定提高。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
期刊名称:通信技术
期刊级别:部级期刊
期刊人气:10041