基于特征提取和机器学习的文档区块图像分类算法

作者:李翌昕; 邹亚君; 马尽文

摘要:文档区块图像分类对于文档版面图像的理解和分析至关重要。在传统机器学习分类模型中,直接使用图像作为输入会导致学习模型参数量过大而无法进行有效的训练。为了克服这个困难,我们针对文档区块图像设计了一组有效的特征,并提出了基于这些特征和机器学习的文档区块分类算法。在特征设计上,我们提取了几何、灰度、区域、纹理和内容五方面在内的32种特征,以增强特征针对区块类别的分辨能力。在分类器方面,我们在所提出的特征上对传统机器学习分类模型、自动机器学习方法以及深度学习均进行了实验。在公开数据集上的实验结果表明,我们提出的文档版面区块分类算法具有很高的分类准确率,并且效率很高。另外,我们实现了一个简单的分步文档版面分析算法,以展示所提出的区块分类算法的推广能力。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电信技术
收录:
  • 万方收录(中)
  • 上海图书馆馆藏
  • 知网收录(中)
  • 国家图书馆馆藏
  • 北大期刊(中国人文社会科学期刊)
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 维普收录(中)
  • JST 日本科学技术振兴机构数据库(日)
  • 剑桥科学文摘
  • SA 科学文摘(英)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 文档版面分析
  • 文档区块分类
  • 特征提取
  • 机器学习
  • 图像分类

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:信号处理

期刊级别:北大期刊

期刊人气:2596

杂志介绍:
主管单位:中国科学技术协会
主办单位:中国电子学会
出版地方:北京
快捷分类:电子
国际刊号:1003-0530
国内刊号:11-2406/TN
邮发代号:18-143
创刊时间:1985
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:1.5
综合影响因子:1.17