摘要:文档区块图像分类对于文档版面图像的理解和分析至关重要。在传统机器学习分类模型中,直接使用图像作为输入会导致学习模型参数量过大而无法进行有效的训练。为了克服这个困难,我们针对文档区块图像设计了一组有效的特征,并提出了基于这些特征和机器学习的文档区块分类算法。在特征设计上,我们提取了几何、灰度、区域、纹理和内容五方面在内的32种特征,以增强特征针对区块类别的分辨能力。在分类器方面,我们在所提出的特征上对传统机器学习分类模型、自动机器学习方法以及深度学习均进行了实验。在公开数据集上的实验结果表明,我们提出的文档版面区块分类算法具有很高的分类准确率,并且效率很高。另外,我们实现了一个简单的分步文档版面分析算法,以展示所提出的区块分类算法的推广能力。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社