数据集分类可用性评估的置信区间方法

作者:谈询滔; 顾依依; 阮彤; 袁玉波

摘要:如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题。针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度。该方法将待评估的数据集定义为分类信息系统,提出了分类置信区间的概念,通过区间分析进行信息粒化。在此信息粒化策略下,定义分类可用性的数学模型,并进一步给出单个属性以及整体数据集的分类可用性的计算方法。选择18个UCI标准数据集作为评估对象,给出了部分数据集分类可用性的评估结果,并且选取3种分类器对所选数据集进行分类实验,最终通过对上述实验结果的分析证明了该评估方法的有效性和可行性。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 维普收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • JST 日本科学技术振兴机构数据库(日)
  • 上海图书馆馆藏
  • 剑桥科学文摘
  • 哥白尼索引(波兰)
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 国家图书馆馆藏
  • 知网收录(中)
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 数据可用性
  • 分类系统
  • 区间分析
  • 信息粒化
  • 分类可用性

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机科学

期刊级别:北大期刊

期刊人气:20393

杂志介绍:
主管单位:国家科学技术部
主办单位:国家科技部西南信息中心
出版地方:重庆
快捷分类:计算机
国际刊号:1002-137X
国内刊号:50-1075/TP
邮发代号:78-68
创刊时间:1974
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.94
综合影响因子:1.6