样本自适应的不平衡分类器

作者:才子昕; 王馨月; 徐剑; 景丽萍

摘要:大数据时代,不平衡数据分类在实际应用场景中频繁出现。以二分类为例,传统分类器由于较难学习少数类数据集内部的本质结构,容易将少数类样本错误分类。针对这一问题,一种有效的解决方法是在传统的方法中引入代价敏感机制,为少数类样本赋予更高的误分代价以提升其预测精度。这类方法同等对待了同类样本集中的数据,然而同一类内的不同样本可能对训练过程有不同程度的贡献。为了提升代价敏感机制的有效性,样本自适应的代价敏感策略为不同的样本赋予不同的权重。首先,通过考察样本局部的类分布情况,判断其距离两类样本边界的远近;然后,根据边界分布理论,即距离决策面越近的样本对决策面位置的影响越大,为距离两类样本边界越近的样本赋予越高的权重。实验过程中,通过将样本自适应代价敏感策略应用于LDM,并在标准数据集上进行一系列对比实验,验证了样本自适应代价敏感策略在处理不平衡数据分类问题上的有效性。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 维普收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • JST 日本科学技术振兴机构数据库(日)
  • 上海图书馆馆藏
  • 剑桥科学文摘
  • 哥白尼索引(波兰)
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 国家图书馆馆藏
  • 知网收录(中)
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 分类
  • 代价敏感学习
  • 边界样本

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机科学

期刊级别:北大期刊

期刊人气:20399

杂志介绍:
主管单位:国家科学技术部
主办单位:国家科技部西南信息中心
出版地方:重庆
快捷分类:计算机
国际刊号:1002-137X
国内刊号:50-1075/TP
邮发代号:78-68
创刊时间:1974
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.94
综合影响因子:1.6