基于层次聚类的不平衡数据加权过采样方法

作者:夏英; 李刘杰; 张旭; 裴海英

摘要:不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样本以及过拟合的问题。文中提出一种基于层次聚类的不平衡数据加权过采样方法WOHC(Weighted Oversampling method based on Hierarchical Clustering)。该方法首先使用层次聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。利用该方法采样并结合C4.5算法在多个数据集上进行分类实验,结果表明使用该方法能够使分类算法在F-measure和G-mean指标上分别提升7.6%和5.8%,体现了该方法的有效性。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 维普收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • JST 日本科学技术振兴机构数据库(日)
  • 上海图书馆馆藏
  • 剑桥科学文摘
  • 哥白尼索引(波兰)
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 国家图书馆馆藏
  • 知网收录(中)
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 不平衡数据
  • 层次聚类
  • 过采样
  • 重叠样本

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机科学

期刊级别:北大期刊

期刊人气:20241

杂志介绍:
主管单位:国家科学技术部
主办单位:国家科技部西南信息中心
出版地方:重庆
快捷分类:计算机
国际刊号:1002-137X
国内刊号:50-1075/TP
邮发代号:78-68
创刊时间:1974
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.94
综合影响因子:1.6