基于多维数据集的异常子群发现技术

作者:张静恬; 伍赛; 陈刚; 寿黎但; 陈珂

摘要:非频繁项集是未被标准化的频繁项集产生算法(如APRIORI以及FP-Growth算法)提取的所有项集.在数据集上挖掘有意义的非频繁项集是数据挖掘的重要工作之一.目前,基于传统数据集的非频繁项集挖掘研究主要集中在负相关、负模式以及间接关联等方面,且主要是对整个数据集上的性质进行分析,而没有对数据集的切片进行分析.该文提出了一种新的模式,试图找到符合如下条件的特定子群,其描述的数据集切片上存在某些特殊项集,这些项集在整个数据集上并非频繁项集,但是在该数据集切片上却是频繁项集.根据用户要求自动找出这些异常子群以及其对应项集的算法在数据分析中有着十分重要的意义.该文提出的解决方案由两部分组成:候选产生阶段以及查询交互阶段.前者是一个脱机处理的过程,而后者则是在线实时反馈的过程.在候选产生阶段,该文提出了一种基于多维数据集高效产生频繁项集以及显著子群并有效建立索引的算法.根据索引,在查询交互阶段,该文提出的算法框架可以快速准确地返回给定查询对应的异常子群以及对应项集.基于多个真实数据集的实验表明,该文提出的方案可以根据用户要求实时返回有意义的异常子群以及对应项集.此外,该文提出的算法在多维数据集上的挖掘效率比UTMTU算法提升了数倍.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 数学文摘
  • 上海图书馆馆藏
  • 维普收录(中)
  • 知网收录(中)
  • 万方收录(中)
  • 剑桥科学文摘
  • 北大期刊(中国人文社会科学期刊)
  • 国家图书馆馆藏
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 文摘与引文数据库
  • SA 科学文摘(英)
  • JST 日本科学技术振兴机构数据库(日)
  • EI 工程索引(美)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 频繁项集挖掘
  • 子群发现
  • 多维数据集
  • 数据挖掘
  • 异常检测

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机学报

期刊级别:北大期刊

期刊人气:11698

杂志介绍:
主管单位:中国科学院
主办单位:中国计算机学会;中国科学院计算技术研究所
出版地方:北京
快捷分类:计算机
国际刊号:0254-4164
国内刊号:11-1826/TP
邮发代号:2-833
创刊时间:1978
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:3.18
综合影响因子:3.08