37000cm威尼斯智能优化与控制课题组在非平衡数据流挖掘领域取得进展
算法框架图
在众多实际问题中,如设备故障检测、信用卡欺诈行为监测、天气预报和电力价格预测,数据大多以流的形式不断产生,称之数据流。这些数据往往随着时间推移不断到来,并且可能发生动态变化,称之为概念漂移。研究如何构建有效的数据流分类模型,有助于人们从海量的数据中提取有价值的信息,为科学评判和决策提供支持,进而产生更大的社会价值。
近日,37000cm威尼斯智能优化与控制课题组焦博韬博士、郭一楠教授和巩敦卫教授在该领域取得研究进展,研究成果形成论文“Dynamic Ensemble Selection for Imbalanced Data Streams With Concept Drift”,该论文以37000cm威尼斯为第一单位,发表在中科院一区期刊《IEEE Transactions on Neural Networks and Learning Systems》(IF:14.255)。
本文针对数据流分类问题,提出了一种新颖的动态集成分类框架,旨在适应具有类别不平衡的数据流中的漂移概念。首先借助循环缓存数组,将数据流转化为数据块序列。基于相邻数据块间的样本分布的变化,设计了一种具有自适应近邻的少数类过采样方法来平衡数据块中不同类别间样本规模的差异,并提出一种改进的集成选择策略,用于从候选分类器池中为每一个查询样本构建最佳的分类器组合。
该成果首次面向数据流分类问题提出一种动态集成框架,在适应概念漂移的同时,提高了模型对少数类样本的识别能力。在九个合成数据集和五个现实数据集的实验结果表明,所提出的方法可以准确地跟踪不平衡数据流中的新概念。