• 易迪拓培训,专注于微波、射频、天线设计工程师的培养
首页 > 测试测量 > 技术文章 > 样本不平衡的睡眠数据分期研究

样本不平衡的睡眠数据分期研究

录入:edatop.com    点击:

  李玉平, 夏斌

  (上海海事大学 信息工程学院,上海 201306)

       摘要:睡眠数据中各个阶段的样本数差异较大,睡眠数据的自动分期是一个典型的样本不平衡的机器学习问题。均衡样本方法通过抽样的手段来平衡样本,是解决样本不平衡问题的主要方法。采用均衡样本方法来平衡睡眠数据的不同阶段的样本,并且结合多域特征(时域、频域、时频域以及非线性)和随机森林分类算法进行分类预测。比较分析了样本均衡处理和非均衡处理的分类结果,发现均衡处理后的数据取得了更好的分类效果。

  关键词:睡眠分期;数据不平衡;随机森林

0引言

  睡眠是生命过程中必不可少且十分重要的生理现象。依据国际R&K标准[1],睡眠期可分为快速眼动期、非快速眼动期(S1,S2,S3,S4)以及清醒期,区别分期主要以眼球是否进行了阵发性快速运动为标准。根据上述睡眠分期标准,睡眠数据可分为6类,且不同类别的数据量之间具有较大的差异性,即睡眠数据分期存在样本不平衡的问题。在应用机器学习研究睡眠分期过程中,样本不平衡会导致睡眠分期结果不准确,睡眠分期的可信度降低。在以前的睡眠分期研究中,研究的主要是睡眠数据特征的提取以及分类算法的选取[24],并没有研究睡眠分期样本不平衡问题。本文采用EEG、EOG、EMG 3种信号5个通道的睡眠数据,研究中发现,EOG信号会出现在EEG信号的一些睡眠分期(如清醒状态和快速眼动状态)中,这种数据会对睡眠分期产生不好的影响[5]。本文通过对睡眠分期样本不平衡的研究以及信号混杂的处理,进一步提高睡眠分期的准确度,同时对相关睡眠疾病的诊断和治疗提供重要的参考意义。

  基于以上睡眠数据分期的讨论,本文采用均衡采样的方法解决睡眠分期样本不平衡问题,同时研究睡眠数据的特征提取以减少信号混杂对睡眠分期的影响。

1方法

  1.1特征提取

  睡眠数据的特征主要划分为时域特征、频域特征、时频域特征以及非线性特征。本文中,提取EEG、EOG和EMG每种信号各38种特征。

  特征参数如下:第1~6种是6个时域特征[68]:均值(Mean)、方差(Variance)、峰度(Kurtosis)、偏度(Skewness)、过零率(Number of zero crossing,NZC)、最大值(MaxV);第7~19种是频域特征[810]:对4个子节律波分别提取各自范围的功率谱能量(SP_),计算0.01~30 Hz频带的总功率谱能量(SP_D),以及总功率谱能量的规范化能量比(NSP_),即theta/beta、beta/alpha、(theta+alpha)/beta, (theta+alpha)/(beta+alpha);第20~35种是时频域特征[810]:4个子节律波在当前频带范围上小波系数的均值、能量、标准差以及相对于总频带范围的绝对平均值;第36~38种特征分别是Petrosian分形指数、Hurst指数、排列熵[1112]。

  1.2均衡采样

  睡眠数据存在样本不平衡的问题,在6类的数据中,最多一类的数据集与最少的一类数据集的比例达到10倍以上,存在严重不平衡现象。本文应用均衡采样的方法处理样本失衡的问题[13]:(1)分别计算6类睡眠分期数据的个数n1、n2、n3、n4、n5、n6;(2)去掉个数最少和个数最多的个数值,剩余为n1、n2、n3、n4,计算这4类个数的平均值n;(3)对6类数据按个数平均值n采样,不足平均个数的类别重复采样,超过平均个数的类别欠采样;(4)整合6类数据采样得到的新数据集即为均衡处理后的数据[4,14]。

  1.3随机森林分类器

  随机森林模型是决策树集成的算法,并且由一随机向量决定决策树的构造。通过训练集得到随机森林模型后,当有一个新的输入样本进入时,就让随机森林的每一棵决策树分别进行判断,判断样本所属类别,然后计算哪一个类别被选择最多,就预测该样本所属的类别。随机森林算法特征参数较多,测试结果不会出现过拟合的情形;能够处理高维度特征的睡眠数据,不用做特征选择,对数据集的适应能力强;训练速度快,能够检测不同特征之间的影响[13,15]。

  随机森林实现过程为:(1)原始训练集为N,采用集成算法有放回地随机选取k个样本集构建k棵分类树,每次没有被抽到的样本组成k个袋外数据;(2)设定mall变量,在每棵树的每个节点处随机抽取mtry个变量(mtry,n,mall),然后在mtry中选择一个最佳的分类变量,变量分类的阈值通过检查每一个分类点确定;(3)每一棵树最大限度地生长,不做任何修剪;(4)将构造的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类的结果按树分类器投票数确定。

2实验与结果

  2.1数据

  本文采用9名受试者的睡眠数据来验证分类方法和数据不平衡处理的可行性。数据集记录了这9名志愿者一晚上的睡眠数据,以1~9命名这些数据集。数据包含15个通道的睡眠时的信号数据以及呼吸频率和身体温度。对应的EEG、EOG、EMG信号按100 Hz进行采样。数据集处理部分,分别进行了7/3分和留一方法,采用这两种方法验证睡眠分期样本不平衡的处理效果。

  2.2数据预处理

  首先采用巴特沃夫滤波器提取原始睡眠数据中0.01~35 Hz的数据,并应用高斯归一化方法对数据进行归一化处理。由于采样的睡眠数据可能存在标签不正确的问题,因此会剔除不正确的标签数据。具体方法是,首先找出空标签或标签异常(不在已有类别中的标签),根据标签对应的位置,剔除这些标签对应的数据集,最后更新数据集。采用以上方法进行数据预处理之后,得到7 461条数据。

  2.3均衡采样数据

  经预处理和特征提取之后,对9个受试者的数据进行整合,数据总量为59 680。采用7/3分数据集,即70%数据做训练集,30%数据做测试集,训练集数据量为41 773,测试集数据量为17 907。为了验证均衡采样的可行性,对训练集做均衡处理,得到22 465条新的训练集。

  2.4结果

  本文第一种验证方法是7/3数据集,结果如下:表1是所有数据集7/3分,对训练集进行均衡处理的分类结果准确率;表2是均衡采样数据集和普通数据集分类结果对比;表3是不同信号组合,均衡采样分类结果对比。

图像 002.png

图像 003.png

图像 004.png

图像 001.png

第二种验证方法是对9个受试者的数据集进行留一验证。分别提取其中8个受试者的数据集作为训练集做均衡处理,剩下1个受试者的数据集作为测试集。分类结果如图1所示。

  由表1得知,同时考虑EEG、EOG、EMG 3种信号5个通道的数据集,得到的分类准确率达到84.33%,wake类别的分类准确率最高,模型对wake类别的泛化能力最好,而S1类别数据量最少,同时分类效果也最差。由表2得知:均衡处理之后,wake、S1、S3、rem这4类睡眠分期结果得到了提升,S4基本一致,S2的结果降低了。由表3知:提取一种信号EEG时,睡眠分期准确率比同时提取多种信号时的准确率低。由图1留一验证知,2、5、9号受试者睡眠分期的结果达到了80%以上,分类效果较好;3、6号受试者睡眠分期准确率较低。

3结论

  本研究采用了EEG、EOG、EMG 3种信号5个通道数据集,并且应用均衡采样的方法处理训练集数据不平衡问题,睡眠分期结果较好,平均分类准确率得到了提升,并且有4个睡眠分期的分类结果都得到了提升。在今后对睡眠分期样本不平衡的研究中,可以采用加权随机森林或其他的方法处理睡眠数据集不平衡的问题。

  参考文献

  [1] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.

  [2] 李谷,范影乐,庞全.基于排列组合熵的脑电信号睡眠分期研究[J].生物医学工程学志,2009,26(4):869-872.

  [3] Liu Derong,Pang Zhongyu,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,2008,19(2):308-318.

  [4] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.

  [5] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.

  [6] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.

  [7] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.

  [8] QQ图片20161023220227.pngA comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,2014,38(3):1-21.

  [9] HAMIDA T B, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.

  [10] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.

  [11] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,98(5):401-410.

  [12] PEREDA E, GAMUNDI A, RIAL R, et al. Non瞝inear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.

  [13] 毛文涛,王金婉,等.面向贯序不均衡数据的混合采样极限学习机[J].计算机应用,2015, 35(8):2221-2226.

  [14] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.

  [15] BREIMAN L. Random forests[J]. Machine Learning,2001, 45(1):5=32.

点击浏览:矢量网络分析仪、频谱仪、示波器,使用操作培训教程

上一篇:GRL中国公司开业 选用Keysight方案用于高速总线接口的认证测试
下一篇:Danlaw的Mx-Suite获TUV SUD的ISO 26262工具验证包认证

微波射频测量操作培训课程详情>>
射频和天线工程师培训课程详情>>

  网站地图