2. 4 支持向量机及特征波长选择算法
支持向量机(Support vector machines,SVM)是一种新型的非线性近红外建模方法,SVM 是建立在结 构风险最小化(Structural risk minimization)原则基础上的,因而从理论上保证了其在小样本拟合时也能 具有较好的泛化能力。最小二乘支持向量机(LS-SVM)是一种经典 SVM 的改进方法,以求解一组线性 方程代替经典 SVM 中较复杂的二次优化问题,降低了计算复杂性,加快了求解速度。构建 LS-SVM 模 型需确定两个重要模型参数:γ 和核函数参数( 本实验采用径向基核函数,模型参数为 σ2 ) ,采用二步格 点搜索法(Grid searching technique)和留一法交叉验证法(Leave one-out cross validation)相结合,对这两个模型参数进行全局寻优[ 6 ] ,以训练集交叉验证误差均方根( RMSEC V ) 为参数选择指标 。
针对近红外光谱采样点数较多的特点,为防止发生过拟合现象,本研究采用反复遗传算法( Iterative GA-PLS)[7 ~ 9]选择特征波长。对包含 2205 个波长点的波长段,去除最后 5 个点,将每 11 个连续波长点 取平均值作为一个新变量,总计 200 个新变量,经过 5 次重复遗传算法后,将原始波长点挑选出来再进 行遗传算法。其算法的具体参数设定为:初始群体大小为 30,最大繁殖代数 100,交叉概率 0. 5,变异概 率0.01。
2. 5 回归模型评价指标
由于每次测量的蜂蜜光谱总体能量不同,光谱间差异较大。为了消除由于仪器每次测量所带来的
能量差异,本研究在数据分析和数学建模前,分别对校正集和预测集光谱进行
标准化( Auto-scaling) 处 理,然后利用偏最小二乘回归法(PLSR) 对数据进行多元统计分析。应用非线性迭代偏最小二乘 (NIPALS)算法求取偏最小二乘因子。校正模型的最佳因子个数(#LV)由舍一交互验证法(LOOCV)的 预测残差平方和(PRESS)来确定。数据预处理和建模过程中的所有计算均由自编的 MATLAB 7. 0 程序完成。校正模型的性能通过相关系数(r)评价其相关性,校正误差均方根(RMSEC)作为校正集的评估 标准,预测误差均方根( RMSEP) 反映模型对未知样本的预测效果。
相对标准偏差 RSD 反映模型对某一组分的总体测定效果,即测定精度。它包括校正相对标准偏差 RSDc 和预测相对标准偏差 RSDp,具体表示分别为: