首页 > 文章中心 > 正文

名茶鉴别技术浅探

名茶鉴别技术浅探

光谱预处理

由于光源强度的不均匀分布,使得光强弱的波段存在暗电流,采集得到的图像信息包含很多的噪音,因此对高光谱图像进行矫正[4]。相同采集条件下,获取白色标准图像W和黑色校准图像B,最终得到相对图像R,完成高光谱图像矫正。图2显示了在408~1117nm范围内的不同像素的茶样图像的光谱曲线。在光谱维中,剔除700nm以下曲线值比较低和900nm以上噪声较强的光谱曲线后,选取该范围内的图像数据;在二维图像维中,将图像数据通过ENVI重新采样,最终对由287张波长在700~900nm范围内且像素大小为650*811的碧螺春茶样高光谱图像三维数据块进行分析。

特征提取

高光谱三维图像数据虽然可完全涵盖研究对象的信息,但是每个样本过大的数据量降低了后期数据处理的速度。相关性较大的相近波段图像造成了数据块中存在大量的冗余信息,所以需要在不丢失有效数据信息的前提下,选择合适的算法降低数据块的维数来消去冗余信息,以减少后期处理时间和增强识别结果的准确性。主成分分析是将原始众多具有一定相关性的变量信息按协方差最大的方向投影,得到几个彼此相互独立而且互不相关的综合变量,并同时完成原始变量数据维数的降低和原始数据中冗余信息的消除。实验采用PCA来筛选特征波长图像。结合本PCA原理可知,原始茶样图像由各PCA图像结合对应方差的大小经过线性组合而成;方差贡献率数值的大小即决定了PCA图像各自所体现原始图像信息的比重;比较权重系数即可寻找到最能表征每个原始碧螺春茶样信息的最佳PCA图像[5]。经过PCA后得到的前4个主成分图像PC1,PC2,PC3和PC4,如图3所示。通过对比可以看出,PC1在波长范围内最能反映原始茶样,它是由287个特定波长处图像和对应权重系数的线性组合,顺序选取前2个最大权重系数依次对应763.36nm和791.17nm处的特征图像。按照此流程,通过PCA分别优选出所有茶样这两个波长下的图像作为对应的特征图像。灰度共生矩阵一直是重要的纹理统计分析方法之一。GLCM建立在对二维灰度图像中各像素信息之间的二阶组合条件概率密度函数的形象描述,它可以表述为在以灰度级i为始点,θ方向相隔一定的像元距离d时,出现特定灰度级j的概率,即为GLCM矩阵的像元,记为p(i,j,d,θ)。GLCM构造的结构统计和纹理特征从不同的角度反映研究对象图像的灰度分布,信息的数量以及质地粗糙等特性[6]。本实验针对每个茶样优选出2个特征波长下的图像,为了消去培养皿边缘光线反光以及背景图像的影响,以特征图像的中心位置点为中心,选择为400*400、包含茶叶信息的正方形图像区域,以GLCM构造的对比度(Contrast)、相关性、能量和均匀性4个统计量作为纹理特征值。在利用GLCM获取纹理特征时,不同构造因子(如像元方向角θ和像元距离d)所得到的GLCM差别很大,进而导致最终获取的二次统计量也存在较大的差异:在讨论像元方向角θ取值时,由于茶叶平铺于培养皿扫描的随机和不均匀性,本实验采用固定像元方向角为0°的方法来消除其影响。不同的像元距离d决定了茶样图像GLCM中的两个采样像素点间的距离。纹理像元较大的粗纹理中,d与纹理像元的幅度相比较小,此时GLCM中的高灰度值的像元就集中在矩阵对角线周围;而对细纹理而言,如果d与纹理像元的幅度大小差不多,此时GLCM中高灰度值的元素分布较均匀。由此需要针对不同的研究对象选择合适的d,使得到GLCM构成的纹理统计量能最好地描述所研究的对象[7]。利用MATLAB编制了提取GL-CM特征参数的程序,从所有数据中任选5张图像分析其GLCM纹理特征参数并进行比较,最终选取像元方向角θ=0°、所有参数数值最大时的d=4作为构造GLCM的最佳像元距离。

模型建立与鉴别结果

SVM是按照间隔大小将低维空间非线性可分映射到高维空间,划分成若干高维可分子集,建立结构风险最优化模型[8]。SVM可以通过出色的学习能力自动寻找到对分类有较强划分能力的支持向量,构造的分类器可将各类之间间隔距离达到最大限,其分类准确率可以达到很高[9]。因此,本文采用SVM作为模式识别模型,来对真伪碧螺春茶样GLCM构造的纹理统计信息进行预测和判别。SVM核函数的引入,使其在算法复杂度不增加的情况下又具有了很高的学习机器非线性处理能力。研究最多的核函数有多项式核、径向基核以及Sigmoid核函数,但是径向基核函数较Sigmoid的局部性强,较多项式核的参数少、计算时间短[10]。考虑需要对真伪茶叶样本的快速鉴别,因此选取了径向基核函数。核函数参量惩罚系数C和宽度δ对模型也会产生一定的影响,本实验采用交叉验证法对核函数的参量进行优化,结果模型识别效果最佳的径向基核函数惩罚系数C=39.78,宽度参量δ=2.82。在每个茶样的特征波长下,对应图像构成的8个GLCM纹理特征变量组成的训练集和预测集数据变量之间仍然存在一定的相关性,所以在模型建立之前,继续采用PCA对数据进行独立的主成分分量提取,构成基于RBF核函数的SVM模式识别的变量输入;选择合适的主成分数对鉴别模型的建立也很重要。不同主成分数对模型结构的影响如图4所示。由图4可以看出:在主成分数等于6之前,预测模型的判别率随主成分数的增加而升高;但当主成分数增加到6以后,再随着主成分数的增加,预测时判别率却有下降的趋势。图4训练和预测模型的判别率与主成分数关系比较后,最终选取训练预测集都最高的像元方向角θ为0°,像元距离d为4的前6个主成分特征变量作为SVM模型的输入变量。表1为真伪茶样本的训练和预测的结果。从表1可以看出,真伪品茶训练集的误判数为0,总体判别率为100%。预测集中,将一个真品碧螺春茶样误判为伪品茶,2个伪品茶样误判为真品茶样,模型总体鉴别率为96.25%。结果表明,真伪品茶样鉴别模型的识别率和稳定性都达到一个很高的水平。实验中,伪品样本误判数高于真品是由不同采购产地伪品茶样本模仿真品碧螺春茶制作工艺的技术优劣差别造成的,一些经过优良加工的伪品茶样本和真品碧螺春茶样本之间品质指标比较接近,这就会使模型的识别结果产生一定的误差。

本文作者:蔡健荣韩智义作者单位:江苏大学

文档上传者