中国报告大厅网讯,食用油作为人们日常饮食中不可或缺的组成部分,其品质与安全直接关系到消费者的健康。其中,山茶油作为我国特有的传统食用油,因富含不饱和脂肪酸、维生素 E 和植物甾醇,在保护心血管健康、抗氧化和护肤等方面具有显著作用,有着 “东方橄榄油” 的美誉。随着消费者对健康饮食重视程度的提升,山茶油的需求量不断增加,部分不良商家为降低成本、获取非法利润,将其他低廉植物油掺入山茶油中以次充好,这类掺伪食用油的质量和安全性无法保证,严重危害消费者利益与健康。当前,食用油掺伪检测技术中,气相色谱法、液相色谱法、气相色谱 - 质谱联用法、液相色谱 - 质谱联用法等虽检测精度和可靠性出色,但存在设备成本高、操作复杂、设备要求高的问题,难以广泛应用。光谱分析法凭借快速、无损、灵敏度高的优势,在食用油行业掺伪检测中潜力巨大,而高光谱成像技术作为光谱分析法的前沿技术,具有高分辨率、非侵入性、高效快速的特点,已在农业、医学、环境监测、食品检测等多个领域应用,将其用于掺伪食用油鉴别,可为食用油安全检测提供新路径。以下是2025年食用油行业技术分析。
为开展基于高光谱成像技术的掺伪食用油快速鉴别研究,从市场购入常见的山茶油、玉米油和大豆油,具体信息如下:山茶油品牌为纳福汇,名称为纳福汇有机山茶油;玉米油品牌为长寿花,名称为长寿花压榨一级玉米油;大豆油品牌为金龙鱼,名称为金龙鱼精炼一级大豆油。
研究制备了 4 类食用油样品,涵盖纯山茶油到不同掺伪比例的样品。以 100% 山茶油作为纯浓度样品,按不同比例将玉米油、大豆油与山茶油混合,得到 3 类多元掺伪样品。其中,掺伪比例 20% 的为低度掺伪样品,掺伪梯度 5%,共 5 种;掺伪比例 40% 的为中度掺伪样品,掺伪梯度 10%,共 5 种;掺伪比例 60% 的为高度掺伪样品,掺伪梯度 15%,共 5 种。
样品充分振荡混合均匀后,在实验室静置 6 小时,使用移液枪将样品分别滴在均匀、平整的牛皮纸上,标记样品编号,置于通风处自然干燥,避免阳光直射和灰尘。
《2025-2030年全球及中国食用油行业市场现状调研及发展前景分析报告》指出,掺伪食用油样品每个编号采集 24 次,纯山茶油采集 120 次,共得到 480 组数据。采用软件 ENVI 5.1 确定感兴趣区域(Region Of Interest, ROI),选取区域大小为 20×20 pixel,计算每个 ROI 区域平均反射强度作为样本的原始光谱值,得到随波长变化的光谱曲线。
高光谱数据采集过程中,背景干扰、杂散光、基线漂移、噪声等因素会对数据产生影响,通过光谱预处理可有效减少或消除这些干扰。现有光谱预处理方法根据效果可分为平滑处理、散射校正和基线校正,平滑处理能减小噪声、提高信噪比,散射校正可减少或消除由样品表面不均匀性或粒径分布引起的散射效应、改善数据真实性,基线校正能消除基线漂移和背景干扰。
本研究选择 Savitzky - Golay 卷积平滑(SG)、标准正态变换(SNV)、连续小波变换(CWT)三种方法对食用油高光谱数据进行预处理。其中,SG 通过对光谱中移动窗口内的数据进行多项式分解并用最小二乘进行数据拟合,保留数据的细节和峰值信息;SNV 对每个光谱数据进行标准化处理,使每个光谱具有相同的均值和标准差,通过消除散射差异改善数据的一致性;CWT 通过将信号与一组小波函数进行卷积实现,这些小波函数由缩放和平移一个母小波函数得到,有助于分离信号和噪声,提取不同频率信息。
竞争性自适应重加权算法(CARS):是从高维数据中高效筛选最重要特征的算法,原理是模拟生物进化中的竞争机制,利用偏最小二乘回归(PLS)模型评估特征子集的适应度,自适应调整每个特征的权重,通过多轮迭代优化和重加权抽样,逐步淘汰不重要的特征,最终提取对模型预测最有贡献的特征子集。交叉验证均方根误差(Root Mean Square Error of Cross - Validation, RMSECV)是其重要指标,衡量模型预测值与实际值之间的差异,通过交叉验证计算,能有效评估模型的泛化能力和稳定性。
连续投影法(SPA):通过逐步选择与已选特征投影距离最大的特征,减少特征之间的多重共线性。先从所有特征中选择一个作为起始点,每一步迭代计算剩余特征在已选择特征集合中的投影,选择与已选特征集合正交距离最大的特征加入特征子集,重复该过程直至选出预设数量的特征,确保选出的特征相互独立、信息冗余最小。均方根误差(Root Mean Square Error of Calibration, RMSEC)为其指标,RMSEC 越小,模型拟合效果越好。
无信息变量消除法(UVE):通过多次偏最小二乘回归建模评估每个变量的重要性和稳定性,计算每个变量在多次建模中的回归系数,得到其均值和标准偏差,根据变量的重要性和稳定性,去除对模型预测贡献较小的变量,保留最具代表性的特征。
随机森林(RF):是一种集成学习方法,通过构建多个决策树并综合它们的预测结果,提高分类的准确性和鲁棒性。从训练数据中随机抽取多个子样本,在每个子样本上训练一棵决策树,每个节点随机选择部分特征进行分裂。预测时,每棵决策树输出一个预测类别,最终预测类别为被最多决策树选择的类别,即采用多数投票。
极度梯度提升树(XGBoost):基于梯度提升框架的机器学习算法,训练过程中逐步构建多个决策树,每个新树通过优化前一轮模型的残差提高整体预测精度。每次迭代使用二阶泰勒展开近似优化损失函数,并引入正则化项控制模型复杂度,防止过拟合。
逻辑回归(LR):通过线性回归模型估计二分类问题中样本属于某一类别的概率,将线性组合的结果映射到 0 到 1 之间的概率值。处理多分类问题时通常使用 Softmax 函数,对多个类别进行归一化处理,将每个类别的得分转换为概率值,确保所有类别的概率和为 1,实现多分类。
对原始光谱数据分别进行 CWT、SG、SNV 预处理,得到预处理前后的光谱平均反射强度曲线,不同处理方式下的光谱曲线存在差异,预处理方法对光谱数据的优化效果各不相同。
对3种预处理后的全波段光谱数据分别建立 RF、XGBoost 和 LR 分类模型,将原始光谱数据和经过预处理后的光谱数据进行比较。
不同预处理方法对食用油分类模型性能的影响存在显著差异。SNV 预处理效果最佳,在 RF 模型中准确率和精确率分别达到 83.33% 和 84.01%,在 LR 模型中也达到 83.33% 和 83.79%,展现出在消除食用油样本间差异和提取有效特征方面的优势。CWT 在 XGBoost 模型中表现较为出色,准确率和精确率分别为 80.21% 和 81.33%。相比之下,RAW 数据(未经预处理的原始数据)整体表现优于 SG,可能是因为 SG 的平滑处理未能有效保留食用油光谱中的重要特征,甚至可能引入信息损失。RAW 作为未经处理的原始数据,保留了数据的完整性,适合用于初步分析,以评估其他预处理方法的效果,而 SNV 能够显著提高食用油分类性能,是本研究中的最佳预处理选择。
由全波段的分类识别结果可知 SNV 能得到良好的预处理效果,因此采用 SPA、CARS 和 UVE 分别对 SNV 预处理后的食用油光谱数据进行特征波段筛选。
CARS 算法的蒙特卡洛迭代次数设置为 50,最大主成分数设置为 8,使用 10 折交叉验证法对训练集进行特征筛选,在固定的训练集上训练模型,测试集用于性能评估,以 RMSECV 最小值对应的变量个数作为特征波段数量。特征波段变量数目随着采样次数逐步增加而减少,在第 14 次迭代时,RMSECV 达到最低点 0.42,经过 CARS 筛选的特征波段数量为 91,占原始数据的 25.21%。
SPA 算法的初始变量为随机选择,最大变量数设为 200。随着变量数目增加,RMSEC 先下降后减缓下降,当变量个数为 197 时,RMSEC 为 0.52,此时该数量波段为最佳特征。
UVE 算法迭代次数为 200,采用 10 折交叉验证法,得到的特征波段共计 38 个,占原始数据的 10.53%。特征稳定性随着索引的变化呈现一定的波动趋势,UVE 剔除波动较大的特征波段,保留稳定性较高的关键波段。
从特征波段选择方法来看,CARS 显著优于 SPA 和 UVE,在所有食用油分类模型中均表现最优,表明其能有效提取食用油光谱中的关键特征;UVE 次之,准确率和精确率等都能达到 90% 以上;SPA 也能提升分类表现,但整体效果较前两者稍有逊色。
三种分类模型中,RF 表现最佳,尤其是在 CARS 特征筛选后,其准确率、精确率、召回率和 F1 分数均达到最高,展现出极强的鲁棒性和对食用油光谱特征的捕捉能力;XGBoost 次之,但在 CARS 和 UVE 方法下表现略有下降,表明其对食用油特征波段选择的依赖性较高;LR 在所有波段筛选方法下的表现相对较弱,尤其在经过 SPA 和 UVE 预处理的数据集中,可能是因为高维的食用油光谱数据复杂性超出了其线性建模能力的限制。
综上,SNV - CARS - RF 方法在食用油光谱分类任务中具有最佳性能,适用于复杂食用油光谱数据的高精度分析。
混淆矩阵是可视化分类结果的有效方法,能直观展示分类模型在不同类别食用油上的表现。Label 1、Label 2、Label 3、Label 4 分别对应纯山茶油、低度掺伪食用油、中度掺伪食用油、高度掺伪食用油。
在原始数据 RAW 下,分类模型的整体表现较为一般,受到不同类别食用油间特征重叠的显著影响。整体来看,三种模型对纯山茶油和高度掺伪食用油两类表现较为良好,但个别纯山茶油样本被误分类,而对低度掺伪食用油和中度掺伪食用油的分类效果并不理想,存在将两种类型误分类的现象,特别是将较多的低度掺伪食用油识别为中度掺伪食用油。特征冗余和噪声可能限制了模型的分类能力,由此可见,预处理和特征筛选对提升食用油分类模型性能至关重要。
经过 SNV 预处理的数据,通过 CARS 波段筛选后,在三种分类模型里有效减少了不同类别食用油间的混淆,分类模型的整体性能相较于 RAW 显著提高,特别是针对低度掺伪食用油和中度掺伪食用油的误分类现象明显改善。其中,SNV - CARS - RF 能够实现 97.92% 的准确率、98.08% 的精确率、97.92% 的召回率、0.98 的 F1 指标,较 RAW - RF 分别提高 18.75%、19.22%、18.75%、0.19,是最佳的食用油分类模型。
本研究围绕掺伪食用油行业快速鉴别展开,通过高光谱成像技术获取不同浓度食用油的高光谱数据,经光谱预处理、特征波段筛选、建模分析等步骤,得出以下结论:
第一,对比不同预处理方法在全波段的识别效果,建立了 RAW、CWT、SG、SNV 的全波段模型。其中,SNV 能有效消除食用油样本的散射效应和粒度变化带来的影响,增强信号一致性和对比度;CWT 对改善食用油分类效果较为有限;SG 未能有效保留食用油光谱中的重要特征,因此选择 SNV 作为预处理方法。
第二,采用 CARS、SPA、UVE 对 SNV 处理后的食用油光谱数据进行特征波段提取,发现 CARS 优于 SPA、UVE,尤其与 RF 结合时,展现出在高维食用油光谱数据处理中的优越性。在分类模型方面,XGBoost 对食用油特征筛选的依赖性高于 RF,而 LR 受限于线性建模能力,在复杂的食用油光谱数据中表现相对 RF 较弱,综上,最佳分类模型为 SNV - CARS - RF。
第三,SNV - CARS - RF 模型最适用于鉴别掺伪山茶油,这一结果证明高光谱成像技术对食用油掺伪的快速无损鉴别具有可行性和参考价值,同时也为相关部门打击掺伪食用油行为提供了新的思路和方法,为保障公众健康和打击经济犯罪提供了重要支持,对推动2025年食用油行业技术发展、提升食用油安全检测水平具有重要意义。

