應用方向:基于該文獻,高光譜技術的應用方向主要體現(xiàn)在茶葉等農產(chǎn)品的品質鑒別、產(chǎn)地溯源、防偽識別和質量分級等方面。具體而言,高光譜成像能夠同時獲取茶葉的光譜與空間信息,可用于識別不同產(chǎn)區(qū)普洱熟茶之間由生長環(huán)境、加工方式和化學組成差異所帶來的特征差別,從而實現(xiàn)茶葉產(chǎn)地的快速、無損判別;同時,這種技術也適合用于地理標志農產(chǎn)品真?zhèn)舞b別、市場摻假檢測以及品質一致性評價。文中還表明,將高光譜與卷積神經(jīng)網(wǎng)絡等智能算法結合后,可進一步提升復雜農產(chǎn)品識別的精度與泛化能力,因此其應用不僅限于茶葉產(chǎn)地識別,還可拓展到食品質量安全檢測、農產(chǎn)品分類分級、成分分析及在線智能檢測等方向,為農產(chǎn)品加工、流通監(jiān)管和品牌保護提供技術支持。
導讀
背景:普洱熟茶具有較高的經(jīng)濟價值和明顯的產(chǎn)地差異,但市場中產(chǎn)地造假、以次充好和地理標志冒用等問題較為突出。茶葉的風味、香氣和營養(yǎng)特性與其生長環(huán)境密切相關,諸如土壤結構、養(yǎng)分、降水、溫度、光照和海拔等因素都會影響茶葉內部化學成分,從而導致不同產(chǎn)區(qū)茶葉在品質和價格上的顯著差異。尤其是帶有地理標志的茶產(chǎn)品,通常市場價格更高,因此更容易成為造假對象,這使得建立可靠的產(chǎn)地識別方法具有重要現(xiàn)實意義。
與此同時,傳統(tǒng)的普洱熟茶產(chǎn)地鑒別方式存在明顯局限。目前行業(yè)中常依賴人工感官評定,根據(jù)外觀和香氣判斷茶葉品種和來源,但這種方法主觀性強,缺乏一致性和可重復性。現(xiàn)代儀器分析方法如LC-MS、ICP-MS、GC-MS和NMR雖然具有較高可靠性,但通常需要專業(yè)人員操作、樣品前處理復雜、試劑消耗較多、檢測周期較長,難以滿足茶葉流通與市場監(jiān)管中對快速、現(xiàn)場、無損檢測的需求。
在此背景下,高光譜成像技術因能夠同時獲取樣品的空間信息與光譜信息而受到關注。與傳統(tǒng)單點光譜技術相比,高光譜成像可以對樣品整體進行無損檢測,并通過后續(xù)特征提取與建模挖掘其中的判別信息,因此在農產(chǎn)品品質檢測領域展現(xiàn)出明顯優(yōu)勢。已有研究已將高光譜技術應用于茶葉成分檢測和品種識別,但多數(shù)方法仍采用“人工提取特征+傳統(tǒng)分類器"的策略,這種將特征提取與分類分離的方式,可能導致信息壓縮和識別精度受限。
因此,作者利用高光譜成像結合卷積神經(jīng)網(wǎng)絡,構建了一種針對普洱熟茶產(chǎn)地的快速、無損且高精度識別方法。作者認為,CNN具備從高維、高非線性數(shù)據(jù)中自動提取全局和局部特征的能力,相比傳統(tǒng)機器學習更適合處理高光譜數(shù)據(jù)?;谶@一認識,本文嘗試將近紅外高光譜成像與AlexNet模型結合,用于普洱熟茶產(chǎn)地識別,以彌補現(xiàn)有研究在普洱熟茶產(chǎn)地判別方面的不足,并為茶葉市場防偽和品質監(jiān)管提供新的技術手段。
作者信息:陳滿驕,四川輕化工大學,碩導
期刊來源:Journal of Food Composition and Analysis
研究內容
本文以普洱熟茶產(chǎn)地的快速、無損識別為研究目標,旨在解決傳統(tǒng)人工感官鑒別主觀性強、理化分析方法復雜低效的問題。為此,研究構建了一種基于近紅外高光譜成像(HSI)與深度學習相結合的識別方法:首先采集不同產(chǎn)區(qū)茶葉的高光譜圖像,并通過黑白校正、異常樣本剔除及光譜預處理提升數(shù)據(jù)質量;隨后提取一維光譜數(shù)據(jù)與二維灰度圖像數(shù)據(jù),并以二維灰度圖作為輸入構建改進的AlexNet卷積神經(jīng)網(wǎng)絡模型,實現(xiàn)對茶葉產(chǎn)地特征的自動學習與分類;同時,建立PLS-DA和SVM模型作為對比,評估深度學習方法的優(yōu)勢;最后結合t-SNE對特征進行可視化分析,并通過外部驗證集檢驗模型的泛化能力。
實驗設計
該研究所用茶樣為后發(fā)酵普洱熟茶,原料采自六大普洱茶主產(chǎn)區(qū)的認證茶園鮮葉,經(jīng)發(fā)酵制得,分別為:臨滄茶區(qū)冰島(BD)、勐海茶區(qū)班章(BZ)、易武茶區(qū)宮廷易武(GT)、保山茶區(qū)高黎(GL)、思茅茶區(qū)景邁(JM)以及大理茶區(qū)下關沱茶(XG)。每種茶取15 g作為一個樣本,總計90 g。為驗證預測模型的性能,每種茶額外采集約200片茶葉用于構建驗證集。
該研究中的HSI系統(tǒng)由GaiaField-N17E-HR光譜相機(江蘇雙利合譜科技有限公司)、四組50 W鹵素光源(OSRAM ,德國)以及配備高光譜采集軟件的計算機組成。近紅外相機的工作光譜范圍為886.00–1735.34 nm,空間分辨率為640 × 666像素,光譜分辨率為1.7 nm,包含512個光譜波段。為獲取清晰準確的圖像,系統(tǒng)參數(shù)設置如下:相機曝光時間為2.5 ms;圖像紅、綠、藍值分別為928.19、935.46和916.67;掃描速度為0.65 mm/s;相機增益為1。數(shù)據(jù)采集時,將0.5克茶葉樣品置于直徑120 mm、高度15 mm的培養(yǎng)皿中進行高光譜圖像采集,每片茶葉作為樣本。每種茶葉品種采集30張圖像,共計獲得180張(30 × 6 = 180)高光譜圖像。最終使用光譜采集軟件(SpecVIEW)對采集的高光譜圖像進行校準,并保存校準后的圖像。
采集的高光譜樣本包含待測樣本(即茶葉)及無用背景信息。但由于普洱熟茶葉片形狀不規(guī)則且顏色與背景相似,難以實現(xiàn)背景與茶葉的完*分離。為此,研究采用大津閾值算法結合分水嶺算法對茶葉進行背景分割,從而獲得目標感興趣區(qū)域(ROI),并從中提取數(shù)據(jù)。最終提取出兩類數(shù)據(jù):(1)一維光譜數(shù)據(jù);(2)二維灰度圖像數(shù)據(jù)。其中光譜數(shù)據(jù)通過計算ROI內所有像素點的平均光譜值獲得。
研究方法
為進一步提升數(shù)據(jù)質量并增強模型性能,研究采用孤立森林(IF)算法進行異常數(shù)據(jù)剔除,關鍵參數(shù)設置如下:樹數(shù)量為100,每棵樹樣本數(shù)為512,污染比為0.1,異常分數(shù)閾值設為0.5(分數(shù)低于0.5視為正常數(shù)據(jù),高于0.5視為異常數(shù)據(jù))。
環(huán)境光干擾和電子噪聲等干擾因素可能導致高光譜數(shù)據(jù)產(chǎn)生噪聲,進而影響預測模型的性能與準確性。研究采用SG卷積平滑法、多元散射校正(MSC)及標準正態(tài)變異(SNV)三種方法,對茶葉樣本的二維灰度圖像數(shù)據(jù)和一維光譜數(shù)據(jù)進行預處理。此外,作者還探索了MSC+SG疊加預處理方法在構建普洱熟茶地理原產(chǎn)地預測模型中的應用價值。
高光譜數(shù)據(jù)通常包含數(shù)百個波段,其中可能存在大量信息高度相關的冗余波段。研究采用兩種混合特征選擇方法:區(qū)間偏最小二乘法-變量組合群體分析迭代保留信息變量法(iPLS- VCPA - IRIV)和區(qū)間偏最小二乘法-變量重要性投影迭代保留信息變量法(iPLS-VIP- IRIV),從原始及預處理光譜數(shù)據(jù)中提取相關特征波長。
在模型構建方面,深度學習方法采用的是是AlexNet。由于AlexNet為二維CNN模型,故從茶葉高光譜圖像中提取二維灰度圖像數(shù)據(jù)以匹配模型輸入格式。為確保模型識別精度,對網(wǎng)絡進行兩處改進:單GPU訓練與模型深度調整。該模型共包含8層(圖1),其中1–5層為卷積層(Conv1–Conv5),6–8層為全連接層(FC6–FC8)。為抑制過擬合,Conv1–Conv5后采用ReLU激活函數(shù),F(xiàn)C6與FC7后引入Dropout正則化。

圖1. AlexNet模型結構
為比較AlexNet深度卷積神經(jīng)網(wǎng)絡在預測普洱茶葉地理來源時的計算性能與預測精度,該研究基于茶葉的一維光譜數(shù)據(jù)構建了兩種傳統(tǒng)機器學習模型——偏最小二乘判別分析法(PLS-DA)和支持向量機(SVM)。PLS-DA采用網(wǎng)格搜索法遍歷所有可能的參數(shù)組合,以確定*優(yōu)潛在變量數(shù)。 SVM 模型中的核參數(shù)g和懲罰系數(shù)C等參數(shù)均通過網(wǎng)格搜索法進行優(yōu)化。采用準確率(Acc)作為評估分類模型性能的指標。
為驗證AlexNet模型特征提取的有效性,研究采用t-SNE算法對高維特征數(shù)據(jù)進行可視化分析。將AlexNet模型最后一層的特征向量通過t-SNE映射至二維空間。若所得數(shù)據(jù)分布呈現(xiàn)清晰邊界,則表明數(shù)據(jù)已實現(xiàn)有效聚類。
結果
茶葉樣品原始光譜曲線中光譜在起始與結束處存在嚴重畸變。為消除這些畸變,對從茶葉高光譜圖像中提取的原始光譜數(shù)據(jù)進行波段相關性分析,閾值設定為0.7。BD與GT茶樣的波段相關性結果分別見圖2(a)和(b)。分析發(fā)現(xiàn),BD與GT具有高度相似性,高相關紅色區(qū)域對應的波段占全波段的93.75%,而其他顏色區(qū)域僅占6.25%。據(jù)此,剔除相關系數(shù)低于0.7的32個波段(886.00–890.99 nm和1692.12–1735.34 nm),保留信噪比(S/N)較高的波段(894.31–1690.46 nm)用于后續(xù)分析。

圖2. 基于全波段的波段相關性分析結果:(a) BD;(b) GT。
圖3(a)和3(b)分別展示了“BD"與“GT"兩個茶葉品種中正常樣本與異常樣本的光譜曲線。光譜曲線的頂部和底部被歸類為異常樣本,而正常樣本的光譜曲線則均勻分布于中間區(qū)域,曲線整體分布較為雜亂。如圖3(b)所示,一些光譜曲線呈現(xiàn)明顯異常趨勢的樣本也被成功識別并歸類為異常樣本,說明IF算法能夠有效識別并剔除各類茶葉樣本光譜數(shù)據(jù)中的異常信息。

圖 3:異常樣本的光譜曲線:(a) BD 品種;(b) GT 品種。
圖 4 展示了六種不同茶葉品種的平均光譜曲線。由于這六個品種均為普洱熟茶,內部成分相似,因此其光譜整體趨勢大致相同。其中,BZ、GL、JM 和 XG 四個品種的整體光譜反射率高于另外兩個品種。然而,局部圖譜顯示,在 900–960 nm 波段范圍內,BZ 品種的光譜反射率低于其他幾個品種。

圖 4:茶葉樣品的平均反射光譜
AlexNet 模型的超參數(shù)設定為:學習率為 0.00001,迭代次數(shù)為 300,mini-batch 大小為 64。在剔除異常數(shù)據(jù)后,采用SG、MSC、SNV以及 MSC+SG對光譜數(shù)據(jù)進行預處理,并由此生成二維灰度圖像。隨后,利用原始灰度圖像與預處理后的灰度圖像分別構建 AlexNet 模型,以探究預處理對 AlexNet 預測模型準確率的影響。在測試集中,基于 MSC+SG 方法預處理后的數(shù)據(jù)所構建的 AlexNet 預測模型表現(xiàn)最佳,其準確率達到 95.66%,比使用未處理數(shù)據(jù)構建的同一模型高出 2.98%。
在CNN中,若第一層卷積核尺寸過大,可能會忽略圖像中的微小特征,導致初始特征提取不夠精細;反之,若卷積核尺寸過小,則可能在初始特征提取階段缺乏全局信息,從而影響后續(xù)層級的特征提取效果。該研究中,第一層卷積核的原始尺寸為 9×9。為了判斷該尺寸是否合理,另外采用了三種不同尺寸的卷積核(11×11、6×6 和 3×3)進行對比實驗。總體而言,第一層卷積核尺寸為 9×9 時,所構建的 CNN 模型具有最高的準確率。
圖 5(a) 展示了訓練前各茶葉品種特征的 t-SNE 可視化結果。BD 和 GT 兩個茶葉品種形成了較為緊湊的聚類,而其他四個品種的樣本則聚集在一起。所有茶葉品種的特征位置分布雜亂,且存在顯著的重疊,表明這六個茶葉品種在訓練前的數(shù)據(jù)無法直接對每個品種進行分類。然而,在訓練之后,可以明顯看出,同一茶葉品種的特征聚類非常緊密,各品種之間的邊界清晰、距離分明,僅有少數(shù)茶葉樣本被錯誤地分布到其他聚類中(圖 5(b))。這一結果表明,同一品種普洱茶的特征能夠被有效識別,AlexNet 模型可以區(qū)分不同茶葉品種的特征,從而實現(xiàn)分類。

圖 5:訓練前后高維特征的 t-SNE 可視化結果:(a) 訓練前;(b) 訓練后
與輸入CNN模型的二維灰度圖像類似,該研究對各類茶葉樣本的一維平均光譜數(shù)據(jù)也采用了相同的四種預處理方法(SG、MSC、SNV 以及 MSC+SG)進行處理。隨后,利用原始光譜數(shù)據(jù)和預處理后的光譜數(shù)據(jù)分別構建了兩種機器學習模型——PLS-DA 和 SVM,以探索光譜數(shù)據(jù)的最佳預處理方法。在測試集上的分析結果表明,基于預處理后的光譜數(shù)據(jù)所構建的 PLS-DA 和 SVM 模型,其性能均優(yōu)于基于原始光譜數(shù)據(jù)構建的對應模型。采用 SG 算法預處理后的光譜數(shù)據(jù)所構建的模型準確率最高,SVM 和PLS-DA模型分別達到了89.41%和 87.44%。因此,后續(xù)分析中采用 SG 方法對一維光譜數(shù)據(jù)進行預處理。
該研究采用兩種特征波長篩選算法——iPLS-VCPA-IRIV 和 iPLS-VIP-IRIV——從光譜數(shù)據(jù)中提取特征波長。iPLS-VCPA-IRIV 和 iPLS-VIP-IRIV 算法分別從全光譜數(shù)據(jù)集中提取了 11 個和 10 個特征波長(如圖 6 所示)。所選特征波長主要集中在 900–1000 nm、1400–1450 nm 以及 1500–1650 nm 波段。

圖 6:不同提取方法的特征波長分布結果:(a) iPLS-VCPA-IRIV;(b) iPLS-VIP-IRIV。
基于不同特征篩選算法提取的數(shù)據(jù)以及全光譜數(shù)據(jù),分別構建了 PLS-DA 和 SVM 兩種模型。將使用特征波長構建的 PLS-DA 和 SVM 模型的準確率與使用全光譜數(shù)據(jù)構建的對應模型進行比較,發(fā)現(xiàn)經(jīng)過特征提取后,兩種模型的性能均有所下降。總體而言,盡管特征提取方法極大地簡化了模型,但并未優(yōu)化基于一維數(shù)據(jù)的機器學習模型的性能。
之后,比較了AlexNet模型及兩種機器學習模型識別六種茶葉品種的準確率。AlexNet模型在訓練集分析中的準確率均超過99.7%。SVM 與PLS-DA模型的準確率分別約為93%和91%,這兩種機器學習模型在識別六種茶葉品種特征差異方面仍不及CNN。測試集中AlexNet模型的最佳準確率達95.66%,而 SVM 與PLS-DA模型的最佳準確率分別為89.41%和87.44%,且兩種機器學習模型在特征提取后性能進一步下降。因此AlexNet模型在普洱茶品種識別中表現(xiàn)優(yōu)于 SVM 與PLS-DA模型,這歸因于CNN對數(shù)據(jù)特征的高效提取能力。
為了評估基于各類普洱茶樣品二維灰度圖數(shù)據(jù)所構建的 AlexNet 模型的泛化能力,該研究將外部驗證集輸入該模型進行分析,識別結果如圖 7 所示。模型在對包含六個茶葉品種(BD、BZ、GL、GT、JM 和 XG)的驗證集進行分析時,準確率分別為 100%、97%、97.5%、98%、96.5% 和 97%。從圖 7 中可以直觀地看出,除 BD 外,其他五個品種的普洱茶均存在少量誤判。所有茶葉品種的分類錯誤數(shù)量均在 0 至 7 個樣本之間,準確率均高于 96.5%,表明 AlexNet 模型的整體分類效果優(yōu)異。

圖 7:茶葉驗證集識別結果可視化
結論
該研究探索了一種利用HSI技術結合CNN識別普洱熟茶產(chǎn)地的方法。首先,對各類茶葉的高光譜數(shù)據(jù)進行波段相關性分析,剔除首尾異常波段,保留信噪比較高的波段(894.31–1690.46 nm)。其次,采用IF算法剔除異常光譜數(shù)據(jù)。然后,基于茶葉樣本的原始及預處理后的二維灰度圖像數(shù)據(jù)構建 AlexNet 模型,以確定*優(yōu)預處理方法(MSC+SG)。接著,構建具有不同第一層卷積核尺寸的 AlexNet 模型,發(fā)現(xiàn) 9×9 尺寸的模型性能最佳。同時,通過 t-SNE 對最后一層特征進行可視化,展示了模型的分類性能。隨后,利用一維平均光譜數(shù)據(jù),采用兩種傳統(tǒng)機器學習模型(PLS-DA 和 SVM)進行建模,并通過數(shù)據(jù)預處理和特征波長提取對模型進行優(yōu)化。將優(yōu)化后的機器學習模型與 AlexNet 模型進行比較,結果表明,AlexNet 模型在測試集上的準確率達到 95.66%,分別比 SVM 和 PLS-DA 模型高出 6.25% 和 8.22%。研究結果表明,基于高光譜成像與深度學習技術的普洱茶鑒別方法在茶葉產(chǎn)地及品質識別方面具有顯著優(yōu)勢,尤其適用于解決市場上存在的普洱茶假*問題。該技術的應用不僅能夠有效防止假*普洱茶進入市場,還能增強消費者對普洱茶品質的信任,進一步促進茶產(chǎn)業(yè)的健康發(fā)展。
立即詢價
您提交后,專屬客服將第一時間為您服務