基于高光谱技术的培养基上细菌菌落分类方法研究

余伟 彭宽宽 陈伟 穆渴心 谭臣 王湘如 冯耀泽

引用本文: 余伟,  彭宽宽,  陈伟,  穆渴心,  谭臣,  王湘如,  冯耀泽. 基于高光谱技术的培养基上细菌菌落分类方法研究[J]. 分析化学, 2016, 44(8): 1221-1226. doi: 10.11895/j.issn.0253-3820.160053 shu
Citation:  YU Wei,  PENG Kuan-Kuan,  CHEN Wei,  MU Ke-Xin,  TAN Chen,  WANG Xiang,  FENG Yao. Classification of Bacterial Colonies on Agar Plates Using Hyperspectral Imaging Technology[J]. Chinese Journal of Analytical Chemistry, 2016, 44(8): 1221-1226. doi: 10.11895/j.issn.0253-3820.160053 shu

基于高光谱技术的培养基上细菌菌落分类方法研究

  • 基金项目:

    本文系国家自然科学基金(No.31502062)、中央高校基本科研业务专项基金(Nos.2662015PY051,2015BQ018)和华中农业大学国家级大学生创新创业训练计划(No.201510504063)资助项目

摘要: 利用高光谱技术对培养基上细菌(大肠杆菌、李斯特菌和金黄色葡萄球菌)菌落进行快速识别和分类。采集琼脂培养基上细菌菌落的高光谱反射图像(390-1040 nm),在对波段差图像进行大津阈值分割的基础上自动提取细菌菌落光谱,并建立细菌分类检测的全波长和简化偏最小二乘判别(PLS-DA)模型。全波长模型对预测集样本的分类准确率和置信预测分类准确率分别为100%和95.9%。此外,利用竞争性自适应重加权算法(CARS)、遗传算法(GA)和最小角回归算法(LARS-Lasso)进行波长优选并建立对应简化模型。其中,CARS简化模型在精度、稳定性及分类准确率方面均优于GA和LARS-Lasso简化模型,其对预测集样本的分类准确率和置信预测分类准确率分别达到了100%和98.0%。研究表明,高光谱是一种细菌菌落高精度、快速、无损识别检测的有效方法。简化模型中优选的波长可以为开发低成本检测仪器提供理论依据。

English

  • 细菌普遍存在于各种环境中,对人类生活有巨大影响。有益菌能够促进人类健康,而致病菌则会通过污染食品对人类造成伤害。此外,因为对问题食品的召回和销毁亦会导致社会资源的浪费[1, 2]。因此,对细菌的检测和识别是非常重要和必要的。经典的细菌检测方法依赖于对细菌形态、大小及生理特征等的分析。近年,基于聚合酶链式反应[3]、酶联免疫吸附[4]、生物传感器[5, 6]的细菌检测方法有了突飞猛进的发展。然而,虽然上述几种方法对细菌分类准确率非常高,但大多耗时、耗力,且需要专业人员进行复杂繁琐的实验操作,远不能满足现代细菌高通量分类检测的需求。

    高光谱技术集光谱技术和图像技术于一身,可以实现物料的快速、无损检测[7~16],其在细菌菌落快速识别和检测中具有广阔的应用前景[17]。Yoon等[18]运用高光谱成像技术对培养基上的弯曲杆菌和非弯曲杆菌进行分类,利用波段比算法对细菌进行分类,分类准确率达到了97%~99%。他们还运用高光谱技术对6种非O157型大肠杆菌进行分类,在像素水平上对细菌的分类准确率达到了95%,在菌落水平上对细菌的分类准确率达到了97%[19]。上述研究在建立简化模型时多采用主成分分析法进行波长选择,并不能保证所选波长与细菌类别差异的对应性,且波长人为选定,很难保证模型的最优化。为进一步提高细菌分类准确率,可应用多种波长选择方法对特征波长进行优选。此外,将高光谱成像技术运用于细菌菌落分类检测鲜见报道。因此,本研究利用高光谱技术对大肠杆菌、李斯特菌和金黄色葡萄球菌3种细菌进行分类,在建立全波长模型的基础上,应用多种波长选择方法进行特征波长优选,并建立基于这些特征波长的简化模型,最终通过比较模型性能建立培养基上细菌菌落分类的快速、无损检测方法。

    实验所用细菌(金黄色葡萄球菌、单核细胞增生李斯特氏菌和大肠埃希氏菌)均采集于华中农业大学农业微生物学国家重点实验室。将低温(-80℃)储存在甘油中的3种细菌划线接种于胰蛋白胨大豆琼脂平板(TSA,BD,USA)上,并于37℃活化培养22~24 h。挑取形态较好的单菌落接种于3 mL胰蛋白大豆肉汤(TSB,BD,USA)中,于37℃条件下培养18~20 h。取0.1 mL菌液接种于培养皿中,加入10~15 mL TSA(45℃±0.5℃)使菌液均匀分布,待琼脂凝固后,将平板倒置,于36℃±1℃条件下培养24 h±2 h,所得到3种细菌菌落平板备高光谱图像采集用。

    所用细菌菌落反射高光谱图像采集系统结构如文献[20]所述。该系统由高光谱成像仪(SPECIM, V10E, 芬兰)、卤素光源(OSRAM,DECOSTAR51,MR16,德国)、计算机、高精度电控移动平台(北京卓立汉光仪器有限公司)等组成,其波长扫描范围为390~1040 nm,波段数为520个,光谱分辨率为2.8 nm,并设置系统相关参数如下:光谱采样间隔为1.25~1.26 nm、摄像头曝光时间为100 ms、移动平台的移动速度为2 mm/s并调节高光谱相机与培养基的距离至400 mm。

    为确定系统的动态范围和不同信号的定量化对比,分别遮住镜头和使用标准白板采集黑、白板图像,并依公式(1)对图像进行校正,获得样本校正图像。

    式中,R0为校正图像,R为原始图像,W为白板图像,D为黑板图像。

    为提取培养基上细菌菌落的光谱信息,为模型的建立做准备,在Matlab2010a(MathWorks,USA)中通过波段减法得到细菌菌落和背景培养基差别明显的灰度图像,在此基础上运用大津阈值分割法(最优分割阈值为0.215)将灰度图像二值化,得到原始图像的掩膜图像。通过掩膜图像中菌落所在位置提取原始图像中细菌菌落的光谱数据信息,并分别将获得的3种细菌的光谱数据划分为校正集和预测集两部分。用校正集建立模型,预测集用于验证模型的性能。样本集组成如表 1所示。

    表 1

    表 1  校正集和预测集样本
    Table 1.  Samples in calibration and prediction set
    下载: 导出CSV
    数据集Data set大肠杆菌Escherichia coli(E. coli)李斯特菌Listeria monocytogenes(LM)金黄色葡萄球菌Staphyloccocus aureus(SAU)总数Total
    校正集Calibration set353035110
    预测集Prediction set25101449
    总数Total704049159

    偏最小二乘法(PLS)是一种建立多因变量对多自变量的回归建模的多元数据分析方法,集主成分分析、典型相关分析和多元线性回归分析的优点于一身,可以减少噪音和多重共线性数据的影响,改善模型的质量[21, 22]。本研究利用校正集建立偏最小二乘判别(PLS-DA)模型,并运用建立的模型对预测集样本进行预测。通过校正决定系数(Rc2)、交叉验证决定系数(Rcv2)、预测决定系数(Rp2)、校正均方根误差(RMSEc)、交叉验证均方根误差(RMSEcv)、预测均方根误差(RMSEp)和总分类准确率(OCCR)等性能评定指标来评价模型的性能。决定系数越大,均方根误差越小,分类准确率越高,模型的性能越好;反之,则越差。在预测值的基础上,计算样本预测偏差[23]用以表征预测置信区间。当且仅当预测样本的置信区间完全包含于理想预测范围之内时,才认为该样本预测正确,而据此标准评判所得预测准确率称为置信预测准确率,其可用来衡量样本分类可靠性[24, 25]

    为减少高光谱图像中的冗余数据并同时减少计算量,有必要对特征波长进行选择[26]。本研究采用竞争性自适应重加权算法(CARS)、遗传算法(GA)和最小角回归算法(LARS-Lasso)对波长进行选择,并建立基于优选特征波长的简化模型。竞争性自适应重加权算法(CARS)通过自适应重加权采样(ARS)技术选择PLS模型中回归系数绝对值最大的波长点,再利用交叉验证选出RMSEcv最小的子集即为选择的波长[27]。遗传算法(GA)是一种模拟自然进化过程,利用选择、交换和突变等操作选择出使目标函数值最大的个体作为最优波长的方法。最小角回归算法(LARS-Lasso)是Efron等[28]在Lasso变量选择[29]的基础上发展的一种新的变量选择方法,能避免一些重要变量的遗漏,且可加快选择速度。

    图 1为校正图像的掩膜图像,黑色区域为已经屏蔽掉的背景以及其他干扰因素区域,白色区域为分割得到的细菌菌落区域。用掩膜图像中细菌菌落所在的位置定位原始高光谱图像中细菌菌落所在的位置,从而提取出每个细菌菌落的光谱数据信息。培养基中3类细菌菌落的平均光谱如图 2所示。从图 2可见,3种细菌菌落的光谱具有相似的变化趋势,在425, 510和680 nm处有明显的波峰,但3种细菌菌落对光的反射率存在着较大的差别。其中,大肠杆菌(E.coil)的反射率明显低于李斯特菌(LM)和金黄色葡萄球菌(SAU),且在525 nm之前,金黄色葡萄球菌(SUA)的反射率略高于李斯特菌(LM),而在525 nm之后,李斯特菌(LM)的反射率反而稍高于金黄色葡萄球菌(SAU)。

    图 1

    图 1  掩膜图像
    Figure 1.  Mask image

    图 2

    图 2  细菌菌落光谱
    Figure 2.  Spectra of bacterial colonies

    本实验利用偏最小二乘判别分析法建立了基于全波长信息的高光谱细菌菌落分类检测模型。该模型运用了11个潜变量,所得校正、交叉验证、预测决定系数Rc2, Rcv2, Rp2分别为0.96, 0.94和0.95,而对应的均方根误差RMSEc, RMSEcv, RMSEp分别为0.15, 0.19和0.15。3个决定系数均较大且非常接近,而3个均方根误差小而接近,说明所建模型具有较好的稳定性和较高精度。这在模型分类准确率上也有很好的体现,模型校正准确率、预测准确率和置信预测准确率分别为100%, 100%和95.92%。以上结果表明,全波长模型可以对大肠杆菌、李斯特菌和金黄色葡萄球菌菌落进行准确分类。

    采用CARS、GA和LARS-Lasso方法进行特征波长优选,建立相应的偏最小二乘简化模型,建模效果如表 2所示。

    表 2

    表 2  基于不同波长选择方法的简化模型性能
    Table 2.  Performance of simplified models based on different wavelength selection methods
    下载: 导出CSV
    模型Models校正准确率OCCRc*(%)预测准确率OCCRp(%)置信预测准确率Confident OCCR(%)波长数Number of wavelength潜变量数Number of LVs**
    Full wavelength100.0100.095.952011
    CARS100.0100.098.0306
    GA100.0100.083.7197
    LARS-Lasso100.0100.077.6328
    *: OCCR: Overall correct classification rate; **: LV: Latent variable; CARS: Competitive adaptive reweighted siampling; LARS-Lasso: Least angle regression-least absolute shrinkage and selection operator.

    比较3种简化模型对预测集样本的预测精度可知,CARS简化模型的预测决定系数Rp2为最高(0.96),高于GA(0.93)和LARS-Lasso(0.89)两种模型,其预测均方根误差RMSEp为0.15,低于GA模型(0.20)和LARS-Lasso模型(0.23)。因此,在模型精度上,CARS简化模型优于GA和LARS-Lasso两种模型。此外,由表 2可知,3种简化模型的校正准确率和预测准确率均为100.0%,均能对预测样本进行很好的预测,但在置信预测准确率上差别却很大。CARS, GA和LARS-Lasso 3种简化模型的置信预测准确率分别为98.0%, 83.7%和77.6%。比较可得,CARS模型在稳定性、可靠性方面优于其他两种模型。在模型简单度上,虽然GA模型只选用了19个波长,而CARS模型选用了30个波长,但CARS简化模型的潜变量数比GA模型更少,而且CARS模型的置信预测准确率比GA模型高出了17.1%,所以CARS简化模型优于GA简化模型。LARS-Lasso模型选用了32个波长,简化模型的主成分数为8,置信预测准确率只有77.6%,在3种模型中是最差的。综上所述,CARS简化模型要优于GA和LARS两种简化模型。

    全波长模型与CARS简化模型相比,全波长模型的置信预测准确率为95.9%,而CARS为98.0%,简化模型置信预测准确率比全波长高2.1%。此外,CARS简化模型的预测决定系数Rp2为0.96,略高于全波长模型(0.95);CARS简化模型的交叉验证均方根误差RMSEcv为0.17,低于全波长模型(0.19)。因此,CARS简化模型在模型精度及简单度方面均优于全波长模型。因此,通过选用合适的波长选择方法可以提高模型性能。

    图 3为CARS简化模型的校正与预测结果。图 3a为建模所用30个特征波长,分别是415,444,446,453,454,462,464,472,542,551,567,568,570,571,572,575,601,602,603,605,606,607,610,611,625,631,698,744,864和872 nm。图 3b表明,在潜变量数取6时,模型剩余残差平方和最小,此时对应最优模型。图 3c是预测分类结果图,虽然该模型对预测样本的预测准确率达到了100%,但第16个样本(大肠杆菌)的预测置信区间[1.464, 1.97]并未完全包含于大肠杆菌的类别区间[1.5~2.5],即该细菌虽然被正确分类,但其可信度并不是100%,其有可能被误判为单增李斯特菌。经计算,预测集样本置信预测准确率为98.0%,具有较好的置信分类准确度。

    图 3

    图 3  CARS简化模型结果:(a)选择的波长;(b)潜在变量数的选择;(c)预测结果
    Figure 3.  Performance of CARS model. (a) Indication of selected wavelengths; (b) Scree plot for the selection of optimal number of LVs; (c) Model performance for prediction

    本研究采集了大肠杆菌、李斯特菌、金黄色葡萄球菌3种细菌菌落的高光谱图像,并建立了基于偏最小二乘判别分析的细菌菌种水平分类模型。全波长模型可以较好的实现对不同细菌的分类,校正准确率和预测准确率均可达100.0%,而其置信预测准确率也高达95.9%。此外,还建立了基于CARS,GA和LARS-Lasso方法的简化模型,并比较了它们的性能。简化模型均可对3种细菌进行较好的分类,分类准确率均为100%,而CARS模型在稳定性方面要优于其它两种模型,其置信预测准确率为98.0%,甚至高于全波长模型的95.9%。以上结果表明,高光谱技术可以快速无损地对培养基上的细菌菌落进行种水平上的分类检测,为微生物分类检测提供了新的方法,具有广阔的应用前景。特别地,CARS简化模型可以为开发更加低成本、高精度的检测系统提供理论依据。

    1. [1]

      TIAN Jing,LIU Xiu-Mei.J.Chinese Inst.Food Sci.Technol.,2011,11(2):163-168 田静,刘秀梅.中国食品学报,2011,11(2):163-168

    2. [2]

      SUO Yu-Juan,YU Hong-Wei,LING Wei,JIA Ying-Min.J.Chinese Inst.Food Sci.Technol.,2008,8(3):88-93索玉娟,于宏伟,凌巍,贾英民.中国食品学报,2008,8(3):88-93

    3. [3]

      YU Qian,HUANG Meng-Na.Food Res.Dev.,2014,35(19):125-127 余倩,黄梦娜.食品研究与开发,2014,35(19):125-127

    4. [4]

      WU Yan-Hua,NIU Rui-Jiang,LAI Wei-Hua,SHAN Shan,LIU Dao-Feng,NI Xiao-Qin,FENG Rong-Hua.Sci.Technol.Food Ind.,2014,35(10):62-65 伍燕华,牛瑞江,赖卫华,山珊,刘道峰,倪小琴,冯荣华.食品工业科技,2014,35(10):62-65

    5. [5]

      WANG Nai-Fu,WU Dong-Xue,ZHANG Xia,LIU Pei,ZHANG Hai-Ying,GAO Qi-Li.Food Res.Dev.,2014,35(7):5-9 王乃福,吴冬雪,张霞,刘培,张海英,高旗利.食品研究与开发,2014,35(7):5-9

    6. [6]

      WEN Xiao-Xia,XU Bang-Lao,WANG Wei-Xin,LIANG Guang-Tie,CHEN Bin,YANG Yin-Mei,LIU Da-Yu.Chinese J.Anal.Chem.,2014,42(6):791-798 文小霞,徐邦牢,王伟鑫,梁广铁,陈斌,杨银梅,刘大渔.分析化学,2014,42(6):791-798

    7. [7]

      SHI Ji-Yong,ZOU Xiao-Bo,ZHANG De-Tao,CHEN Zheng-Wei,ZHAO Jie-Wen.Transactions of the CSAM,2014,45(11):242-245,278石吉勇,邹小波,张德涛,陈正伟,赵杰文.农业机械学报,2014,45(11):242-245,278

    8. [8]

      ZOU Xiao-Bo,LI Zhi-Hua,SHI Ji-Yong,HUANG Xiao-Wei.J.Food Sci.,2014,35(8):89-93邹小波,李志华,石吉勇,黄晓玮.食品科学,2014,35(8):89-93

    9. [9]

      ZHU Yao-Di,ZOU Xiao-Bo,SHI Ji-Yong,ZHAO Jie-Wen,LIN Hao.Transactions of the CSAE,2014,30(16):320-327 朱瑶迪,邹小波,石吉勇,赵杰文,林颢.农业工程学报,2014,30(16):320-327

    10. [10]

      DING Xi-Bin,ZHANG Chu,LIU Fei,SONG Xing-Lin,KONG Wen-Wen,HE Yong.Spectrosc.Spect.Anal.,2015,35(4):1020-1024 丁希斌,张初,刘飞,宋星霖,孔汶汶,何勇.光谱学与光谱分析,2015,35(4):1020-1024

    11. [11]

      YU Ke-Qiang,ZHAO Yan-Ru,LI Xiao-Li,ZHANG Shu-Juan,HE Yong.Spectrosc.Spect.Anal.,2014,34(2):532-537余克强,赵艳茹,李晓丽,张淑娟,何勇.光谱学与光谱分析,2014,34(2):532-537

    12. [12]

      LI Jiang-Bo,PENG Yan-Kun,CHEN Li-Ping,HUANG Wen-Qian.Spectrosc.Spect.Anal.,2014,34(5):1264-1269 李江波,彭彦昆,陈立平,黄文倩.光谱学与光谱分析,2014,34(5):1264-1269

    13. [13]

      PENG Yan-Kun,ZHANG Lei-Lei.Transactions of the CSAM,2013,44(4):137-145 彭彦昆,张雷蕾.农业机械学报,2013,44(4):137-145

    14. [14]

      ZHANG Ruo-Yu,RAO Xiu-Qin,GAO Ying-Wang,HU Dong,YING Yi-Bin.Transactions of the CSAE,2013,29(23):247-252 张若宇,饶秀勤,高迎旺,胡栋,应义斌.农业工程学报,2013,29(23):247-252

    15. [15]

      Feng Y Z and Sun D W.Crit.Rev.Food Sci.Nutr.,2012,52(11):1039-1058

    16. [16]

      Gowen A A,O'Donnell C P,Cullen P J,Downey G,Frias J M.Trends Food Sci.Technol.,2007,18(12):590-598

    17. [17]

      Gowen A A,Feng Y Z,Gaston E,Valdramidis V.Talanta,2015,137:43-54

    18. [18]

      Yoon S C,Lawrence K C,Line J E,Siragusa G R,Feldner P W,Park B,Windham W R.Sens.Instrum.Food Qual.Safety,2010,4(1):35-49

    19. [19]

      Yoon S C,Windham W R,Ladely S,Heitschmidt G W,Lawrence K C,Park B,Narang N,Cray W C.J.Food Meas.Charact.,2013,7(2):47-59

    20. [20]

      LI Xiao-Yu,KU Jing,YAN Yi-Yun,XU Meng-Ling,XU Sen-Miao,JIN Rui.Transactions of the CSAM,2016,47(3):228-233 李小昱,库静,颜伊芸,徐梦玲,徐森淼,金瑞.农业机械学报,2016,47(3):228-233

    21. [21]

      DING Xi-Bin,LIU Fei,ZHANG Chu,HE Yong.Spectrosc.Spect.Anal.,2015,35(2):486-491 丁希斌,刘飞,张初,何勇.光谱学与光谱分析,2015,35(2):486-491

    22. [22]

      Haaland D M,Thomas E V.Anal.Chem.,1988,60(11):1193-1202

    23. [23]

      Vries S D,Braak C J F T.Chemom.Intell.Lab.Syst.,1995,30(2):239-245

    24. [24]

      Alexandrakis D,Downey G,Scannell A G.J.Agr.Food Chem.,2008,56(10):3431-3437

    25. [25]

      Feng Y Z,Downey G,Sun D W,Walsh D,Xu J L.J.Food Eng.,2015,149:87-96

    26. [26]

      Xie L J,Ying Y B,Ying T J.Chemom.Intell.Lab.Syst.,2009,97(2):141-145

    27. [27]

      LI Jiang-Bo,GUO Zhi-Ming,HUANG Wen-Qian,ZHANG Bao-Hua,ZHAO Chun-Jiang.Spectrosc.Spect.Anal., 2015,35(2):372-378 李江波,郭志明,黄文倩,张保华,赵春江.光谱学与光谱分析,2015,35(2):372-378

    28. [28]

      Efron B,Hastie T,Johnstone I,Tibshirani R.Ann.Stat.,2004,32(2):407-451

    29. [29]

      Tibshirani R.J.Royal.Statist.Soc.,1996,58(1):267-288

  • Figure 1  Mask image

    Figure 2  Spectra of bacterial colonies

    Figure 3  Performance of CARS model. (a) Indication of selected wavelengths; (b) Scree plot for the selection of optimal number of LVs; (c) Model performance for prediction

    Table 1.  Samples in calibration and prediction set

    数据集Data set大肠杆菌Escherichia coli(E. coli)李斯特菌Listeria monocytogenes(LM)金黄色葡萄球菌Staphyloccocus aureus(SAU)总数Total
    校正集Calibration set353035110
    预测集Prediction set25101449
    总数Total704049159
    下载: 导出CSV

    Table 2.  Performance of simplified models based on different wavelength selection methods

    模型Models校正准确率OCCRc*(%)预测准确率OCCRp(%)置信预测准确率Confident OCCR(%)波长数Number of wavelength潜变量数Number of LVs**
    Full wavelength100.0100.095.952011
    CARS100.0100.098.0306
    GA100.0100.083.7197
    LARS-Lasso100.0100.077.6328
    *: OCCR: Overall correct classification rate; **: LV: Latent variable; CARS: Competitive adaptive reweighted siampling; LARS-Lasso: Least angle regression-least absolute shrinkage and selection operator.
    下载: 导出CSV
  • 加载中
计量
  • PDF下载量:  13
  • 文章访问数:  1236
  • HTML全文浏览量:  185
文章相关
  • 收稿日期:  2016-01-19
  • 修回日期:  2016-06-06
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章