K近邻算法结合红外光谱对轮胎橡胶颗粒的鉴别研究

桑国通 廖晓曦 何欣龙 王继芬

引用本文: 桑国通, 廖晓曦, 何欣龙, 王继芬. K近邻算法结合红外光谱对轮胎橡胶颗粒的鉴别研究[J]. 化学通报, 2019, 82(1): 87-91. shu
Citation:  Sang Guotong, Liao Xiaoxi, He Xinlong, Wang Jifen. Research on the Tire Rubber Based on K-Nearest Neighbor Algorithm and Infrared Spectroscopy[J]. Chemistry, 2019, 82(1): 87-91. shu

K近邻算法结合红外光谱对轮胎橡胶颗粒的鉴别研究

    通讯作者: 王继芬 女, 教授, 主要从事微量物证与毒物毒品分析方面的研究, E-mail:wangjifen58@126.com
摘要: 在法庭科学领域,轮胎橡胶颗粒的检验鉴别对交通肇事和一些诉讼案件的侦破尤为重要,针对传统取样分析技术会破坏物证的问题和综合考察样本在多变量多维度上的差异性,提出基于红外光谱法结合K近邻算法无损识别轮胎橡胶的鉴别方法。采集不同品牌的样本,对其光谱进行自动基线校正和归一化操作,采用Savitsky-Golay算法平滑去噪,通过降维实现对840个原始特征到5个识别特征的高效筛选,运用训练样本为测试样本的方法进行交互验证,选取K值为1,"特征3"为主要自变量,"特征4"、"特征5"、"特征2"和"特征1"为协变量作为分类参数,按重要性加权特征进行计算样本之间的距离,建立分类模型,模型总分类准确率达83.56%,区分效果良好,结合样本红外谱图展开进一步分析,最终成功将73类样本分为了10类。结果表明,利用红外光谱检测和K近邻算法可实现对轮胎橡胶颗粒的识别与分类,普适性和高效性较强,具有一定的借鉴和参考意义。

English

  • 橡胶颗粒的检验鉴定是法庭科学领域一项重要的工作,在案发现场常会提取到诸多黑色的轮胎橡胶颗粒,通过检验研究,法庭科学工作者可以快速确定橡胶颗粒的种类,判定嫌疑车辆信息,有效缩小侦查方向,为侦查破案提供准确依据。

    轮胎橡胶原料主要有生胶、硫化体系、防护体系、填充补强体系和其他添加剂,其在工农用具、人民生活用车以及国防军工设备等诸多领域都得到了广泛的应用[1]。在法庭科学方面,研究者主要借助仪器分析技术开展橡胶颗粒的鉴别工作,王震等[2]用热重分析法(TGA)和高分辨热裂解-气相色谱-质谱联用法(PGC-MS)研究了轮胎胎面的成分及含量,为轮胎种类鉴定提供了一定的技术支持。

    新的生产设备和技术的涌现对橡胶成品的要求愈发完美,其成分愈发复杂多样,这使得定性检验技术难度加大,加之传统鉴别方法操作较为繁琐,更多是在形态学方面的研究,不能综合考量轮胎橡胶自身包含的特征信息。目前,尚未见到较为完善及普适的相关研究报道。快速简单而又准确的鉴别轮胎橡胶颗粒成为法庭工作者关注的重点。

    红外光谱(FTIR)作为一种快速无损检验技术,一直以来有着十分广泛的应用,刘艳等[3]曾借助FTIR对柳树病叶发生的生理变化展开了有效研究,对今后柳叶病变的预防提供了参考。杨永安等[4]借助FTIR测定并分析了4种松树松针的光谱信息,为今后松树的鉴别和开发利用提供了科学依据。在法庭科学领域物证鉴定中,FTIR不仅可用来确定物证种类,也能作为一种有效的比对检验手段为法庭断案提供证据[5]。就文件检验领域而言,张金庄[6]借助FTIR分析了蓝色和黑色可擦写中性笔的墨水色痕的IR谱图,并进行不同厂家产品的区分,取得了100%的区分效果,孟朝阳[7]则通过对喷墨打印文件常用品牌的油墨及其相应替代油墨IR光谱的特征吸收进行研究,实现了各品牌产品及替代产品的鉴别区分。

    K近邻算法(KNN)是一种有效的分类方法,其不需要事先确定类别数量便能达到理想的分类效果,克服了样本类别数量不均的弊端[8],其能够有效整合多源信息,处理异构数据,无需训练,特别适合于解决种类鉴别的问题,在模式识别等领域有广泛应用。

    由于FTIR具有特征性高、分析速度快、样品用量少等优势,其实现了非均匀和不平整样品表面的微区无损测量,极大程度上满足了对样本快速准确且无损检验的需求,因此本文借助FTIR分析技术结合K近邻算法对轮胎橡胶进行建模区分,同时对相关结果进行讨论,以期为案发现场轮胎橡胶物证的种类快速无损鉴别提供一种参考和借鉴方法。

    K近邻算法是一种常用的分类方法,其准确度高,适用于非线性分类。其原理具体描述如下[8]:在N个已知样本中,找出χK个近邻,设在这K个样本中,来自ω1的样本有N1个,来自ω2类的样本有N2个,……,来自ωi的样本有Ni个,若K1K2,……,Kc分别是K个近邻中属于ω1ω2,……,ωc类的样本数,则可以定义判断函数为:

    φi(x)=kii=1,2,LC

    决策规则为:若φi(x)=max(φi(x)),i=1,2,LC,则决策xwi

    从建材市场收集73种不同品牌和生产厂家的轮胎橡胶样本(见表 1)。

    表 1

    表 1  73种轮胎样本信息
    Table 1.  The information of 73 tire samples
    下载: 导出CSV
    序号 制造商 型号
    1221-2 玲珑轮胎 175/70R 14LT
    1221-13 日本普利司通公司 205/55R 16 91V
    1221-14 三角轮胎有限公司 165/70A 13-79T
    1221-15 佳通轮胎有限公司 Giti 185/60R 14-82H
    1221-16 三角轮胎有限公司 185/65A 15 88H
    1221-19 青岛泰发集团股份有限公司 122/118K 14PR
    1221-20 三角轮胎有限公司 122/118K 14PR
    1221-21 三角轮胎有限公司 155R 13LT 8PR
    1221-22 玲珑轮胎 215/65R 15-100R
    1221-23 韩泰轮胎有限公司 175/70R 14-84T
    1221-24 三角轮胎有限公司 175/65R 14-86T
    Other data: omitted

    Nicolet 5700型傅立叶变换红外光谱仪(Thermo Fisher Scientific公司)。衰减全反射(ATR)套件(Thermo Fisher Scientific公司,选Ge晶体作为晶体材料),扫描次数32次;光谱分辨率4cm-1;以空气为背景进行光谱采集。光谱数据处理采用OPUS软件(德国Bruker公司),选取波数在4000~500cm-1段谱图,需注意避免CO2和水分对实验结果的干扰,每个样本采集3次,取平均值。

    剔除谱图中波数在2406~2271cm-1(CO2峰)之间的数据,选择自动基线校正和光谱归一化操作,采用Savitsky-Golay算法进行光谱平滑,选择Z标准化消除光谱数据量纲不一致影响,保证数据之间可以相互比较。

    轮胎橡胶是高分子混合物,同一品牌不同型号、不同品牌不同型号的轮胎材料在组分和配比上会存在差异,它是多个维度方向上的差异,当以品牌或者其他性状作为划分标准无法综合考察样本的差异,而且当样本数量较多时,借助谱图直接分析不仅主观误差较大而且耗时耗力;此外成分的混杂使得谱图之间交叉混淆现象较多,无法直接实现对样品合理地区分检验。实验选择K近邻算法,运用训练样本即为测试样本的方法交互验证[9],建立K近邻算法模型对各样本进行分类,据此确定各样本类别。

    73个样本数据的K近邻算法分析结果见图 1图 2图 1为提取到的轮胎橡胶样本红外光谱数据的5个主要特征变量及其在作出样本分类时的重要程度。其中,“特征3”为区分贡献最大的特征,其重要性达0.25;其次为“特征4”,其重要性为0.22;“特征5”重要性为0.18,前三个特征变量累积分类重要性为0.65;“特征2”重要性为0.18,“特征1”为区分贡献最小的特征,重要性为0.17,所有特征变量的重要程度值总和为1。图 2为各样本在作出分类预测时的K选择错误统计图,从图中不难发现,模型分类的错误率呈递增趋势,当K为1时错误率最低,为0.138,表明当K为1时模型分类错误率最小,能较大程度实现样本间的区分,当K为10时,模型分类错误率最高为0.461。

    图 1

    图 1.  特征变量重要性图
    Figure 1.  Significance chart of characteristic variables

    图 2

    图 2.  K选择错误率
    Figure 2.  The error rate of K selection

    选取K值为1、“特征3”为主要自变量,“特征4”、“特征5”、“特征2”和“特征1”为协变量,作为分类参数,建立分类模型。为保证模型建立的合理性,按重要性加权特征进行计算样本之间的距离,即给不同样本施加不同权重,加强依赖样本的权重,同时降低不可信赖样本的影响,得到了73种轮胎分类及预测归类的相关结果(见表 2)。

    表 2

    表 2  73种轮胎分类及预测归类汇总表
    Table 2.  The classification and prediction detail of 73 tire rubbers
    下载: 导出CSV
    Sample Category Prediction Sample Category Prediction Sample Category Prediction
    1221-1 G G 1221-16 I I 1221-7 F G
    1221-4 N N 1221-18 N N 1221-19 G I
    1221-5 P P 1130-13 F F 1221-26 M K
    1130-17 A A 1221-20 I I 1221-38 G I
    1221-8 F F 1221-21 I I 1221-43 M K
    1221-9 F A 1221-22 I I 1113-1 A F
    1221-10 P P 1221-23 M M 1130-8 B F
    1221-13 I I 1221-24 I I 1113-8 C A
    1221-14 I I 1125-29 G F 1130-14 F G
    1221-15 A A 1125-34 F A 1113-2 F A
    other data: Omitted

    表 2显示了73个样本归类及其预测结果。共有61个样本实现了正确的分类和预测,12个样本分类和预测结果有偏差。其中,样本1221-9从F类分到了A类,样本1125-29从G类分到了F类,样本1125-34从F类分到了A类,样本1221-7从F类分到了G类,样本1221-19从G类分到了I类,样本1221-26从M类分到了K类,模型总体分类正确率为83.56%。针对分类和预测结果有偏差的12个样本,借助谱图展开分析。

    图 3中,样本1221-9与A和F类样本的出峰位置、峰形基本吻合,在波数为3001、2920和2850cm-1处形成了3个尖峰,在波数为1443cm-1处有一中强峰,在波数为725和695cm-1处形成了两个宽峰,结合谱图,发现样本1221-9与F类样本谱图相似度较高,与A类样本差异性较大,综上,将样本1221-9分在F类。

    图 3

    图 3.  样本1221-9与A和F类谱图比较
    Figure 3.  The spectra comparison of 1221-9 with A and F

    图 4中,样本1221-7与G和F类样本的出峰位置基本吻合,在波数为3004、2918和2850cm-1处形成了3个尖峰,不同之处在波数为1500~500cm-1段,G类样本在波数为1428cm-1有一中强峰,而F类样本和样本1221-7则存在一弱峰,G类样本在波数为961和695cm-1处各有一尖峰,而F类样本和样本1221-7没有峰。综上所述,样本1221-7与F类样本更为相似,与G类样本差异性较大,将样本1221-7归为F类样本。其他10个样本的分析方法同上,综合所有的分析结果,得出了73个样本的分类结果(见表 3)。

    图 4

    图 4.  样本1221-7与G和F类谱图比较
    Figure 4.  The spectra comparison of 1221-7 with G and F

    表 3

    表 3  73个样本分类结果
    Table 3.  The results of 73 samples classification
    下载: 导出CSV
    类型 样本
    A 1125-35,1125-36,1221-15,1105-2,1105-3,1105-5,1113-1,1113-3,1113-4,1113-5,1113-6,1125-16,1125-26,1125-33,1130-10,1130-12,1130-17
    C 1113-8,1130-5
    D 1125-22,1125-31
    F 1221-7,1221-8,1221-9,1105-1,1113-2,1113-7,1125-32,1125-34,1130-4,1130-9,1130-13,1130-14
    G 1221-1,1221-19,1221-25,1221-33,1221-34,1221-38,1221-41,1221-47,1221-48,1125-29,1130-2,1130-11,1130-8
    I 1221-13,1221-14,1221-16,1221-20,1221-21,1221-22,1221-24,1221-27,1221-29,1221-31,1221-36,1221-37,1221-391221-2,1221-44,1221-49
    K 1221-32,1221-35
    M 1221-23,1221-26,1221-43
    N 1221-4,1221-18,1221-45
    P 1221-5,1221-10,1221-46

    73个样本分为了10类,A类样本有17个,主要是玲珑轮胎和佳通轮胎;C类样本有2个,均为德国马牌轮胎;D类样本有2个,均是吉路尔轮胎;E类样本有2个,是樱花轮胎;F类样本有12个,其中1125-32样本和1125-34样本为玲珑轮胎,1130-4样本和1130-14样本为朝阳轮胎,1221-7、1221-8和1221-9是金宇轮胎,1105-1、1113-2、1113-7、1130-9和1130-13为Maxxis轮胎;G类样本有13个主要是三角轮胎,I类轮胎有16个系Dunlop轮胎;K类样本有2个,均为米其林轮胎;M类样本有3个,均为韩泰轮胎;N类样本有3个,是Annait轮胎;P类样本有3个,均为Duraplus轮胎。

    本实验利用光谱检测和K近邻算法实现了对轮胎橡胶颗粒的识别与分类。基于综合考虑神经元个数和网络性能以及模型准确度的目的,构建K近邻-谱图分析的分类模型,寻找样本红外光谱数据中未知可能的复杂规律,从而实现了基于多个变量的分类目的,且模型对各类别样本的总体分类准确率达83.56%,分类结果较为理想。传统的轮胎橡胶鉴别方法如裂解法、热重分析法等在操作时会对样本造成破坏,无法达到对物证无损检验的需求且操作繁琐,本实验选择红外光谱获取数据,实现了量少、快速和无损检验,同时借助K近邻算法展开分类识别,实现了对轮胎橡胶颗粒更为合理有效的鉴别,同时也为其他物证的分类识别提供了一种新的思路和参考。针对分类错误样本,借助其他分析技术如裂解气性色谱-质谱技术展开进一步实验,后期应针对性收集相关样本,增加样本数量,从而训练和构建分类精确度更高的模型;同时考虑各个类别样本的内部差异,进而更深入地构建分类模型,以期实现对轮胎橡胶健全的分类研究体系,为法庭科学中轮胎橡胶物证的鉴别提供参考。

    1. [1]

      张艳芬, 孔波.中国石油和化工标准与质量, 2016, 36(3): 3~5. http://www.cnki.com.cn/Article/CJFDTotal-HGBJ201603002.htm

    2. [2]

      王震, 董佳英.刑事技术, 2014, (4): 14~17. http://www.cnki.com.cn/Article/CJFDTotal-XSJS201404007.htm

    3. [3]

      刘艳, 司民真, 李伦等.光散射学报, 2016, 28(1): 84~90. http://xueshu.baidu.com/usercenter/paper/show?paperid=3819be95470e4564bea1c55d37ce28ec&site=xueshu_se

    4. [4]

      杨永安, 王登正, 司民真.光散射学报, 2015, 27(4): 379~383. http://www.cnki.com.cn/Article/CJFDTotal-GSSX201504014.htm

    5. [5]

      余静, 张云, 庞松颖等.光谱学与光谱分析, 2016, 36(9): 2807~2811. http://www.cnki.com.cn/Article/CJFDTotal-GUAN201609020.htm

    6. [6]

      张金庄.辽宁警专学报, 2014, 16(3): 59~63.

    7. [7]

      孟朝阳.光谱实验室, 2009, 26(6): 1583~1586. http://www.cnki.com.cn/Article/CJFDTotal-GPSS200906047.htm

    8. [8]

      宋丽梅, 罗菁.模式识别.北京: 机械工业出版社, 2015, 82~85.

    9. [9]

      刘玲玲, 武彦文, 张旭等.化学学报, 2012, 70(8): 995~1000. http://www.cnki.com.cn/Article/CJFDTotal-HXXB201208009.htm

  • 图 1  特征变量重要性图

    Figure 1  Significance chart of characteristic variables

    图 2  K选择错误率

    Figure 2  The error rate of K selection

    图 3  样本1221-9与A和F类谱图比较

    Figure 3  The spectra comparison of 1221-9 with A and F

    图 4  样本1221-7与G和F类谱图比较

    Figure 4  The spectra comparison of 1221-7 with G and F

    表 1  73种轮胎样本信息

    Table 1.  The information of 73 tire samples

    序号 制造商 型号
    1221-2 玲珑轮胎 175/70R 14LT
    1221-13 日本普利司通公司 205/55R 16 91V
    1221-14 三角轮胎有限公司 165/70A 13-79T
    1221-15 佳通轮胎有限公司 Giti 185/60R 14-82H
    1221-16 三角轮胎有限公司 185/65A 15 88H
    1221-19 青岛泰发集团股份有限公司 122/118K 14PR
    1221-20 三角轮胎有限公司 122/118K 14PR
    1221-21 三角轮胎有限公司 155R 13LT 8PR
    1221-22 玲珑轮胎 215/65R 15-100R
    1221-23 韩泰轮胎有限公司 175/70R 14-84T
    1221-24 三角轮胎有限公司 175/65R 14-86T
    Other data: omitted
    下载: 导出CSV

    表 2  73种轮胎分类及预测归类汇总表

    Table 2.  The classification and prediction detail of 73 tire rubbers

    Sample Category Prediction Sample Category Prediction Sample Category Prediction
    1221-1 G G 1221-16 I I 1221-7 F G
    1221-4 N N 1221-18 N N 1221-19 G I
    1221-5 P P 1130-13 F F 1221-26 M K
    1130-17 A A 1221-20 I I 1221-38 G I
    1221-8 F F 1221-21 I I 1221-43 M K
    1221-9 F A 1221-22 I I 1113-1 A F
    1221-10 P P 1221-23 M M 1130-8 B F
    1221-13 I I 1221-24 I I 1113-8 C A
    1221-14 I I 1125-29 G F 1130-14 F G
    1221-15 A A 1125-34 F A 1113-2 F A
    other data: Omitted
    下载: 导出CSV

    表 3  73个样本分类结果

    Table 3.  The results of 73 samples classification

    类型 样本
    A 1125-35,1125-36,1221-15,1105-2,1105-3,1105-5,1113-1,1113-3,1113-4,1113-5,1113-6,1125-16,1125-26,1125-33,1130-10,1130-12,1130-17
    C 1113-8,1130-5
    D 1125-22,1125-31
    F 1221-7,1221-8,1221-9,1105-1,1113-2,1113-7,1125-32,1125-34,1130-4,1130-9,1130-13,1130-14
    G 1221-1,1221-19,1221-25,1221-33,1221-34,1221-38,1221-41,1221-47,1221-48,1125-29,1130-2,1130-11,1130-8
    I 1221-13,1221-14,1221-16,1221-20,1221-21,1221-22,1221-24,1221-27,1221-29,1221-31,1221-36,1221-37,1221-391221-2,1221-44,1221-49
    K 1221-32,1221-35
    M 1221-23,1221-26,1221-43
    N 1221-4,1221-18,1221-45
    P 1221-5,1221-10,1221-46
    下载: 导出CSV
  • 加载中
计量
  • PDF下载量:  0
  • 文章访问数:  0
  • HTML全文浏览量:  0
文章相关
  • 发布日期:  2019-01-18
  • 收稿日期:  2018-06-07
  • 接受日期:  2018-09-12
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章