您好,欢迎来到钮旅网。
搜索
您的当前位置:首页面向代谢组学的模式识别技术应用与展望

面向代谢组学的模式识别技术应用与展望

来源:钮旅网
生物信息学 ChinaJournalofBioinformatics                  专论与综述

面向代谢组学的模式识别技术应用与展望

宋凯,李霞

(天津大学化工学院,天津,300072)

3

摘要:代谢组学是后基因时代新兴的一门研究生物体内所有小分子代谢物的组学学科,是系统生物学的有机组成部分。由于代谢组学是基于数据驱动的学科,因此如何有效利用数据预处理、模式识别等信息处理技术从代谢组学复杂的高维样本中挖掘深层次的“知识”是代谢组学乃至整个系统生物学的关键问题。对模式识别技术在代谢组学中的应用作了全面的综述。总结代谢组学数据特性及其对模式识别技术的特殊要求,揭示面向代谢组学的模式识别技术所遇到的困难并在此基础上提出相应的解决办法。

关键词:代谢组学;模式识别;系统生物学;数据预处理

中图分类号:  文献标识码:A  文章编号:1672-5565(2008)-02-90-04

ProgressandPerspectiveinapplicationofPatternRecognitionforMetabolomicsΠMetabonomicsSONGKai,LIXia(SchoolofchemicalEngineeringandTechnologyTianjinUniversity,Tianjin300072,China)

Abstract:MetabolomicsΠMetabonomicsisapostgenomictechnologywhichseekstoprovideacomprehensiveprofileofallthemetabolitespr2esentinabiologicalsample.SinceMetabonomicsisadata-driventechnology,howtomakegooduseofdatapre-progressing,patternrecog2nitionandotherinformationprocessingtechniquestogetunderlying“Knowledge”fromthehigh-dimensionalMetabonomicsdataisakeyquestionforMetabonomicsitselfandevenfortheSystemBiology.Inthispaper,theapplicationofpatternrecognition(PR)techniquesforMetabonomicsisreviewedbriefly.MoreimportantlythespecialcharacteristicsoftheMetabonomicsdataandtheconsequentlydifficultproblemsofPRforMetabonomicsaresummarized.KeyWords:MetabolomicsΠMetabonomics,PatternRecognition,SystemBiology,datapre-progress

  代谢组学自上个世纪90年代提出后,得到了全世界范围的广泛关注。代谢组学主要是指研究生物体受外界刺激或扰动后,所有小分子代谢产物随时空变化的情况,从而探明生物体系代谢途径的一种研究方法,是系统生物学的有机组成部分

[1,2]

进行整合等,是面向代谢组学的模式识别技术所面临的主要问题。

1 代谢组学的产生与应用

代谢组学是继基因组学、转录组学和蛋白组学之后出现的一门新兴的,是以代谢组为研究对象的“组学”。这几种“组学”密切联系并共同构成系统生物学的研究内核,如图1所示。

代谢组学是基于数据驱动的学科,现有的实验手段已经能够为代谢组学研究提供丰富的实验数据。因此如何利用模式识别等信息处理技术,将高维的波谱数据进行有效压缩和转化,建立代谢表型变化和外源刺激影响因素之间的联系;如何寻找直接可靠的生物标志物;如何与其它领域知识

图1 系统生物学各部分的关系

收稿日期:2007-02-01;修回日期:2007-05-21

第一作者及通讯作者:宋凯(1975-),女,博士,讲师,研究领域:生物信息学,模式识别。E-mail:ksong@tju.edu.cn

第2期宋 凯,等:面向代谢组学的模式识别技术应用与展望

2 面向代谢组学的模式识别

2.1 代谢组学数据特点及对模式分析的特殊要求

   91

  根据分析方法和研究重点的不同,代谢组学的研究可以分为两个流派:以Oliver为代表的“Metabolomics”流派

[3]

,主要

进行以拟南芥和酿酒酵母为代表的植物和微生物体系的研究,且集中于以下几方面:(1)基因功能预测;(2)代谢网络;(3)代谢通量控制等研究。另一流派是以Nicholson为代表的“Metabonomics”流派价等方面进行探索。

目前学术界认知度较高的代谢组学定义是由Nicholson等提出的

[4]

[4]

代谢组学独特的数据采集手段和应用领域导致其在样本数据和对模式分析的要求等方面都存在着自身独特的特点,可以归结为以下几点:

(1)本质非线性:生物体系通过自身调节对外源刺激做

,主要研究不同疾病或者药物刺激

条件下动物的代谢表型变化,从而在疾病诊断、药物安全评

出响应是一个具有强烈非线性的过程[13],即模式识别所要挖掘的深层次知识具有很强的非线性本质。

(2)高维特性:代谢组学模式分析的处理对象主要为GCΠMS、LCΠMS以及NMR等仪器设备获取的波谱Π图谱数据

:

代谢组学:定量测量生命系统由于受到病理生理刺激或者基因修饰而产生的与时间相关的多参数代谢应答的研究方法。

虽然可以在系统生物学的不同层次上利用转录组学、蛋白组学等手段对生物系统进行研究,但近年来出现的代谢组学则进一步促进了“从基因型到表型”的完整生化谱的绘制。作为系统生物学的关键组成部分,与其它组学相比,代谢组学的研究具有以下独特的优势

[1,5]

转换而成的数据矩阵,通常为几十至几百维。

(3)强解释性:代谢组学的研究任务与应用背景要求模

式识别具有很强的解释性,以帮助寻找与外源刺激所引起的代谢直接相关的“生物标记物”,从而实现疾病诊断,药物毒理分析等方面的研究。

(4)非实时性:无论是疾病诊断还是病理毒理研究,代

:

谢组学对模式分析实时性的要求都不高。

由此可见代谢组学数据与社会经济学领域的低维海量数据以及化工等工业过程领域对模式识别的海量实时性要求均形成了强烈对比。2.2 模式识别方法在代谢组学领域中的应用(1)一切外源性刺激(如药物、食品、环境等因素)最终都

会导致代谢组的变化,且在基因组和蛋白质组水平上发生的变化能够在代谢组水平上得到放大,从而使检测变得容易;

(2)代谢物种类远远少于基因和蛋白质种类。以人为例,遗传信息由基因(35000种)经转录物(10-20万种)向功能蛋白质(100-200万)传递,最终由代谢物(约2500种)来体现。

(3)代谢组学的研究不需要建立全基因组测序及大量表代谢组学研究的主要目的是建立代谢物水平的相对变化与功能之间关系的定量模型。然而,基因所引起的生物系统变化通常非常微弱以至于几乎没有相应的人类肉眼能够观测到的表型变化。因此,首先需要解决的问题就是模式识别技术应用在代谢组学领域的有效性。即:是否能够通过精心的实验设计获得的代谢组数据,利用恰当的模式识别技术根据样本源的不同特征对这些数据进行模式分类

(例如健康样本Π疾病样本,突变样本Π原始样本等)研究。也

达序列标签(ExpressedSequenceTags,EST)的数据库;

(4)代谢组学研究中所采用的检测技术比之基因组和蛋白组中的技术更为经济和通用。

(5)利用体液、尿液和血液等生物系统代谢物进行疾病

诊断是实现快速、非侵袭性疾病诊断的主要途径,能够大大减轻患者的痛苦、缓和其恐惧感和对其造成的肌体伤害

[6]

就是模式识别对于代谢组样本的分类是否有用。进而利用模式识别方法所获得的知识,帮助识别未知的代谢物,甚至能够将所获的得模式识别模型与生物化学的理论模型进行比较分析。

Brindle等

[6]

因此代谢组学研究能够为判断和预测生物系统变化提供最直接、最可靠的生物标志物。近几年,代谢组学的诸多优点已引起世界范围的关注,相关领域的文章成指数型迅猛增长。并且越来越多的科研组织和机构加入到了代谢组学的研究之中。2001年,国外六大医药公司(Bristol-Meyers-Squibb,Elililly,Hoffrnann-LaRoche,NovoNordisk,Pfizer,Pharmacia)和英国帝国学院(ImperialCollege,London)面对风

对36例多层血管病变患者(TripleVesselDis2

ease,TVD)和30例冠心病患者(NormalCoronaryArteries,NCA)

的血清和血浆样本进行代谢组学分析,结合PCA(主元分析)、PLS(部分最小二乘)等多元统计方法对动脉硬化进行诊断,准确率高达90%。该方法能够对轻度、中度以及重度样本进行区分,与传统的造影方法相比,患者痛苦明显缓解,同时在准确率方面比传统的测血压、低密度脂蛋白、脂肪胆固醇等指标更为可靠。

Shi等

[14]

险的挑战,组织并公布了一个研究计划(COMET),应用代谢组学评价药物毒性,进行候选药物的临床前毒性评价前,代谢组学已成功应用于疾病诊断诸多领域的研究中。

虽然与系统生物学的其它组学学科一样,代谢组学崭新的、高通量的实验设备,使其能够获得一定环境下生物体系不同阶段高通量、并行分析的实验数据。然而,与基因的“4字母编码”和蛋白质的“20字母编码”不同,代谢组的原子排序、空间构向非常复杂,无法得到类似于基因和蛋白质的线性序列编码。因此需要用到多种功能相对强大的模式识别技术对代谢组学样本复杂的高维信息进行存储、处理和模式分析[12]。

[8]

[7]

。目、基

、药物毒理评价

[7]

因功能预测[9]、营养分析[10]以及环境外源物毒性检测[11]等

利用HPLC(高效液相色谱法)研究饮食控制对

大鼠血液中的小分子代谢物造成的影响。分别利用雌性和雄性大鼠的血液样本中的101个和112个可识别组分进行模式识别,PCA和HCA的分类正确率均分别达到了100%,

100%和100%,93%。

分别利用PCA,SIMCA(SoftIndependentModel2

ingofClassAnalogy),PLS,ANN,和kNN等方法对代谢组样本

Tominaga

[15]

进行模式识别,建立抗真菌、抗细菌以及抗肿瘤药物的数学模型。

此外,Beckonert[16]利用HCA和kNN算法;Scholz[17]利用

   92

ICA算法,均获得了令人振奋的成果。

生 物 信 息 学第6卷

3 面向代谢组学的模式识别方法的发展前景

面向代谢物组学的模式分析刚刚处于起步阶段,代谢物组学的数据特性和噪声特性还有待进一步的研究和分析。将现有的模式识别技术用于代谢物组学模式分析中,观察并分析模式识别结果,总结代谢物组学数据自身特点,并进一步开发出适应这些特色的在代谢物组学领域中具有一定普适性的模式识别方法是面向代谢物组学模式分析的主要任务。

在数据预处理方面,可以利用小波等对数据先验知识要求不高的滤波理论与模式识别方法相结合,在小波变换域对数据进行预处理,并结合非线性滤波技术,将粗差检测、噪声去除、数据压缩等融为一体,同时还可利用小波变换的联合时-频特性,以不同的时间-频率尺度,多方位,多层次地挖掘数据所包含的信息。

与传统的降维方法相反,支持向量机通过某种事先选择的非线性映射(Kernel函数)将输入向量映射到一个高维特征空间,通过提高数据的维度把非线性分类问题转换成线性分类问题。在这个空间中构造最优分类超平面,避免了在原输入空间中进行非线性曲面分割计算。较好地解决了传统算法中训练集误差最小而测试集误差仍较大的问题,算法的效率和精度都比较高。其优势主要体现在处理高维、非线性、小样本数据方面,而高维、非线性、小样本正是代谢组学数据的主要特性,因此将SVM技术用于代谢组学模式识别将有望取得满意的结果。目前SVM已经成功应用于系统生物学的基因组学等领域[19]。

然而,最初的SVM主要针对两类目标分类问题,对于多类目标分类问题,则需将其转化为多个两类目标分类问题,相应地即构造多个两类目标子分类器,导致了分类器结构的过于复杂,判决速度的降低,因此SVM技术在满足代谢组学模式识别多类、高通量方面要求的能力则急需改进和提高。

上述这些文献以及其它很多已经发表的文献和相关科研组织的研究结果充分证明了基于数据驱动的模式识别方法在代谢组学研究中的可行性和有效性,为模式识别技术在代谢组学乃至整个系统生物学中的应用奠定了基础。

2.3 面向代谢组学的模式识别方法所面临的问题

虽然代谢组学研究的具体问题千差万别,但其研究的核心问题或本质基本相同,即通过对代谢组的分析,判断生物体系对于疾病、药物、基因修饰、营养、环境等外界刺激所做出的不同响应模式,并进一步识别表征不同响应模式的“生物标志物”。

因此对面向代谢组学的模式识别的评价标准主要包括两个方面:1.对生物样本分类或者属性预测的准确率;2.对表征某种代谢模式的“生物标志物”的识别能力。

由以上代谢组学数据特性和对模式分析的特殊要求可以看出,将现有的多元统计分析算法或神经网络等机器学习算法简单移植过来用于代谢组学模式识别中,并未充分考虑代谢组学数据自身的特性和要求,因此造成了目前代谢组学模式分析的两难境地。

一方面,PLS和PCA等多元统计方法,在最大程度的利用样本有用信息的同时,通过成分提取和空间压缩技术,提取互相正交的“隐变量”,克服原有样本变量间的相关性和数据噪声的干扰,并能在一定程度上允许样本数据的缺失

[18]

。其强大的空间压缩能力,能够将代谢组学高维空间样本压缩至人类视觉能够接受的二维或三维空间,在知识表达(可视化)方面有着不可替代的优势,且具有结构简单、对样本集容量不敏感以及快速并行计算等优势。更为重要的是,这些模式识别算法的线性本质使其所建立的模型具有很强的解释性,可以有效的帮助寻找“生物标记物”,相对于神经网络等人工智能技术具有很强的优势。然而在面对代谢组学数据的非线性本质时则为力,其属性预测和泛化能力非常有限;

另一方面,代谢组学的非实时性,使得神经网络等人工智能技术有了充分的发挥余地,且神经网络强大的非线性拟合能力能够很好的挖掘和拟合代谢表型与外源刺激之间的非线性关系。然而,(1)神经网络复杂的网络结构和算法,使得科研人员无法有效解释变量对于模式识别模型的贡献,无法寻找有效的“生物标记物”;(2)神经网络从某种意义上说是一种启发式的学习机,本身有很大的经验成分;(3)通常情况下,代谢组学样本个数远远小于变量个数,使得神经网络等算法很容易陷入“过拟合”状态,模型的属性预测和泛化能力很差;(4)神经网络通常是建立在梯度下降算法基础之上的,代谢组学的小样本特性,无法充分激励网络模型,导致模型经常陷入局部极小化状态,模型的准确率大大降低。这些都大大了神经网络等人工智能技术在代谢组学模式分析中的应用。

此外,对代谢组学数据先验概率分布知识的严重缺乏,使得许多强大的数据滤波算法无法发挥其应有的作用,无法有效克服数据中的噪声、变量共线性以及数据缺失现象的干扰,导致模式识别准确度的差强人意。

由此可见,如何针对代谢组学数据高维、非线性、小样本特性,开发高效模式识别和数据预处理算法,克服上述缺陷,是代谢组学模式分析迫切需要解决的问题。

图2 面向代谢组学的模式识别流程图

因此面向代谢组学的模式识别技术的任务主要为:将小波多分辨分析、PLS等多元统计分析、Kernel函数变换等理论相互结合运用于代谢组学模式识别中,提出针对代谢组学数据特性和充分满足其要求的数据预处理、压缩等新方法,开发信息提取和知识表达的新算法,以利于进一步实现面向代谢组学的模式识别策略,最终达到深层次的提取样本信息和挖掘相关知识的目的。并为进一步开发研制大型数据仓库、实现其与系统生物学等其它领域的知识整合奠定必要的基础。因此本文提出了一个全面综合的面向代谢组学的模式识别流程应如图2所示。

(下转第96页)

   96生 物 信 息 学

参考文献(References):

第6卷

(d,p)基组下得到的芳环碳的化学位移最接近实验值。从头算HF方法忽略了电子相关效应,所以计算结果与实验值相差较

大。此外,碳链的增长也会影响到计算的准确性[12]。

5 结语

量子化学可为生物分子的研究带入一些新概念、新思想和新方法,它是从电子的尺度考虑问题,对于复杂的生物分子的结构和活性机理研究提供了很好的工具。随着量子化学和计算机技术的不断发展,量子化学在生物分子的研究中将发挥越来越重要的作用。

量子化学在生物分子中的应用,关键是计算精度的问题,由于生物分子结构复杂,分子量又比较大,以现有的计算水平,很难对大分子进行从头算,密度泛涵等高精度的计算。应用量子化学的研究结果分子轨道,能级、电荷密度、键长、二面角参数等数据,对阐述生物分子的活性机理有很好的辅助作用。利用量子化学计算方法预测生物分子的光谱数据,有利于更好的解释谱峰的归属问题。

从目前所做工作来看,量子化学成功地解释了一些生物分子的活性机理,生物反应相互作用的机理。而对提高计算精度,建立更好的分子模型,优化计算方法的研究有待于进一步的工作。

(上接第92页)

[1] 朱维良,蒋华良,陈凯先,嵇汝运.生物大分子体系量子化学

计算方法新进展[J].化学进展,1999,11(4):367-375.[2] 林梦海.量子化学计算方法与应用[M].科学出版社.2004:6-8,116-153.[3] Carroll,S.F.,Barbieri,J.J.,Collier,R.J.Diphtheriatoxin:Purifi2

cationandproperties[J].MethodsEnzymol.,1988,165,68-79.[4] 雷英杰,陈宝泉,丁玫.生物活性物质大豆苷元的量子化学研

究[J].天津化工,2006,20(5):22-24.[5] 顾克强,孙玉希,张洪林.组胺和组氨酸的生物活性与其电子结

构的相关性研究[J].化学研究,2007,18(2):79-86.[6] 张现峰,路慧哲,周璐,庞红宇,揭念芹,杜凤沛.新型均三氮苯

类衍生物构效关系的模式识别研究[J].分子科学学报,2006,22(5):348-353.[7] 张现峰,杜凤沛,周璐,庞红宇,路慧哲.均三氮苯类除草剂结构

与活性的理论研究[J].分子科学学报,2007,23(1):-68.[8] 栾林波,李艳妮.新型抗肿瘤药物Epothilones的电子结构研究

[J].化学工业与工程,2007,24(2):112-116.[9] 郝兰,张勇,谭宏伟,陈光巨.非经典三铂核药物与DNA作用的

理论研究[J].高等学校化学学报,2007,28(6):1160-11.[10] 刘华鼐,王炳峰,孙命,张雷.丝氨酸组酰胺对5′-pTpTpCp-3′

片段切割作用的量子化学计算[J].高等化学学报,2007,28(8):1566-1569.

[11] DavidEB.Solid-StateNuclearMagneticResonanceSpectroscopy:

TheoryandPharmaceuticalApplications[J].PharmaceutRes,1993,10(3):317-327.[12] 苏永超,郑安民,李申慧,陈雷,邓风.药物小分子化学位移的

量子化学计算研究[J].波谱学杂志,2006,23(3):293-301.

4 结 论

代谢组学是一项庞大的工程,单一的人员或者研究机构的力量是有限的,不同单位之间甚至国际间的交流合作显得尤为重要。且代谢组学是系统生物学的一个分支,系统生物学中所有的组学技术最终都是为生理功能和病理紊乱提供全面的信息,代谢组学与基因组学、转录组学及蛋白质组学分别是这些信息传递的几个层次,因此代谢组学最终要建立起该领域通用的专家系统和数据仓库并与其它组学领域的数据仓库相互整合,建立基因变异、蛋白表达和代谢扰动之间的内在联系,使得生命科学所研究问题的复杂度和广度达到前所未有的高度,从系统和综合的观念出发探索生命现象的本质规律。

参考文献(References):

[1] 吴晓建,李晶,刘昌孝,等.生物信息学应用于代谢物组学研究

的进展[J].化工学报,2005,56(10):1819-1825.

[2] EyalF,EranP,etal.Metabolomics,genomics,proteomics,andthe

identificationofenzymesandtheirsubstratesandproducts[J].CurrentOpinioninPlantBiology,2005,8(3):242-248.[3] OliverGS,WinsonKM,KellBD,BaganzF.Systematicfunctional

analysisoftheyeastgenome[J].TrendsBiotechnol.,1998,16:373-378.[4] NicholsonJK,LindonJC.HolmesE.,’Metabonomics’:under2

standingthemetabolicresponsesoflivingsystemstopathophysiologicalstimuliviamultivariatestatisticalanalysisofbiologicalNMRspectro2scopicdata[J].Xenobiotica,1999,29:1181-11.[5] LindonJC.HolmesE.Nicholson,J.K.Patternrecognitionmethods

andapplicationsinbiomedicalmagneticresonance[J].ProgressinNu2clearMagneticResonanceSpectroscopy,2001,39(1):1-40.[6] BrindleJT,AnttiH,HolmesE,etal.Rapidandnoninvasivediagnosis

ofthepresenceandseverityofcoronaryheartdiseaseusing1H-MR-basedmetabonomics[J].Nat.Med.,2002,8(12):1439-l444.[7] LindonJC,NicholsonJK,HolmesE,etal.Contemporaryissuesintox2

icology:TheroleofmetabonomicsintoxicologyanditsevaluationbytheCOMETproject[J].Toxicol.Appl.Pharm,2003,187(3):137-146.

[8] LindonJC,HolmesE,BollardME,eta1.Metabonomicstechnolo2

giesandtheirapplicationsinphysiologicalmonitoring,drugsafetyas2sessmentanddiseasediagnosis[J].Biomarkers,2004,9(1):1-31.[9] AllenJ,DaveyHM,BroadhurstD,HealdJK,RowlandJJ,Oliver

SG,KellDB.High-throughputclassificationofyeastmutantsforfunctionalgenomicsusingmetabolicfootprinting[J].NatureBiotechnol2ogy,2003,21(6):692-696.

[10] GermanJB,RobertsMA,WatkinsSM.Personalmetabolomicsasa

nextgenerationnutritionalassessment[J].J.Nutr,2003,133(12):4260-4266.

[11] GermanJB,WatkinsSM,FayLB.MetabolomicsinPractice:

EmergingKnowledgetoGuideFutureDieteticAdvicetowardIndivid2ualizedHealth[J].JournaloftheAmericanDieteticAssociation,2005,105(9):1425-1432.[12] OliverF.Metabolomics:thelinkbetweengenotypesandphenotypes

[J].PlantMolecularBiology,2002,48(1-2):155-171.

[13] BrownM,DunnBW,EllisIDavid,etal.Ametabolomepipeline:

fromconcepttodatatoknowledge[J].Metabolomics,2005,1(1):39-51.[14] ShiH,KarenE.Vigneau-Callahan,ShestopalovIA,etal.Char2

acterizationofDiet-DependentMetabolicSerotypes:ProofofPrinci2pleinFemaleandMaleRats[J].TheJournalofNutrition,2002,132(5):1031-1038.

[15] TominagaY,ComparativestudyofclassdataanalysiswithPCA-LDA,SIMCA,PLS,ANNs,andk-NN[J].ChemometricsandIn2

telligentLaboratorySystems,1999,49(1):105-115.[16] BeckonertO,BollardEM,EbbelsMT,etal.NMR-basedmetabo2

nomictoxicityclassification:hierarchicalclusteranalysisandk-nearest-neighbourapproaches[J].AnalyticaChimicaActa,2003,490:3-15.

[17] ScholzM,GatzekS,SterlingA,etal.Metabolitefingerprinting:de2

tectingbiologicalfeaturesbyindependentcomponentanalysis[J].Bioinformatics,2004,20:2447-24.[18] 宋凯,王海清,李平.折息递推PLS算法及其在橡胶混炼质量

控制中的应用[J].化工学报,2004,(6):942-946.[19] ZhangXG,LuX,ShiQ,etal.RecursiveSVMfeatureselection

andsampleclassificationformass-spectrometryandmicroarraydata[J].BMCBioinformatics,2006,7:197.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- niushuan.com 版权所有 赣ICP备2024042780号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务