生物信息學(xué)

跳轉(zhuǎn)到: 導(dǎo)航, 搜索
人類X染色體圖譜

生物信息學(xué)英語:bioinformatics)利用應(yīng)用數(shù)學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的方法研究生物學(xué)的問題。目前的生物信息學(xué)基本上只是分子生物學(xué)與信息技術(shù)(尤其是互聯(lián)網(wǎng)技術(shù))的結(jié)合體。生物信息學(xué)的研究材料和結(jié)果就是各種各樣的生物學(xué)數(shù)據(jù),其研究工具是計(jì)算機(jī),研究方法包括對(duì)生物學(xué)數(shù)據(jù)的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計(jì)算、模擬)。目前主要的研究方向有:序列比對(duì)、基因識(shí)別、基因重組蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因表達(dá)、蛋白質(zhì)反應(yīng)的預(yù)測(cè),以及建立進(jìn)化模型。

生物學(xué)技術(shù)往往生成大量的嘈雜數(shù)據(jù)。與數(shù)據(jù)挖掘類似,生物信息學(xué)利用數(shù)學(xué)工具從大量數(shù)據(jù)中提取有用的生物學(xué)信息。生物信息學(xué)所要處理的典型問題包括:重新組裝在霰彈槍定序法測(cè)序過程中被打散的DNA序列,從蛋白質(zhì)的氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),利用mRNA微陣列或質(zhì)譜儀的數(shù)據(jù)檢驗(yàn)基因調(diào)控的假說。

某些人將計(jì)算生物學(xué)作為生物信息學(xué)的同義詞處理;但是另外一些人認(rèn)為計(jì)算生物學(xué)和生物信息學(xué)應(yīng)當(dāng)被當(dāng)作不同的條目處理,因?yàn)樯镄畔W(xué)更側(cè)重于生物學(xué)領(lǐng)域中計(jì)算方法的使用和發(fā)展,而計(jì)算生物學(xué)強(qiáng)調(diào)應(yīng)用信息學(xué)技術(shù)對(duì)生物學(xué)領(lǐng)域中的假說進(jìn)行檢驗(yàn),并嘗試發(fā)展新的理論。

生物信息學(xué)可以定義為對(duì)分子生物學(xué)中兩類信息流的研究[1]

邁克爾·沃特曼(又譯:麥克·沃特曼)教授率先將數(shù)學(xué)和計(jì)算方法引入生物學(xué)研究,在生物信息領(lǐng)域有許多開創(chuàng)性的貢獻(xiàn),被譽(yù)為“生物信息學(xué)之父”。 麥克·沃特曼教授是計(jì)算生物學(xué)奠基人之一,是國際計(jì)算生物學(xué)領(lǐng)域的重要領(lǐng)軍人物。他致力于將數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)應(yīng)用于各種分子生物學(xué)問題中,開辟了多個(gè)重要研究方向。他與Temple Smith發(fā)展的Smith-Waterman算法奠定了生物信息學(xué)算法的基礎(chǔ),他與Eric Lander發(fā)展的生物序列映射數(shù)學(xué)模型成為人類基因組計(jì)劃的重要理論基石,同時(shí),他的工作在數(shù)學(xué)界和計(jì)算機(jī)領(lǐng)域也有著廣泛和深遠(yuǎn)的影響。2008年起,沃特曼教授受聘為清華大學(xué)講席教授,領(lǐng)導(dǎo)由多位海外杰出科學(xué)家組成的清華大學(xué)生物信息學(xué)與系統(tǒng)生物學(xué)講席教授組,為清華大學(xué)乃至中國的生物信息學(xué)學(xué)科發(fā)展作出了突出貢獻(xiàn)。2013年獲得中華人民共和國友誼獎(jiǎng)。

目錄

主要研究方向

序列分析

1977年,噬菌體Φ-X174成為第一個(gè)被完整測(cè)定基因組序列的生物體。自此以后,越來越多生物體的DNA序列被人類測(cè)定。通過對(duì)這些序列的分析,人們希望獲知其中對(duì)應(yīng)蛋白質(zhì)編碼的基因和基因調(diào)控序列。不同物種間的基因比對(duì)既能夠解釋和預(yù)測(cè)他們蛋白質(zhì)的功能的相似性,又能夠揭示不同物種間的聯(lián)系。由于數(shù)據(jù)量巨大,依靠人工分析DNA序列早已變得不切實(shí)際,這使得人們不得不采用計(jì)算機(jī)分析數(shù)千種生物體的數(shù)十億個(gè)核苷酸組成的DNA序列。由于DNA序列中普遍存在變異現(xiàn)象,這些計(jì)算機(jī)程序需要識(shí)別大量相關(guān)但是不完全相同的序列。即便是在DNA測(cè)序的過程中,也存在著不確定的因素。在DNA測(cè)序的霰彈槍定序法(The Institute for Genomic Research依此技術(shù)測(cè)定了第一個(gè)細(xì)菌的基因組)中,完整的DNA鏈被打散為成千上萬條長(zhǎng)約600到800個(gè)核苷酸的DNA片段。這些DNA片段的兩端相互重疊,只有依照正確的順序組合,才能還原為完整的DNA序列。對(duì)于較大的基因組,霰彈槍定序法能夠迅速的測(cè)定DNA片段的序列,但將它們組裝起來的工作則相當(dāng)復(fù)雜。在人類基因組計(jì)劃中,該基因重組過程花費(fèi)了幾個(gè)月的CPU時(shí)間(on a circa-2000 vintage DEC Alpha computer)。由于現(xiàn)今幾乎所有基因序列均由霰彈法測(cè)定,基因重組算法是信息生物學(xué)研究的重點(diǎn)課題。

基因組中并不是所有的核苷酸都構(gòu)成基因,所以序列分析的另一個(gè)研究課題是對(duì)基因組中的基因和基因調(diào)控序列進(jìn)行自動(dòng)識(shí)別。在較高等的生物體中,DNA序列的大部分并沒有明顯的作用。但是,這些所謂的“垃圾DNA”卻可能具有未被識(shí)別的功能。

基因組注釋

基因組學(xué)中,對(duì)基因和其他生物特征的標(biāo)注稱為基因組注釋。1995年,Owen White(在1995年完成的人類首次為獨(dú)立的生物體——流感嗜血桿菌——測(cè)序的工作中,他是組員之一)設(shè)計(jì)出了第一套基因組注釋軟件系統(tǒng)。該系統(tǒng)能夠自動(dòng)識(shí)別基因、轉(zhuǎn)錄基因和其他生物學(xué)特征,并能夠初步的分析它們的功能。大多數(shù)現(xiàn)今的注釋系統(tǒng)的與之類似,但用以分析DNA序列的軟件在不斷進(jìn)化之中。

在尋找基因和致力于發(fā)現(xiàn)新蛋白的努力中,人們習(xí)慣于把新的序列同已知功能的蛋白序列作比對(duì)。由于這些比對(duì)通常都希望能夠推測(cè)新蛋白的功能,不管它們是雙重比對(duì)還是多序列比對(duì),都可以回答大量的其它的生物學(xué)問題。舉例來說,面對(duì)一堆搜集的比對(duì)序列,人們會(huì)研究隱含于蛋白之中的系統(tǒng)發(fā)生的關(guān)系,以便于更好地理解蛋白的進(jìn)化。人們并不只是著眼于某一個(gè)蛋白,而是研究一個(gè)家族中的相關(guān)蛋白,看看進(jìn)化壓力和生物秩序如何結(jié)合起來創(chuàng)造出新的具有雖然不同但是功能相關(guān)的蛋白。研究完多序列比對(duì)中的高度保守區(qū)域,我們可以對(duì)蛋白質(zhì)的整個(gè)結(jié)構(gòu)進(jìn)行預(yù)測(cè),并且猜測(cè)這些保守區(qū)域?qū)τ诰S持三維結(jié)構(gòu)的重要性。

顯然,分析一群相關(guān)蛋白質(zhì)時(shí),很有必要了解比對(duì)的正確構(gòu)成。發(fā)展用于多序列比對(duì)的程序是一個(gè)很有活力的研究領(lǐng)域,絕大多數(shù)方法都是基于漸進(jìn)比對(duì)(progressive alignment)的概念。漸進(jìn)比對(duì)的思想依賴于使用者用作比對(duì)的蛋白質(zhì)序列之間確實(shí)存在的生物學(xué)上的或者更準(zhǔn)確地說是系統(tǒng)發(fā)生學(xué)上的相互關(guān)聯(lián)。不同算法從不同方面解決這一問題,但是當(dāng)比對(duì)的序列大大地超過兩個(gè)時(shí)(雙重比對(duì)),對(duì)于計(jì)算的挑戰(zhàn)就會(huì)很令人生畏。在實(shí)際操作中,算法會(huì)在計(jì)算速度和獲得最佳比對(duì)之間尋求平衡,常常會(huì)接受足夠相近的比對(duì)。不管最終使用的是什么方法,使用者都必須審視結(jié)果的比對(duì),因?yàn)樵诖嘶A(chǔ)上作一些手工修改是十分必要的,尤其是對(duì)保守的區(qū)域。

計(jì)算進(jìn)化生物學(xué)

進(jìn)化生物學(xué)研究物種的起源和演化。引入信息學(xué)到進(jìn)化生物學(xué)中,使得研究者能夠:

未來的研究工作包括重建業(yè)已相當(dāng)復(fù)雜的進(jìn)化樹。

計(jì)算進(jìn)化生物學(xué)常常與采用遺傳算法的計(jì)算機(jī)科學(xué)相混淆。后者受到生物進(jìn)化原理的啟發(fā),發(fā)展出一套軟件用于改進(jìn)配方、算法、集成電路設(shè)計(jì)等等。

生物多樣性的度量

對(duì)一個(gè)特定的生態(tài)系統(tǒng),小到一層生物膜、一滴海水、一鏟泥土,大到整個(gè)地球,其中全體物種的基因組成分可被定義為這個(gè)生態(tài)系統(tǒng)的生物多樣性。搜集各物種的名稱、描述、分布、遺傳信息、地位、種群大小、棲息地,和各生物體間的相互作用等信息,可以建立一個(gè)數(shù)據(jù)庫。有專門的軟件用于搜尋、分析和可視化這些信息,更重要的是,它們還能夠幫助人們相互交流這些信息。計(jì)算機(jī)能夠模擬相應(yīng)的模型,以計(jì)算種群動(dòng)態(tài)演變,遺傳健康狀態(tài)等等。

該領(lǐng)域的一個(gè)重要前景是為瀕危物種建立基因銀行,即將各物種的基因組信息保存下來。這樣即便在將來這些物種滅絕了,人類也可能利用它們的基因組信息重新創(chuàng)造出它們。

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是生物信息學(xué)的重要應(yīng)用。蛋白質(zhì)的氨基酸序列(也稱為一級(jí)結(jié)構(gòu))可以容易的由它的基因編碼序列獲得。在絕大多數(shù)情況下,在蛋白質(zhì)的原生環(huán)境中,其結(jié)構(gòu)由它的氨基酸序列唯一的決定。蛋白質(zhì)的結(jié)構(gòu)對(duì)于理解蛋白質(zhì)的功能十分重要。這些結(jié)構(gòu)信息通常被稱為二級(jí)、三級(jí)、四級(jí)結(jié)構(gòu)。目前尚沒有普遍可行方案實(shí)現(xiàn)這些結(jié)構(gòu)的準(zhǔn)確預(yù)測(cè);大多數(shù)方案為啟發(fā)式的。

同源性是生物信息學(xué)中的一個(gè)重要概念。在基因組的研究中,同源性被用以分析基因的功能:若兩基因同源,則它們的功能可能相近;在蛋白質(zhì)結(jié)構(gòu)的研究中,同源性被用于尋找在形成蛋白質(zhì)結(jié)構(gòu)和蛋白質(zhì)反應(yīng)中起關(guān)鍵作用的蛋白質(zhì)片斷。在一種被稱為同源建模的技術(shù)中,這些信息可與已知結(jié)構(gòu)的蛋白質(zhì)相比較,從而預(yù)測(cè)未知結(jié)構(gòu)的蛋白質(zhì)。目前為止,這是唯一可靠的預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法。

人類血色素和豆類血色素間的相似性是以上方法的一個(gè)實(shí)例。兩種血色素有相同的功能,均能夠在各自的生物體內(nèi)運(yùn)輸氧氣。盡管它們的氨基酸序列大不相同,它們的蛋白質(zhì)結(jié)構(gòu)幾乎一樣。

蛋白質(zhì)表達(dá)分析

通過蛋白質(zhì)微陣列技術(shù)或高通量質(zhì)譜分析對(duì)生物標(biāo)本進(jìn)行測(cè)量所獲得的數(shù)據(jù)中,包含有大量生物標(biāo)本內(nèi)蛋白質(zhì)的信息。生物信息學(xué)被廣泛的應(yīng)用于這些數(shù)據(jù)的分析。對(duì)于前者,生物信息學(xué)所面臨的問題與RNA微陣列數(shù)據(jù)分析中遇到的問題相似;對(duì)于后者,生物信息學(xué)將所獲得的大量質(zhì)譜數(shù)據(jù)與通過已知蛋白質(zhì)數(shù)據(jù)庫預(yù)測(cè)的數(shù)據(jù)進(jìn)行比較,并使用復(fù)雜的統(tǒng)計(jì)學(xué)方法進(jìn)一步分析。

比較基因組學(xué)

比較基因組學(xué)的核心課題是識(shí)別和建立不同生物體的基因或其他基因組特征的聯(lián)系。這些跨基因組的聯(lián)系使得我們能夠跟蹤基因組的進(jìn)化過程。基因組進(jìn)化由多個(gè)不同層次的事件完成。在最低的層次,單個(gè)核苷酸上發(fā)生了點(diǎn)變異。在較高的層次,大的染色體片段經(jīng)歷了復(fù)制、橫向遷移、逆轉(zhuǎn)、調(diào)換、刪除和插入等過程。在最高的層次上,整個(gè)基因組會(huì)經(jīng)歷雜交、倍交、內(nèi)共生等變異,并迅速產(chǎn)生新的物種。

基因表達(dá)分析

多種生物學(xué)技術(shù)可以用于測(cè)量基因的表達(dá),如DNA微陣列,表達(dá)序列標(biāo)簽(expressed sequence tag),基因表達(dá)連續(xù)分析(serial analysis of gene expression),大規(guī)模平行信號(hào)測(cè)序(massively parallel signature sequencing),多元原位雜交法(multiplexed in-situ hybridization)等。上列所有方法均嚴(yán)重依賴于環(huán)境并會(huì)產(chǎn)生大量高噪聲的數(shù)據(jù)。生物信息學(xué)致力于發(fā)展一套統(tǒng)計(jì)學(xué)工具以從中提取有用的信息。

調(diào)控分析

調(diào)控是指當(dāng)細(xì)胞受到外信號(hào)刺激之后其內(nèi)發(fā)生的一系列反應(yīng)過程的總和。生物信息學(xué)技術(shù)被用于分析調(diào)控的各個(gè)步驟。例如,基因表達(dá)的數(shù)據(jù)可用于分析基因調(diào)控。對(duì)于一個(gè)單細(xì)胞生物體,我們可以用生物芯片技術(shù)觀察受到不同外界刺激、處于細(xì)胞周期不同狀態(tài)的細(xì)胞,并將采集到的數(shù)據(jù)利用聚類算法分析,以尋找表達(dá)相似的基因或樣本。該結(jié)果可用于多種深入的分析。

生物系統(tǒng)模擬

系統(tǒng)生物學(xué)通過對(duì)細(xì)胞子系統(tǒng)的計(jì)算機(jī)模擬,分析這些細(xì)胞過程間的復(fù)雜聯(lián)系,并將分析結(jié)果可視化。例如,人工生命就通過計(jì)算機(jī)模擬簡(jiǎn)單的生物形式,以幫助人類了解進(jìn)化過程。

在藥物研發(fā)方面的應(yīng)用

生物信息學(xué)可用于藥物靶標(biāo)基因的發(fā)現(xiàn)和驗(yàn)證。有許多數(shù)據(jù)庫可用來獲得在不同組織在正常/疾病狀態(tài)下基因表達(dá)的差異,通過搜索這些數(shù)據(jù)庫,可以得到候選基因作為藥物靶標(biāo),特異性地針對(duì)某一種疾病。另外,還可根據(jù)蛋白質(zhì)功能區(qū)和三維結(jié)構(gòu)的預(yù)測(cè)來對(duì)藥物靶標(biāo)進(jìn)行鑒定,以便早期了解所研究蛋白的屬性,預(yù)測(cè)它是否適用于藥物作用。

軟件工具

BLAST(基本局部比對(duì)搜尋工具)和FASTA是目前使用得最為頻繁的兩套數(shù)據(jù)庫搜索程序。它們的功能相近,都是把用戶提交的一個(gè)核酸序列或蛋白質(zhì)序列拿去與指定的數(shù)據(jù)庫中的全部序列作比較。一般認(rèn)為,BLAST運(yùn)行速度快,對(duì)蛋白質(zhì)序列的搜尋更為有效。FASTA運(yùn)行較慢,對(duì)核酸序列更為敏感。也有基于網(wǎng)頁交互的軟件如STING,用于結(jié)構(gòu)生物信息學(xué)的分析。

參見

參考文獻(xiàn)

引用

  1. Altman, 1998

書籍

外部鏈接

參考來源

關(guān)于“生物信息學(xué)”的留言: Feed-icon.png 訂閱討論RSS

目前暫無留言

添加留言

更多醫(yī)學(xué)百科條目

個(gè)人工具
名字空間
動(dòng)作
導(dǎo)航
推薦工具
功能菜單
工具箱