生物信息學新進展
機技術和人類基因組計劃的,應運而生了一門新興的學科——生物信息學,該學科包含了兩個交叉領域的工作:用于建立生物學所需信息系統(tǒng)框架(支持生物學的信息管理系統(tǒng)、工具和通訊)的開發(fā)工作,即傳統(tǒng)意義上的生物信息學(bioinformatics);旨在理解基本生物學的基于計算的研究工作,即計算生物學(computational biology)。生物信息學和基因組研究(Bioinformatics and Genome Research)系列會議于1990年開始舉辦,1997年6月11~12日在美國加州舊金山舉辦了第六屆國際生物信息學和基因組研究年會,年會的主要議題包括正在出現的新技術、基因的功能分析、新的數據工具和制藥先導的基因和蛋白質發(fā)現[1],F將有關簡介如下:
一、正在出現的技術
Klingler(Lncyte pharmaceuticals,PaloAlto,CA,USA)強調基因組學正推動制藥業(yè)進入信息。隨著不斷增加的序列、表達和作圖數據的產生,描述和開發(fā)這些數據的信息工具變得對實現基因組研究的任務至關重要。他談到了Incyte pharmaceuticals對大規(guī)模基因組數據和生物信息學的貢獻。
Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一種利用DNA探針陣列進行基因組研究的,其原理是通過更有效有作圖、表達檢測和多態(tài)性篩選方法,可以實現對人類基因組的測序。光介導的化學合成法被于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設計的寡核苷酸探針陣列可用于多態(tài)性篩查、基因分型和表達檢測。然后這些陣列就可以直接用于并行DNA雜交分析,以獲得序列、表達和基因分型信息。Milosavljevic(CuraGen, Branford, CT, USA)介紹了一種新的基于專用定量表達分析方法的基因表達檢測系統(tǒng),以及一種發(fā)現基因的系統(tǒng)GeneScape。為了有效地抽樣表達,特意制作片段模式以了解特定基因的子序列的發(fā)生和冗余程度。他在酵母差異基因表達的大規(guī)模研究中對該技術的性能進行了驗證,并論述了技術在基因的表達、生物學功能以及疾病的基礎研究中的應用。
二、基因的功能分析
Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)論述了人類基因組計劃的下一階段的任務——基因組水平的基因功能分析。這一階段產生的數據的分析、管理和可視性將毫無疑問地比第一階段更為復雜。他介紹了一種用于脊椎動物造血系統(tǒng)紅系發(fā)生的功能分析的原型系統(tǒng)E-poDB,它包括了用于集成數據資源的Kleisli系統(tǒng)和建立internet或intranet上視覺化工具的bioWidget圖形用戶界面。EpoDB有可能指導實驗人員發(fā)現不可能用傳統(tǒng)實驗方法得到的紅系發(fā)育的新的藥物靶,制藥業(yè)所感興趣的是全新的藥物靶,EpoDB提供了這樣一個機會,這可能是它最令人激動的地方。
Sali(Rockefeller university,New York,NY,USA)討論了同源蛋白質結構模建。比較蛋白質模建(comparative protein modeling)也稱為同源模建(homology modeling),即利用實驗確定的蛋白質結構為模式(模型)來預測另一種具有相似氨基酸序列的蛋白質(靶)的構象。此方法現在已經具有了足夠的精確性,并且被認為效果良好,因為蛋白質序列的一個微小變化通常僅僅導致其三維結構的細微改變。
Babbitt(University of California,San Francisco,CA,USA)討論了通過數據庫搜索來識別遠緣蛋白質的方法。對蛋白質超家族的結構和功能的相互依賴性的理解,要求了解所塑造的一個特定結構模板的隱含限制。蛋白質結構之間的最有趣的關系經常在分歧的序列中得以表現,因而區(qū)分得分低(low-scoring)但生物學關系顯著的序列與得分高而生物學關系較不顯著的序列 是重要的。Babbit證明了通過使用BLAST檢索,可以在數據庫搜索所得的低得分區(qū)識別遠緣關系(distant relationship)。Levitt(Stanford univeersity,Palo Alto,CA,USA)討論了蛋白質結構預測和一種僅從序列數據對功能自動模建的方法;蚬δ苋Q于基因編碼的蛋白質的三級結構,但數據庫中蛋白質序列的數目每18個月翻一番。為了確定這些序列的功能,結構必須確定。同源模建和從頭折疊(ab initio folding)方法是兩種現有的互為補充的蛋白質結構預測方法;同源模建是通過片段匹配(segment matching)來完成的,計算機程棄SegMod就是基于同源模建方法的。
三、新的數據工具
Letovsky(Johns hopkins University,Baltimore,MD,USA)介紹了GDB數據庫,它由每條人類染色體的許多不同圖譜組成,包括細胞遺傳學、遺傳學、放射雜交和序列標簽位點(STS)的內容,以及由不同研究者用同種方法得到的圖譜。就位置查詢而言,如果不論其類型(type)和來源(source),或者是否它們正好包含用以批定感興趣的區(qū)域的標志(markers),能夠搜索所有圖譜是有用的。為此目的,該數據庫使用了一種公用坐標系統(tǒng)(common coordinate system)來排列這些圖譜。數據庫還提供了一張高分辨率的和與其他圖譜共享許多標志的圖譜作為標準。共享標志的標之間的對應性容許同等于所有其它圖譜的標準圖譜的分配。
Markowitz(Lawrence berkeley Laboratory,Berkeley,CA,USA)討論了分布式數據庫與局部管理的關系,以及用基于工具的方法開發(fā)分子生物學數據庫(MDBs)的問題。許多方案當前正在促進搜索多種不同來源MDBs的數據,包括建立數據倉庫;這要求對各種MDBs的組合有一種全局觀,并從成員MDBs中裝填數據入中心數據庫。這些方案的主要問題是開發(fā)整體視圖(global views),構建巨大的數據倉庫并使集成的`數據庫與不斷發(fā)展中的成員MDBs同步化的復雜性。Markowitz還討論了對象協(xié)議模型(object protocol model,OPM),并介紹了支持以下用途的工具:建立用于文本文件或者關系MDBs的OPM視圖;將MDBs作成一個數據庫目錄,提供MDB名稱、定位、主題、獲取信息和MDB間鏈接等信息;說明、處理和解釋多數據庫查詢。Karp(SRI international,Menlo Park,CA,USA)解釋了Ocelot,一種能滿足管理生物學信息需求的面向對象知識陳述系統(tǒng)(一種面向對象系統(tǒng)的人工智能版)。Ocelot支持略圖展開(schema evolution)并采用一種新的最優(yōu)化并行控制機制(同時進行多項訪問數據的過程),其略圖驅動圖形編輯器提供了交互式瀏覽和編輯功能,其注釋系統(tǒng)支持數據庫開發(fā)者之間的結構通訊。
Riley(Marine biological Laboratory,Woods Hole,MA,USA)在討論大腸桿菌蛋白質的功能同時,特別提到了GPEC數據庫,它包括了由實驗確定的所有E.coli基因的功能的信息。該數據庫中最大比例的蛋白質是酶,其次則為轉運和調控蛋白。
Candlin(PE applied Biosystems,Foster City,CA,USA)介紹了一種新的存儲直接來自ABⅠPrism dNA測序儀的數據的關系數據庫系統(tǒng)BioLIMS。該系統(tǒng)可以與其它測序儀的數據集成,并可方便地與其它軟件包自動調用,為測序儀與序列數據的集成提供了一種開放的、可擴展的生物信息學平臺。
Glynais(NetGenics,Cleveland,OH,USA)認為生物信息學中最關鍵的問題之一是軟件工具和數據庫缺乏靈活性。但是,軟件技術的發(fā)展已得到了其它領域如業(yè)和制造業(yè)的發(fā)展經驗的借鑒,可以使來自不同軟件商的運行于各種硬件系統(tǒng)的軟件共同工作。這種系統(tǒng)的國際標準是CORBA,一種由250多個主要軟件和硬件公司共同合作開發(fā)的軟件體系。聯(lián)合使 用CORBA和Java可以開發(fā)各種通過一個公用用戶界面訪問任何種類的數據或軟件工具的網絡應用軟件,也包括生物信息學應用軟件。Overton不同意Glynias的這種想法,他強調說CORBA僅對軟件集成有用,不兼容的數據庫軟件可能是計算生物學所面臨的最困難問題,一些制藥公司和數據庫倉庫最近資助了一項用OCRBA鏈接不同的數據庫的計劃[2,3]。
四、制藥先導的發(fā)現
Burgess(Sturctural bioinformatics,San Diego,CA,USA)討論了填補基因組學和藥物設計之間鴻溝的蛋白質結構中的。在缺乏主要疾病基因或藥物靶的精確描述數據的情況下,藥物設計者們不得不采用大規(guī)模表達蛋白質篩選;而結構生物信息學則采用一種更為實用有效的計算方法直接從序列數據中確定靶蛋白質的活性位點的精細結構特征,它利用一種集成專家系統(tǒng)從現實的或虛擬的化學文庫中進行迅速的計算篩選,可以達到一個很大的規(guī)模。
Elliston(Gene logic,Columbia,MD,USA)討論了藥物開發(fā)中發(fā)現新的分子靶的過程,著重討論了基因發(fā)現方法。他認為,隨著日益臨近的人類基因組測序的完成,幾乎全部基因的特征將在序列水平得到揭示。但是,對基因的認識將有賴于更多的信息而不僅僅是序列,需要考慮的第一類信息是轉錄表達水平信息,而Gene logic 公司的GeneExpress就是一個由mRNA表達譜、轉錄因子位點、新基因和表達序列標簽組成的數據庫。
Liebman(Vysis,Downess grove,IL,USA)介紹了Vysis公司開發(fā)的計算和實驗方法,這些主法不僅用于管理序列數據,而且被用于以下用途:臨床數據庫和—突變數據庫;開發(fā)新的算法以建立功能同源性(區(qū)別于序列同源性)模擬生物學通路以進行風險評估;藥物設計的靶評估;聯(lián)系復雜的通路特性以便識別副作用;開發(fā)疾病的定性模型并解釋臨床后果。
隨著發(fā)現的新基因的日益增多,這個問題顯得格外重要:基因的功能是什么?Escobedo(Chiron technologies,Emeryville,CA,USA)提出了這個問題的一種方法:將分泌蛋白質的基因的功能克隆與篩選這些克隆(可能的藥物靶)結合起來。在這種方法中,在微粒體cDNA文庫池中進行體外翻譯避免了勞動密集的克隆、表達和純化步聚,對文庫池中的翻譯產物在細胞水平進行篩選,測試其在細胞增殖和分化中的作用。例如,在用這種方法識別的111個克隆中,56個屬于已知的分泌蛋白質,25個為膜相關蛋白,另外30個功能未知,可能是新的蛋白質。一種相似的方法在轉移到小鼠模型系統(tǒng)中的基因傳導載體中構建分泌蛋白質的cDNA文庫來克隆特定的功能基因。
Ffuchs(Glaxo wellcome ,Research Triangle Park,NC,USA)討論了生物信息學更為廣義的:它不僅影響到新藥物靶基的發(fā)現,還對改善藥物開發(fā)的臨床前期和臨床期的現狀極具重要性。眾所周知,涉汲數以千計病人的臨床試驗(可能是藥物開發(fā)最為花錢的部分)的設計不論多么仔細,也不能為正確的藥物選擇正確的病人。而在基因組水平劃分病人群體的方法可以大大改善發(fā)現新藥的效率。Fuchs介紹了一種將病人的基因型和表型標志結合起來以改善臨床前期和臨床期藥物開發(fā)過程的系統(tǒng)Genetic information System.他強調將遺傳學和生物信息學數據同化學、生物化學、藥和醫(yī)學數據連接起來的集成信息管理和分析方法是極其重要的。
Green (Human Genome Sciences,Rockville,MD,USA)介紹了他的測序工作中采用的數據管理工具;贓ST的測序方法所面臨的挑戰(zhàn)是,在對幾百個cDNA克降重復測序之后,產生的數據堆積如山。由于大多數人類基因都是用這種方法發(fā)現并在么有數據庫中分類編排的,面臨的識別開放讀框、重疊序列的重疊圖譜、組織特異表達和低豐度mRNA基因的任務是令人生畏的。Human genome Sciences公司開發(fā)了一些可用戶化數據庫工具,在同一個數據庫中可包括以下功能:WWW上訪問和檢索數據,序列拼接,臨視潛在藥 物靶基因的進展等。這些能夠管理多項任務——從注釋基因序列到成功開發(fā)基因產物進入藥物發(fā)現的流程——的軟件工具,極其可望從一種基于基因組知識的藥物發(fā)現方法中得到新的藥物靶。
Summer-Smith(Base4 bioinformatics,Mississauga,Ontario,Canada)描述了一種相關的策略。藥物發(fā)現階段中所要求的軟件工具的任務是多樣化的,要能注釋基因,并闡明它的生理和病理功能及其商業(yè)潛質。對這樣多種來源的信息的集成與分析,在派生的、項目取向的數據庫(project-specific database,PSD)中可以很好完成。由于項目貫穿于發(fā)現到開發(fā)全過程,其間又不斷加入背景的成員,PSD在項目的管理與發(fā)展中成為一種關鍵性的資源。
按照Smith(Boston university,Boston,MA,USA)的觀點[2],我們并不需要更快捷的計算機或更多的計算機家,而是需要更的生物學家和生物化學家來解釋序列的功能。這對有些軟件或硬件專家來說是個打擊,但生物學系統(tǒng)的復雜性是令人生畏的,并且對基因功能的認識可能需要生物學方法和計算方法的結合。探索基因的功能很可能要花費生物學家們數十年的時間,本次會議表明沒有任何單一的方法可以得出一個答案;但是,將計算生物學同大規(guī)模篩先結合起來識別一種化學靶物(hit)是一種產生化學工具來探索基因功能的方法,這些化學工具接下來就可以用作理解基因功能的“探針”。這種方法在Butt(Gene Transcription Technologies, Philadelphia, PA, USA)的描述中,既是一種檢查基因功能的簡單方法,也是為潛在的藥物靶發(fā)現化學先導物的簡單方法,他描述了一種可以在酵母中重建人類基因功能的酵母大規(guī)模篩選系統(tǒng)。在此系統(tǒng)中,可以迅捷地在一個化學文庫中發(fā)現配基。這種技術的重要特征是它不僅僅是發(fā)現一種藥物靶的配基的篩板(screen),相反,由于該系統(tǒng)的高速度,它也是發(fā)現先導靶基因的一種篩板。過去,世界上的制藥公司通常在某一時間內僅能對有限數目(約20多個)的藥物靶基因進行工作,鑒于此,我們需要根本不同的方法如基因組學來打開通向“新”生物學的通路。由于機器人和合成化學的進步,藥物發(fā)現中最關鍵的問題不再是得到一種先導化合物(lead compound),而是得到導向靶基因。此次會議為從計算和實驗方法中發(fā)展出的新生物學邁出很好的一步。
1 Lim HA,Batt tR.TIBTECH,1998;16(3)):104
2 Williams n.Science,1997;277(5328):902
3 Stein LD et al.Gene1998;209(1~2):GC39
【生物信息學新進展】相關文章:
4.齊齊哈爾市婦女創(chuàng)業(yè)創(chuàng)新取得新進展