每天資訊科研必備:基因組相關性分析Genome-Wide Association Studies

菜單

科研必備:基因組相關性分析Genome-Wide Association Studies

隨著DNA測序技術的飛速發展,測定某個物種的全基因組早已不是什麼難事。從1995年第一個細菌基因組——流感嗜血桿菌全基因組序列發表算起,包括酵母,線蟲,擬南芥,小鼠,人類,水稻,楊樹等在內的各種不同演化等級的模式生物的基因組被相繼測定並發表。然而,面對這一連串狂飆突進式的勝利,我們卻不能高興得太早,更大的挑戰還在後面。而如何解讀這些生命天書成了我們在後基因組時代所面臨的首要問題。我們不禁要問這些基因都在執行什麼功能?這些基因之間如何協調工作?這些基因與環境間的關係又是如何?

遺傳學的發展讓我們有機會揭開生命謎團的冰山一角,透過對突變體的篩選和研究,我們瞭解到了一些基因的功能和作用方式。但相對於生物基因組中龐大的基因數目,這些基於偶然性的研究成果還是顯得杯水車薪。而且,透過突變體研究基因功能,存在著很大的先天不足。比如,對於那些對生命過程很重要的基因,我們拿不到相應的突變體(因為這些基因一旦突變將導致生物無法存活)。所以,我們就迫切需要一個全新的研究手段,這種手段最好能無偏見的覆蓋所有基因,並且最好是高通量的以與不斷公佈和更新的各物種的基因組序列相適應。而我這裡要介紹的基因組相關性研究(Genome-WideAssociation Studies)正是這樣一種研究手段。這期Nature(2008 Dec 11)就對這個研究方面做了特刊評述。

科研必備:基因組相關性分析Genome-Wide Association Studies

我先簡要介紹下這個方法吧。比如我們可以分別測定患有某種疾病的人群以及正常人群的DNA序列(實際上並不需要全基因組測序,只需測定一定量的標識片段,即Marker),不難預見,病人和正常人的基因組序列將在多個位點存在差異(這種差異主要包括單核苷酸多型性即SNP以及插入缺失即Indel)。透過對這些差異位點的統計分析,我們可以找出與哪種疾病最相關的一組或幾組差異位點。那麼,現在我們至少可以做兩件事情。第一,對這些差異位點所在的DNA區段以及周邊區段做進一步的遺傳分析,找出與這種疾病直接相關的基因。第二,如果第一點暫時做不到,我們也可以將找出的與疾病表型最相關的差異位點群作為診斷或預測這種疾病的代理標記(Proxy),即如果某個人的基因組在這些位點上與正常人的基因組存在差異,那麼他患有這種疾病的風險可能比較大。總之,透過這種技術,我們可以快速簡便地將基因組中的遺傳差異(Genotype)與表現型(Phenotype)聯絡起來,為後續研究打下了很好的基礎。尤其是伴隨著新一代測序技術的產生(比如 Illumina公司的快速測序技術和ABI公司的SOLiD 系統技術),這種GWA分析有著非常好的應用前景,比如基於疾病分析的個體化醫療(Personalized Medicine),比如基於品質和產量分析的作物育種等等。

當然,現在這種方法還並不十分完善,主要是太依賴於統計分析了,所以假陽性(False Positive)和假陰性(False Negative)結果還是比較多的。比如說吧,透過這種方法找到的基因有可能和表型很難聯絡到一起(當然不排除我們現有認識還比較膚淺的成分),但統計結果卻很顯著,造成假陽性。再比如,有些在研究單一位點的試驗中成立並且其生物學意義也合情合理的相關性位點在這種大規模的基因組水平分析中卻由於統計顯著性的緣故被排除掉了。但不管怎麼說,至少這種方法為我們進一步研究基因功能提供了一個基本平臺,相信通過後續研究的去蕪存菁以及這種方法自身的改進,應該可以讓我們在後基因組時代的探索征途中邁出堅實的一步。