來源:hao123百家號 時間:2022-03-17 16:36:38
編輯:好困 拉燕
【新智元導(dǎo)讀】一個模型即可破譯非編碼DNA的進(jìn)化歷史和未來?
今天,機器學(xué)習(xí)再次登上Nature的封面!
這次,來自麻省理工學(xué)院和英屬哥倫比亞大學(xué)等機構(gòu)的研究人員構(gòu)建了一個深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型——「神諭」。
利用數(shù)億次實驗觀測結(jié)果進(jìn)行訓(xùn)練之后,「神諭」可以預(yù)測酵母中的非編碼DNA序列的突變會如何影響基因表達(dá)。
論文鏈接:https://www.nature.com/articles/s41586-022-04506-6#Abs1
此外,研究人員還提出了一種獨特的方法,可以在兩個維度表示適應(yīng)度地形,從而讓理解酵母之外的生物體更加輕松。甚至還能設(shè)計出一種通用的基因表達(dá)模式,用于推進(jìn)基因治療和工業(yè)化應(yīng)用。
非編碼DNA是什么?
雖然我們每個人體細(xì)胞都包含大量基因,但是所謂的「編碼DNA」僅僅占我們所有基因的1%。而剩下的99%,都不是具備編碼能力的DNA,不能通過這些DNA生成蛋白質(zhì)。
這種非編碼DNA(戲稱垃圾DNA),有一個重要功能。即,控制基因的「開或關(guān)」,以及生成的蛋白質(zhì)的數(shù)量。
隨著時間的推移,細(xì)胞會復(fù)制DNA以生長和分裂。在這些非編碼區(qū),突變時常會發(fā)生,包括功能上的微調(diào),或是改變控制基因表達(dá)的方式。
很多突變都是不值一提的,甚至還有一些突變是有好處的。然而,這些突變偶爾也會增加一些常見疾病(比如2型糖尿?。┑幕疾茁?,或者更嚴(yán)重的一些疾?。ū热绨┌Y)的患病幾率。
基因表達(dá)在進(jìn)化中的可塑性
為更好的了解這種突變帶來的影響,研究人員一直在進(jìn)行對數(shù)學(xué)圖譜的研究,從而觀察生物體的基因組,預(yù)測哪些基因會被表達(dá),并確定該種表達(dá)會如何影響生物體可觀察的特征。
這些圖譜被稱作「適應(yīng)度地形」,大約一個世紀(jì)以前,「適應(yīng)度地形」被提出,目的是理解基因組成如何影響生物體的適應(yīng)型,尤其是繁殖成功率。早期的圖譜比較簡單,只關(guān)注少量的突變。
適應(yīng)度地形
如今,研究人員擁有更為豐富的數(shù)據(jù)庫,但他們?nèi)匀恍枰~外的工具來描述這些復(fù)雜的數(shù)據(jù),并實現(xiàn)數(shù)據(jù)的可視化。
這種能力一方面可以讓研究人員更好地理解一個單獨的基因是如何隨著時間的推移進(jìn)化,另一方面還可以幫助預(yù)測未來可能出現(xiàn)的基因序列和基因表達(dá)的變化。
AI在生物學(xué)領(lǐng)域的又一次突破
麻省理工學(xué)院的研究生Eeshit Dhaval Vaishnav、共同一作Carl de Boer,還有他們的同事們,為了實現(xiàn)這一目標(biāo),構(gòu)建了一個神經(jīng)網(wǎng)絡(luò)模型來預(yù)測基因表達(dá)。
他們通過在酵母中輸入上百萬個完全隨機的非編碼DNA序列組成的數(shù)據(jù)集訓(xùn)練模型,來觀察每一個隨機序列是如何影響基因表達(dá)的。
首先,研究人員在一大群酵母細(xì)胞中測量了編碼黃色熒光蛋白(YFP)基因的表達(dá)情況。
其中,不同的細(xì)胞會攜帶不同的啟動子。這些啟動子位于一小塊環(huán)狀DNA上靠近YFP基因的地方,作為蛋白質(zhì)的結(jié)合位點,啟動子可以控制附近基因的表達(dá)。
具體來說,研究人員使用了3000多萬個不同的啟動子,每個啟動子的長度是80個堿基對,并對每個含有這些啟動子之一的細(xì)胞產(chǎn)生的YFP進(jìn)行量化。
基因調(diào)控DNA的進(jìn)化、可進(jìn)化性和工程化
隨后,研究人員將得到的表達(dá)數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)之中,并訓(xùn)練該網(wǎng)絡(luò)從數(shù)據(jù)中預(yù)測基因表達(dá)。
為了驗證其有效性,研究人員合成了數(shù)千個未用于訓(xùn)練的啟動子序列,并測量了它們驅(qū)動基因表達(dá)的能力。
結(jié)果表明,神經(jīng)網(wǎng)絡(luò)非常準(zhǔn)確地預(yù)測了每個啟動子序列驅(qū)動基因表達(dá)的程度。
此外,研究人員還向該網(wǎng)絡(luò)提供了隨機的起始序列,結(jié)果同樣證明了,AI從序列中預(yù)測基因表達(dá)的能力可以用于將這些起始序列轉(zhuǎn)化為極端YFP表達(dá)的啟動子序列。
最后,研究人員又合成了500個這些序列,并測量了它們驅(qū)動YFP表達(dá)的能力。結(jié)果表明計算機模擬的序列確實可以驅(qū)動非常高和非常低的表達(dá)。
為了搞清楚最基礎(chǔ)的進(jìn)化問題,Vaishnav和他的同事們查閱了各類論文,甚至還把一個現(xiàn)有的研究中所有的數(shù)據(jù)集全放到了模型里進(jìn)行嘗試。
而想構(gòu)建一個強大到可以探測任何基因的工具,還需要找到一種辦法來預(yù)測非編碼序列的進(jìn)化模式,哪怕沒有完整的數(shù)據(jù)集。
為了實現(xiàn)這個目標(biāo),他們設(shè)計出了一種計算技巧,可以把預(yù)測從框架里插到二維圖像上。
如此一來便可以使用簡單的方式,了解任何一個非編碼的DNA蓄力了是如何影響基因表達(dá)和基因的適應(yīng)性的,且無需在實驗室耗時耗力的做任何實驗。
有什么意義?
50多年來,生物學(xué)家們都在試圖通過非編碼DNA序列來準(zhǔn)確預(yù)測基因表達(dá)的強度。然而基因表達(dá)的生化機制是非常復(fù)雜的,即便是學(xué)界盡了最大的努力也沒有實現(xiàn)這一目標(biāo)。
在這項研究發(fā)表以前,研究人員大多只能使用已知的突變來訓(xùn)練模型(充其量有些微小的變化)。
然而,Regev的小組邁出了更大的一步。他們構(gòu)建的無偏模型,能夠預(yù)測生物體的適應(yīng)性和基因表達(dá),這基于任何可能的DNA序列,哪怕有些基因序列從來沒有見到過。
實驗證明,對于大多數(shù)起始序列,3、4個突變足以使序列演化出非常高或非常低的表達(dá)。而大約70%的酵母基因在其表達(dá)上為穩(wěn)定選擇(有利于不會導(dǎo)致表達(dá)發(fā)生巨大變化的突變的選擇)。
此外,受穩(wěn)定選擇影響的基因?qū)Ψ蔷幋aDNA突變的抵抗力更強。也就是說,其啟動子的突變在較小程度上改變了基因的表達(dá)。
「神諭」的出現(xiàn)和其他諸如預(yù)測蛋白質(zhì)折疊的深度學(xué)習(xí)應(yīng)用一樣,為科學(xué)家們探索和解釋更加廣泛的領(lǐng)域來帶了一種新的方法。
此外,「神諭」也能讓研究人員出于制藥目的控制細(xì)胞,這包括最新的治療癌癥和自身免疫失調(diào)的疾病。
麻省理工學(xué)院的生物學(xué)博士,同時也是哈佛大學(xué)和麻省理工學(xué)院博德研究所的核心成員的Aviv Regev說:「現(xiàn)在,我們有一個『神諭』,我們可以向它請教很多問題,比如,如果我們把序列里所有的突變?nèi)繃L試一遍會怎樣、或是我們應(yīng)該設(shè)計出什么樣的新序列才能得到我們想要的基因表達(dá)?!?/p>
她表示,科學(xué)家們現(xiàn)在可以使用模型來解決各自的生物進(jìn)化課題,和為了預(yù)期的基因表達(dá)設(shè)計基因序列的相關(guān)問題等等。
愛丁堡大學(xué)醫(yī)學(xué)研究委員會人類遺傳學(xué)部門的教授Martin Taylor表示,該研究充分說明了,人工智能不僅可以預(yù)測非編碼DNA的變化,還能揭示數(shù)百萬年生物進(jìn)化的底層邏輯。
研究的局限性
盡管如此,在蘇黎世大學(xué)從事進(jìn)化生物學(xué)和環(huán)境研究的Andreas Wagner表示,「神諭」也有其明顯的局限性。
其一,研究人員只改變了啟動子--只是可能影響基因表達(dá)的幾種類型的序列中的一種。它沒有考慮到周圍DNA變化的影響,包括可能影響基因表達(dá)的蛋白質(zhì)編碼區(qū)的變化。
其二,它是為酵母而開發(fā)的,在酵母中,基因調(diào)控的復(fù)雜性遠(yuǎn)低于人類。例如,酵母的調(diào)控DNA通常位于被調(diào)控基因的幾百個堿基對內(nèi),而動物的調(diào)控DNA可能位于數(shù)百萬個堿基對之外。因此,目前還不清楚這個方法是否能擴(kuò)展到更復(fù)雜的基因調(diào)控。
最后,就像神話中的神諭一樣,這個模型可以進(jìn)行預(yù)測但無法解釋。
它沒有告訴我們?yōu)槭裁匆粋€啟動子有高表達(dá)或低表達(dá),哪些轉(zhuǎn)錄因子在啟動子上結(jié)合,或者它們?nèi)绾蜗嗷プ饔谩?/p>
換句話說,它在闡明基因表達(dá)的調(diào)控邏輯方面作用不是很大。
不過,我們依然可以保持謹(jǐn)慎的樂觀。
盡管用于訓(xùn)練的3000萬個序列只是DNA的4個核苷酸可能形成的所有4^80種序列的一小部分(約2×10^-41),但該方法還是非常成功的。
由此也可以推斷出,即便是在序列空間進(jìn)行稀疏采樣,也大概率不會成為模型的障礙。
作者介紹
麻省理工學(xué)院的博士生Eeshit Dhaval Vaishnav是這項研究的第一作者。
他共發(fā)表過8篇頂刊論文。分別是「Nature」3篇,子刊「Nature Medicine」、「Nature Biotechnology」、「Nature Communications」各1篇,以及「Cell」1篇。
此前在印度理工學(xué)院獲得計算機科學(xué)與工程和生物科學(xué)與生物工程雙學(xué)位。
英屬哥倫比亞大學(xué)生物醫(yī)學(xué)工程學(xué)院助理教授Carl de Boer博士是共同一作。
他于2008獲得滑鐵盧大學(xué)計算機科學(xué)和生物信息學(xué)學(xué)士學(xué)位,并于2014年獲得多倫多大學(xué)分子遺傳學(xué)博士學(xué)位,此后便一直從事博士后研究。2020年進(jìn)入英屬哥倫比亞大學(xué)成為助理教授。
麻省理工學(xué)院的生物學(xué)教授Aviv Regev博士是這項研究的資深研究員。
她分別于1997年和2003年在特拉維夫大學(xué)獲得碩士和博士學(xué)位,是麻省理工學(xué)院和哈佛大學(xué)Broad研究所的核心成員以及麻省理工學(xué)院生物系的教授,也是Genentech Research和Early Development的負(fù)責(zé)人。曾與Sarah Teichmann一起創(chuàng)立并領(lǐng)導(dǎo)了人類細(xì)胞圖譜項目。
她的研究方向是生物網(wǎng)絡(luò)、基因調(diào)控和進(jìn)化。工作重點是剖析復(fù)雜的分子網(wǎng)絡(luò),以確定它們在面對遺傳和環(huán)境變化時,以及在分化、進(jìn)化和疾病期間是如何運作和演變的。
參考資料:
https://www.nature.com/articles/s41586-022-04506-6
https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311
https://www.nature.com/articles/d41586-022-00384-0
標(biāo)簽: 前世今生
信用卡金卡和普卡區(qū)別有哪些?有什么辦理條件
銀行信用卡的等級大致分為三種,金卡、普卡和白金卡。每種卡片對于持卡人的資質(zhì)要求都是...
藥監(jiān)局發(fā)布消費提示:化妝品小樣需在標(biāo)簽處呈現(xiàn)
廣東省藥監(jiān)局官方微信日前發(fā)布消費提示類文章稱:近日,有關(guān)化妝品小樣的報道引起熱議。...
眼鏡成多家奢侈品巨頭布局賽道 眼鏡行業(yè)受捧
繼皮具、配飾之外,眼鏡正在成為多家奢侈品巨頭爭相布局的賽道。而這個背后,正是年輕一...
功效護(hù)膚賽道兩極分化 企業(yè)紛紛加碼研發(fā)
國內(nèi)功效護(hù)膚賽道呈現(xiàn)兩極分化:一邊是功效護(hù)膚巨頭手握營收高速增長的光鮮業(yè)績,一邊則...
“少年航天科普特訓(xùn)營”舉行,VR空間站引關(guān)注