來(lái)源:hao123百家號(hào) 時(shí)間:2022-03-17 16:36:38
編輯:好困 拉燕
【新智元導(dǎo)讀】一個(gè)模型即可破譯非編碼DNA的進(jìn)化歷史和未來(lái)?
今天,機(jī)器學(xué)習(xí)再次登上Nature的封面!
這次,來(lái)自麻省理工學(xué)院和英屬哥倫比亞大學(xué)等機(jī)構(gòu)的研究人員構(gòu)建了一個(gè)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型——「神諭」。
利用數(shù)億次實(shí)驗(yàn)觀測(cè)結(jié)果進(jìn)行訓(xùn)練之后,「神諭」可以預(yù)測(cè)酵母中的非編碼DNA序列的突變會(huì)如何影響基因表達(dá)。
論文鏈接:https://www.nature.com/articles/s41586-022-04506-6#Abs1
此外,研究人員還提出了一種獨(dú)特的方法,可以在兩個(gè)維度表示適應(yīng)度地形,從而讓理解酵母之外的生物體更加輕松。甚至還能設(shè)計(jì)出一種通用的基因表達(dá)模式,用于推進(jìn)基因治療和工業(yè)化應(yīng)用。
非編碼DNA是什么?
雖然我們每個(gè)人體細(xì)胞都包含大量基因,但是所謂的「編碼DNA」僅僅占我們所有基因的1%。而剩下的99%,都不是具備編碼能力的DNA,不能通過(guò)這些DNA生成蛋白質(zhì)。
這種非編碼DNA(戲稱垃圾DNA),有一個(gè)重要功能。即,控制基因的「開(kāi)或關(guān)」,以及生成的蛋白質(zhì)的數(shù)量。
隨著時(shí)間的推移,細(xì)胞會(huì)復(fù)制DNA以生長(zhǎng)和分裂。在這些非編碼區(qū),突變時(shí)常會(huì)發(fā)生,包括功能上的微調(diào),或是改變控制基因表達(dá)的方式。
很多突變都是不值一提的,甚至還有一些突變是有好處的。然而,這些突變偶爾也會(huì)增加一些常見(jiàn)疾?。ū热?型糖尿?。┑幕疾茁?,或者更嚴(yán)重的一些疾?。ū热绨┌Y)的患病幾率。
基因表達(dá)在進(jìn)化中的可塑性
為更好的了解這種突變帶來(lái)的影響,研究人員一直在進(jìn)行對(duì)數(shù)學(xué)圖譜的研究,從而觀察生物體的基因組,預(yù)測(cè)哪些基因會(huì)被表達(dá),并確定該種表達(dá)會(huì)如何影響生物體可觀察的特征。
這些圖譜被稱作「適應(yīng)度地形」,大約一個(gè)世紀(jì)以前,「適應(yīng)度地形」被提出,目的是理解基因組成如何影響生物體的適應(yīng)型,尤其是繁殖成功率。早期的圖譜比較簡(jiǎn)單,只關(guān)注少量的突變。
適應(yīng)度地形
如今,研究人員擁有更為豐富的數(shù)據(jù)庫(kù),但他們?nèi)匀恍枰~外的工具來(lái)描述這些復(fù)雜的數(shù)據(jù),并實(shí)現(xiàn)數(shù)據(jù)的可視化。
這種能力一方面可以讓研究人員更好地理解一個(gè)單獨(dú)的基因是如何隨著時(shí)間的推移進(jìn)化,另一方面還可以幫助預(yù)測(cè)未來(lái)可能出現(xiàn)的基因序列和基因表達(dá)的變化。
AI在生物學(xué)領(lǐng)域的又一次突破
麻省理工學(xué)院的研究生Eeshit Dhaval Vaishnav、共同一作Carl de Boer,還有他們的同事們,為了實(shí)現(xiàn)這一目標(biāo),構(gòu)建了一個(gè)神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)基因表達(dá)。
他們通過(guò)在酵母中輸入上百萬(wàn)個(gè)完全隨機(jī)的非編碼DNA序列組成的數(shù)據(jù)集訓(xùn)練模型,來(lái)觀察每一個(gè)隨機(jī)序列是如何影響基因表達(dá)的。
首先,研究人員在一大群酵母細(xì)胞中測(cè)量了編碼黃色熒光蛋白(YFP)基因的表達(dá)情況。
其中,不同的細(xì)胞會(huì)攜帶不同的啟動(dòng)子。這些啟動(dòng)子位于一小塊環(huán)狀DNA上靠近YFP基因的地方,作為蛋白質(zhì)的結(jié)合位點(diǎn),啟動(dòng)子可以控制附近基因的表達(dá)。
具體來(lái)說(shuō),研究人員使用了3000多萬(wàn)個(gè)不同的啟動(dòng)子,每個(gè)啟動(dòng)子的長(zhǎng)度是80個(gè)堿基對(duì),并對(duì)每個(gè)含有這些啟動(dòng)子之一的細(xì)胞產(chǎn)生的YFP進(jìn)行量化。
基因調(diào)控DNA的進(jìn)化、可進(jìn)化性和工程化
隨后,研究人員將得到的表達(dá)數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)之中,并訓(xùn)練該網(wǎng)絡(luò)從數(shù)據(jù)中預(yù)測(cè)基因表達(dá)。
為了驗(yàn)證其有效性,研究人員合成了數(shù)千個(gè)未用于訓(xùn)練的啟動(dòng)子序列,并測(cè)量了它們驅(qū)動(dòng)基因表達(dá)的能力。
結(jié)果表明,神經(jīng)網(wǎng)絡(luò)非常準(zhǔn)確地預(yù)測(cè)了每個(gè)啟動(dòng)子序列驅(qū)動(dòng)基因表達(dá)的程度。
此外,研究人員還向該網(wǎng)絡(luò)提供了隨機(jī)的起始序列,結(jié)果同樣證明了,AI從序列中預(yù)測(cè)基因表達(dá)的能力可以用于將這些起始序列轉(zhuǎn)化為極端YFP表達(dá)的啟動(dòng)子序列。
最后,研究人員又合成了500個(gè)這些序列,并測(cè)量了它們驅(qū)動(dòng)YFP表達(dá)的能力。結(jié)果表明計(jì)算機(jī)模擬的序列確實(shí)可以驅(qū)動(dòng)非常高和非常低的表達(dá)。
為了搞清楚最基礎(chǔ)的進(jìn)化問(wèn)題,Vaishnav和他的同事們查閱了各類論文,甚至還把一個(gè)現(xiàn)有的研究中所有的數(shù)據(jù)集全放到了模型里進(jìn)行嘗試。
而想構(gòu)建一個(gè)強(qiáng)大到可以探測(cè)任何基因的工具,還需要找到一種辦法來(lái)預(yù)測(cè)非編碼序列的進(jìn)化模式,哪怕沒(méi)有完整的數(shù)據(jù)集。
為了實(shí)現(xiàn)這個(gè)目標(biāo),他們?cè)O(shè)計(jì)出了一種計(jì)算技巧,可以把預(yù)測(cè)從框架里插到二維圖像上。
如此一來(lái)便可以使用簡(jiǎn)單的方式,了解任何一個(gè)非編碼的DNA蓄力了是如何影響基因表達(dá)和基因的適應(yīng)性的,且無(wú)需在實(shí)驗(yàn)室耗時(shí)耗力的做任何實(shí)驗(yàn)。
有什么意義?
50多年來(lái),生物學(xué)家們都在試圖通過(guò)非編碼DNA序列來(lái)準(zhǔn)確預(yù)測(cè)基因表達(dá)的強(qiáng)度。然而基因表達(dá)的生化機(jī)制是非常復(fù)雜的,即便是學(xué)界盡了最大的努力也沒(méi)有實(shí)現(xiàn)這一目標(biāo)。
在這項(xiàng)研究發(fā)表以前,研究人員大多只能使用已知的突變來(lái)訓(xùn)練模型(充其量有些微小的變化)。
然而,Regev的小組邁出了更大的一步。他們構(gòu)建的無(wú)偏模型,能夠預(yù)測(cè)生物體的適應(yīng)性和基因表達(dá),這基于任何可能的DNA序列,哪怕有些基因序列從來(lái)沒(méi)有見(jiàn)到過(guò)。
實(shí)驗(yàn)證明,對(duì)于大多數(shù)起始序列,3、4個(gè)突變足以使序列演化出非常高或非常低的表達(dá)。而大約70%的酵母基因在其表達(dá)上為穩(wěn)定選擇(有利于不會(huì)導(dǎo)致表達(dá)發(fā)生巨大變化的突變的選擇)。
此外,受穩(wěn)定選擇影響的基因?qū)Ψ蔷幋aDNA突變的抵抗力更強(qiáng)。也就是說(shuō),其啟動(dòng)子的突變?cè)谳^小程度上改變了基因的表達(dá)。
「神諭」的出現(xiàn)和其他諸如預(yù)測(cè)蛋白質(zhì)折疊的深度學(xué)習(xí)應(yīng)用一樣,為科學(xué)家們探索和解釋更加廣泛的領(lǐng)域來(lái)帶了一種新的方法。
此外,「神諭」也能讓研究人員出于制藥目的控制細(xì)胞,這包括最新的治療癌癥和自身免疫失調(diào)的疾病。
麻省理工學(xué)院的生物學(xué)博士,同時(shí)也是哈佛大學(xué)和麻省理工學(xué)院博德研究所的核心成員的Aviv Regev說(shuō):「現(xiàn)在,我們有一個(gè)『神諭』,我們可以向它請(qǐng)教很多問(wèn)題,比如,如果我們把序列里所有的突變?nèi)繃L試一遍會(huì)怎樣、或是我們應(yīng)該設(shè)計(jì)出什么樣的新序列才能得到我們想要的基因表達(dá)?!?/p>
她表示,科學(xué)家們現(xiàn)在可以使用模型來(lái)解決各自的生物進(jìn)化課題,和為了預(yù)期的基因表達(dá)設(shè)計(jì)基因序列的相關(guān)問(wèn)題等等。
愛(ài)丁堡大學(xué)醫(yī)學(xué)研究委員會(huì)人類遺傳學(xué)部門(mén)的教授Martin Taylor表示,該研究充分說(shuō)明了,人工智能不僅可以預(yù)測(cè)非編碼DNA的變化,還能揭示數(shù)百萬(wàn)年生物進(jìn)化的底層邏輯。
研究的局限性
盡管如此,在蘇黎世大學(xué)從事進(jìn)化生物學(xué)和環(huán)境研究的Andreas Wagner表示,「神諭」也有其明顯的局限性。
其一,研究人員只改變了啟動(dòng)子--只是可能影響基因表達(dá)的幾種類型的序列中的一種。它沒(méi)有考慮到周?chē)鶧NA變化的影響,包括可能影響基因表達(dá)的蛋白質(zhì)編碼區(qū)的變化。
其二,它是為酵母而開(kāi)發(fā)的,在酵母中,基因調(diào)控的復(fù)雜性遠(yuǎn)低于人類。例如,酵母的調(diào)控DNA通常位于被調(diào)控基因的幾百個(gè)堿基對(duì)內(nèi),而動(dòng)物的調(diào)控DNA可能位于數(shù)百萬(wàn)個(gè)堿基對(duì)之外。因此,目前還不清楚這個(gè)方法是否能擴(kuò)展到更復(fù)雜的基因調(diào)控。
最后,就像神話中的神諭一樣,這個(gè)模型可以進(jìn)行預(yù)測(cè)但無(wú)法解釋。
它沒(méi)有告訴我們?yōu)槭裁匆粋€(gè)啟動(dòng)子有高表達(dá)或低表達(dá),哪些轉(zhuǎn)錄因子在啟動(dòng)子上結(jié)合,或者它們?nèi)绾蜗嗷プ饔谩?/p>
換句話說(shuō),它在闡明基因表達(dá)的調(diào)控邏輯方面作用不是很大。
不過(guò),我們依然可以保持謹(jǐn)慎的樂(lè)觀。
盡管用于訓(xùn)練的3000萬(wàn)個(gè)序列只是DNA的4個(gè)核苷酸可能形成的所有4^80種序列的一小部分(約2×10^-41),但該方法還是非常成功的。
由此也可以推斷出,即便是在序列空間進(jìn)行稀疏采樣,也大概率不會(huì)成為模型的障礙。
作者介紹
麻省理工學(xué)院的博士生Eeshit Dhaval Vaishnav是這項(xiàng)研究的第一作者。
他共發(fā)表過(guò)8篇頂刊論文。分別是「Nature」3篇,子刊「Nature Medicine」、「Nature Biotechnology」、「Nature Communications」各1篇,以及「Cell」1篇。
此前在印度理工學(xué)院獲得計(jì)算機(jī)科學(xué)與工程和生物科學(xué)與生物工程雙學(xué)位。
英屬哥倫比亞大學(xué)生物醫(yī)學(xué)工程學(xué)院助理教授Carl de Boer博士是共同一作。
他于2008獲得滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)和生物信息學(xué)學(xué)士學(xué)位,并于2014年獲得多倫多大學(xué)分子遺傳學(xué)博士學(xué)位,此后便一直從事博士后研究。2020年進(jìn)入英屬哥倫比亞大學(xué)成為助理教授。
麻省理工學(xué)院的生物學(xué)教授Aviv Regev博士是這項(xiàng)研究的資深研究員。
她分別于1997年和2003年在特拉維夫大學(xué)獲得碩士和博士學(xué)位,是麻省理工學(xué)院和哈佛大學(xué)Broad研究所的核心成員以及麻省理工學(xué)院生物系的教授,也是Genentech Research和Early Development的負(fù)責(zé)人。曾與Sarah Teichmann一起創(chuàng)立并領(lǐng)導(dǎo)了人類細(xì)胞圖譜項(xiàng)目。
她的研究方向是生物網(wǎng)絡(luò)、基因調(diào)控和進(jìn)化。工作重點(diǎn)是剖析復(fù)雜的分子網(wǎng)絡(luò),以確定它們?cè)诿鎸?duì)遺傳和環(huán)境變化時(shí),以及在分化、進(jìn)化和疾病期間是如何運(yùn)作和演變的。
參考資料:
https://www.nature.com/articles/s41586-022-04506-6
https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311
https://www.nature.com/articles/d41586-022-00384-0
標(biāo)簽: 前世今生
信用卡金卡和普卡區(qū)別有哪些?有什么辦理?xiàng)l件
銀行信用卡的等級(jí)大致分為三種,金卡、普卡和白金卡。每種卡片對(duì)于持卡人的資質(zhì)要求都是...
藥監(jiān)局發(fā)布消費(fèi)提示:化妝品小樣需在標(biāo)簽處呈現(xiàn)
廣東省藥監(jiān)局官方微信日前發(fā)布消費(fèi)提示類文章稱:近日,有關(guān)化妝品小樣的報(bào)道引起熱議。...
眼鏡成多家奢侈品巨頭布局賽道 眼鏡行業(yè)受捧
繼皮具、配飾之外,眼鏡正在成為多家奢侈品巨頭爭(zhēng)相布局的賽道。而這個(gè)背后,正是年輕一...
功效護(hù)膚賽道兩極分化 企業(yè)紛紛加碼研發(fā)
國(guó)內(nèi)功效護(hù)膚賽道呈現(xiàn)兩極分化:一邊是功效護(hù)膚巨頭手握營(yíng)收高速增長(zhǎng)的光鮮業(yè)績(jī),一邊則...
“少年航天科普特訓(xùn)營(yíng)”舉行,VR空間站引關(guān)注