研究
AI突破基因密碼:科學家成功將胺基酸種類從20減至19

摘要
科學家利用AI工具,成功改造核糖體,使其能在缺少一種關鍵胺基酸(異白胺酸)的情況下運作。這項突破性研究不僅探索了簡化遺傳密碼的可能性,也為理解早期生命形式提供了新視角,並展現了AI在蛋白質設計上的強大潛力。儘管改造後的細胞生長速度較慢,此成就仍為合成生物學和基礎生物學研究開闢了新方向。
多餘的。研究團隊利用AI工具,改造了部分核糖體,使其所需胺基酸種類減少一種。遺傳密碼是生命的核心。除了微小的變異,所有生命都使用相同的三聯DNA鹼基組來編碼相同的20種胺基酸。我們尚未發現主要例外,這讓研究人員推斷此密碼可能源自地球上所有生命的共同祖先。然而,關於遺傳密碼最初如何演化,一直存在許多有根據的推測。大多數假說認為,早期生命形式擁有不完整的遺傳密碼,使用的胺基酸種類少於20種。為了驗證這些假說,哥倫比亞大學和哈佛大學的團隊決定嘗試移除目前使用的20種胺基酸中的一種。作為首次嘗試,他們改造了部分核糖體,使其在不使用一種原本必需的胺基酸——異白胺酸(isoleucine)的情況下也能運作。改變遺傳密碼首先,為什麼要這麼做?該領域的大多數研究都專注於以實用的方式改變遺傳密碼,例如使用超過20種胺基酸來實現有趣的化學反應。這裡的推論似乎是,在地球上所有生命的共同祖先出現之前,生物體曾嘗試過各種遺傳密碼,並可能使用蛋白質和催化性RNA的混合物來維持其代謝。雖然我們對催化性RNA進行了大量研究,但對於簡化遺傳密碼可能實現何種化學反應,我們的了解卻少得多。研究人員指出,基於AI的工具已經足夠成熟,使得重新設計蛋白質以使用更少胺基酸,比幾年前更具可行性。異白胺酸(Isoleucine)是三種高度相似的胺基酸之一,另外兩種是白胺酸(leucine)和纈胺酸(valine)。在與其他胺基酸不同的結構部分,這三種胺基酸都具有完全由碳和氫組成的支鏈結構。這使得它們都具有疏水性,並且通常位於蛋白質內部,使其遠離細胞的水性環境。因此,純粹從推論來看,這三種胺基酸中的一種似乎是個很好的移除候選。參與研究的科學家們用證據支持了這一推論。他們分析了大腸桿菌(_E. coli_)的基因組,檢查在其他物種的相關蛋白質中,哪些胺基酸被其他胺基酸取代。結果發現,異白胺酸是被替換頻率最高的胺基酸。因此,研究人員決定開始探討我們是否真的需要它。編輯大腸桿菌中約4,500個基因將是一項艱鉅的任務,而且一次進行這麼多改變幾乎肯定會導致其死亡,因此研究人員從規模小得多的測試開始。首先,他們選取了36個必需基因,將其中所有的異白胺酸替換為相似的胺基酸纈胺酸(valine),然後將引入的基因放回基因組中。對於其中22個基因,這樣做導致細胞死亡。但這確實表明有17個基因在沒有異白胺酸的情況下仍能正常運作,其中一個基因在胺基酸鏈上的45個不同位置都進行了替換。值得注意的是,即使在細胞能容忍這種改變的情況下,其生長速度通常也比未編輯的細胞慢。這將成為一個反覆出現的主題。重新設計核糖體為了讓專案有個重點,研究人員決定開始設計一個不含異白胺酸的核糖體。核糖體是由蛋白質和RNA組成的大型複合體,負責將信使RNA轉譯成蛋白質——你可以將它想像成是從基因組啟動活細胞所需的硬體組件之一。顯然,核糖體中的許多蛋白質都具有關鍵的酶活性。但要將這個複合體組裝起來,這些蛋白質必須彼此以及與RNA相互作用。因此,核糖體提供了一個嚴格的測試,以判斷細胞是否能容忍移除一種胺基酸的工程改造。作為初步測試,研究團隊對50個不同的單一基因進行了異白胺酸到纈胺酸的替換,這些基因都為核糖體提供蛋白質。其中18個基因運作沒有明顯問題,另外19個生長較慢,而其餘13個基因的改變則是致命的。隨後,團隊將重點放在32個適應性降低的基因上,並調整了深度學習蛋白質設計軟體,以建議不包含異白胺酸的替代序列。利用四種不同的軟體套件進行迭代測試後,為這32種蛋白質中的25種產生了替代蛋白質序列,消除了適應性問題。對於剩下的五種蛋白質,他們回頭強制改變異白胺酸。然後,他們讓軟體設計蛋白質三維結構中與其物理距離接近的胺基酸的改變,其想法是胺基酸的改變可能會以某種方式破壞蛋白質結構,而附近胺基酸的其他改變可以彌補。這使得五種問題蛋白質中的四種成功地重新設計。儘管這些都是令人印象深刻的成就,但單獨測試它們並不能真正全面地說明這些重新設計的蛋白質是否能組裝出功能等效的核糖體。為此,研究人員決定從核糖體小次單元的所有蛋白質中移除異白胺酸。這主要是為了方便。小次單元中21種蛋白質的基因都聚集在基因組上一個長達10,000個鹼基的區段上,因此研究人員可以一次性替換所有這些基因。從小處著手利用先前工作中重新設計的蛋白質,他們開始替換這段10,000個鹼基DNA上越來越長的基因片段。從一側開始,他們替換了10個基因,沒有遇到任何問題。當他們替換到21個基因中的17個時,細胞生長速度變慢。然而,一次性替換18個基因則完全殺死了細胞。因此,他們從另一個方向開始實驗,發現這些改變都能被容忍,直到他們遇到從另一個方向實驗時也被認定有問題的相同基因。這個名為_rplW_的基因似乎是關鍵的瓶頸。替換21個基因中的20個,而保留_rplW_不動,導致細胞不僅存活下來,而且以未經修改的大腸桿菌細胞約70%的速度生長。因此,他們仔細研究了軟體為_rplW_建議的改變。結果發現,軟體透過刪除附近一些短的胺基酸片段來彌補異白胺酸的改變。雖然這顯然能產生一個功能性蛋白質,但其差異足以使其無法與所有其他改變結合運作。在這一點上,團隊只是採取了暴力破解的方式。他們讓軟體套件為_rplW_中四個異白胺酸位置的每一個建議多種替代胺基酸,並測試了所有可能的組合(總共16種設計)。其中一種設計成功完成了不含異白胺酸的小次單元,所得菌株的生長速度約為未編輯菌株的60%。這些細胞被培養了400代,通常會產生20-30個突變,但這些突變都沒有將異白胺酸恢復到任何核糖體蛋白質中。值得注意的是,如果單獨將這個版本的_rplW_放回基因組中,細胞會死亡。它只有在所有其他重新設計的蛋白質對核糖體造成的改變的背景下才能被容忍。關於AI應用的一些說明尚不清楚如果沒有大量使用AI工具,這些是否可能實現。所有的蛋白質設計工具都是基於AI的,其輸出結果都經過AlphaFold 2(獲得諾貝爾獎的AI蛋白質結構軟體)的檢查。論文作者強調了多個案例,其中AI軟體提出了大多數生物學家會迴避的建議。這些建議包括將結構靈活、中性的異白胺酸替換為帶電胺基酸或鎖定在剛性結構中的胺基酸。儘管如此,結果也顯示了目前AI模型在應用上的局限性,主要是因為它們不像人類,無法真正解釋其決策過程。例如,一些模型提出了彼此截然不同的建議,研究人員表示這暗示它們正在探索可能序列空間的不同區域。但我們實際上不知道是否真是如此,或者每個模型是否都有數學上的理由不喜歡對方的建議。這只是論文中多個案例之一,研究人員試圖根據模型的輸出結果反向推斷模型正在做什麼。至少在一個案例中,軟體重新設計了異白胺酸所在的一個完整結構元素(一個α螺旋),其原因他們甚至無法猜測。這很好地提醒我們,目前這些軟體套件只是工具:它們讓我們能夠做一些原本不可能的事情,但它們實際上並沒有幫助我們理解太多。我們仍然需要利用我們腦中的神經網路來推理解釋這些現象。這不一定是必然的;我們可以在開發這些軟體時,更著重於揭示其內部運作機制,以便深入了解其決策過程。但就目前而言,我認為重點(相當合理地)一直放在讓它能運作。驚人的成就,但實用嗎?總體而言,這是一項令人震驚的工作。這些蛋白質必須彼此互動,與核糖體RNA、轉運RNA、信使RNA以及核糖體製造的生長中蛋白質互動——再加上大次單元上的所有正常蛋白質。這些都經過了數十億年的演化,才具備彼此協同工作的能力。我們能在短短幾年內對這個系統做出如此根本性的改變,簡直令人難以置信。我們仍然不知道是什麼原因導致這些細胞生長緩慢。可能是改造後的核糖體準確性較低,在組裝胺基酸鏈時產生更多錯誤,導致製造出更多有缺陷的蛋白質。或者它的催化速度較慢,成為細胞生長的瓶頸。這絕對是我們可以進行實驗的方面,給予菌株時間演化,可能會使其生長速度有所回升。我們能否將其作為起點,最終實現一個不含異白胺酸的基因組?我認為這仍屬於「可能」的範疇。細胞中還有許多其他大型蛋白質複合體,AI工具可能難以應付其中一些。我們將拭目以待這些實驗室是否有時間和資金繼續這條道路。儘管如此,我仍然懷疑它能告訴我們多少關於普遍共同祖先之前生命的信息,考慮到在此期間細胞的其他部分發生了多少變化。然而,它可能在這方面證明是有效的,因為它可能會激勵其他科學家思考,進行哪些實驗可以讓我們更清楚地了解具有有限遺傳密碼的細胞可能長什麼樣子。《科學》雜誌,2026年。DOI: [10.1126/science.aeb5171](http://dx.doi.org/10.1126/science.aeb5171) ([關於DOI](http://arstechnica.com/science/news/2010/03/dois-and-their-discontents-1/))。
標籤
基因工程胺基酸核糖體改造蛋白質設計人工智慧合成生物學
以上為 AI 自動翻譯導讀。原文版權歸 Ars Technica AI 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。