近日,Nature Communications發(fā)表了題為Optimization of C-to-G base editors with sequence context preference predictable by machine learning methods的研究論文,該研究由中國科學院腦科學與智能技術(shù)卓越創(chuàng)新中心、上海腦科學與類腦研究中心研究員孫怡迪研究組與中國農(nóng)業(yè)科學院深圳農(nóng)業(yè)基因組研究所研究員左二偉研究組合作完成。該研究建立了深度學習模型的算法CGBE-SMART,該方法能夠準確預測新型OPTI-CGBEs的單堿基編輯效率和編輯效果。
單堿基編輯技術(shù)是基于CRISPR/Cas系統(tǒng)改造發(fā)展的新型基因編輯技術(shù),可在不引入DNA雙鏈斷裂的情況下,精確地將DNA或RNA中的一個堿基替換為另一個堿基。目前,已開發(fā)并得到廣泛應用的堿基編輯器包括胞嘧啶堿基編輯器(cytosine base editor,CBE)及腺嘌呤堿基編輯器(adenine base editor,ABE),但這兩種堿基編輯器只能實現(xiàn)將C·G堿基對替換為T·A堿基對(C→T),或?qū)·T替換為G·C(A→G)。因此,CBE或ABE只能修復由C>T或者A>G導致的遺傳表型或疾病,而對于其他類型的單堿基突變卻束手無策。2020年,科研人員在CBE的基礎(chǔ)上,研發(fā)了能夠?qū)奏まD(zhuǎn)換為鳥嘌呤的堿基編輯器(C-to-G base editor,CGBE)。而關(guān)于CGBE編輯器的研究仍處于初步階段,對于其特異性、保真性及編輯特點仍需要進一步研究。David Liu實驗室與其合作者對CGBEs系統(tǒng)進行改造與升級,構(gòu)建了高效的CGBEs編輯器。為能夠方便科研人員的日常研究,人工智能與基因編輯結(jié)合的愈發(fā)緊密,David Liu及Hyongbum Henry Kim等實驗室分別建立了可預測單堿基編輯器編輯效果的BE-Hive及DeepBE等深度學習模型。
孫怡迪研究組與左二偉研究組通過篩選不同物種來源的UNGs、密碼子優(yōu)化和全基因組及轉(zhuǎn)錄組范圍測序,獲得了可進行高效C到G堿基顛換以及高保真的OPTI-CGBEs。為了方便其他研究人員選擇合適的C-to-G堿基編輯器以及高效預估編輯效率,科研人員建立了預測不同C-to-G堿基編輯器編輯效果的深度學習模型CGBE-SMART(如圖)。CGBE-SMART結(jié)合了神經(jīng)網(wǎng)絡及概率圖模型,為每一個編輯位置獨立訓練一套參數(shù)來預測該位置上的編輯效率。模型使用了大小不同的卷積核,建立一組基礎(chǔ)單元網(wǎng)絡對編輯位置周圍的堿基進行特征提取和效率預測。研究人員將不同基礎(chǔ)單元網(wǎng)絡的預測結(jié)果用一套習得的參數(shù)進行加權(quán)平均。模型以編輯位點附近的40bp作為輸入,通過神經(jīng)網(wǎng)絡預測出guide RNA結(jié)合位置1至20的編輯效率,并進一步利用貝葉斯網(wǎng)絡預測不同編輯結(jié)果的占比(圖a)。研究人員將CGBE-SMART用在不同的CGBE編輯器的8個文庫數(shù)據(jù)集上進行實驗。在所有的8個數(shù)據(jù)集上,BE-SMART具有較高的預測準確性(圖b)。CGBE-SMART能夠準確預測C-to-G編輯效率,且與之前的預測模型相比,在預測C-to-T編輯效果中有更出色的表現(xiàn)。
研究人員全面優(yōu)化了CGBE堿基編輯器,獲得了高編輯效率與低脫靶的OPTI-CGBEs;通過機器學習開發(fā)了CGBE-SMART深度學習模型用于預測OPTI-CGBEs編輯結(jié)果。該研究將進一步加速CGBE的應用研究。研究工作得到國家自然科學基金委員會、中國農(nóng)業(yè)科學院、深圳市的資助。
CGBE深度學習模型方法構(gòu)建思路。a、CGBE-SMART深度學習模型示意圖;b、CGBE-SMART預測模型的設計