美國麻省理工學院和哈佛大學博德研究所最新開發出一種名為FLSHclust的新算法,在數十億個蛋白質序列中發現了188個罕見且以前未知的CRISPR連接基因模塊,其中包括新的VII型CRISPR-Cas系統。新發現為利用CRISPR系統和了解微生物蛋白質的功能多樣性提供了新機會。
CRISPR系統已被用來開發越來越多的新型生物分子方法,包括著名的CRISPR/Cas介導的基因組編輯。而此前未知的CRISPR系統的出現,將推動這些生物技術進一步發展。
不過,盡管CRISPR工具箱已通過蛋白質序列數據庫得到擴展。但常用的算法在挖掘包含數十億蛋白質呈指數增長的數據集時,顯得不切實際。
為了解決這一限制,研究團隊開發了FLSHclust算法,這是一種通過序列相似性對蛋白質進行聚類的算法,與目前可用的方法不同,它能快速有效地分析大量蛋白質序列數據庫。
利用新算法,團隊在包含80億個蛋白質和1020萬個CRISPR陣列的宏基因組數據庫中搜索罕見的CRISPR系統,發現了188個以前未知的CRISPR相關基因,同時鑒定并表征了一類新的包含CRISPR系統的Cas-14(即VII型),其作用于RNA。
此次新發現的系統十分罕見。研究人員表示,這種先前未知的Cas基因和CRISPR系統的發現,極大地擴展了CRISPR的多樣性,揭示了CRISPR系統前所未有的組織和功能的靈活性與模塊化,同時也表明大多數變異都是罕見的。
【總編輯圈點】
近年來,CRISPR-Cas9基因編輯技術在生命科學等領域得到迅速推廣和應用。它成本低廉,簡單易用,成為科學家做生物學實驗的得力助手。不僅如此,該技術本身也成為生命科學領域備受關注的熱門研究課題。需要指出的是,盡管CRISPR-Cas9基因編輯技術非常好用,但它并不完美。因此,發現更多的CRISPR-Cas系統,豐富了基因編輯技術“工具箱”,為生命科學研究提供了更多選擇,同時也有望促進基因編輯技術繼續迭代升級。
科技日報北京11月26日電(記者張夢然)