• <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

    <table id="fficu"></table>

    <sup id="fficu"></sup>
    <output id="fficu"></output>
    1. ACS880-07C
      關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
      橫河電機-23年10月11日
      2024
      工業(yè)智能邊緣計算2024年會(huì )
      2024中國自動(dòng)化產(chǎn)業(yè)年會(huì )
      2023年工業(yè)安全大會(huì )
      OICT公益講堂
      當前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

      資訊頻道

      首個(gè)知識與數據聯(lián)合驅動(dòng)的多物種生命基礎大模型GeneCompass
      • 點(diǎn)擊數:5     發(fā)布時(shí)間:2024-10-25 21:57:51
      • 分享到:
      近年來(lái),大語(yǔ)言模型(LLMs)已在自然語(yǔ)言處理、計算機視覺(jué)等通用領(lǐng)域引發(fā)了新一輪技術(shù)革命,進(jìn)而通過(guò)與不同自然學(xué)科分支的融合形成了人工智能驅動(dòng)的科學(xué)研究新范式。在生命科學(xué)領(lǐng)域,單細胞組學(xué)技術(shù)的突破產(chǎn)生了大量不同物種細胞的基因表達譜數據,形成了海量的生命“語(yǔ)料”。

      近年來(lái),大語(yǔ)言模型(LLMs)已在自然語(yǔ)言處理、計算機視覺(jué)等通用領(lǐng)域引發(fā)了新一輪技術(shù)革命,進(jìn)而通過(guò)與不同自然學(xué)科分支的融合形成了人工智能驅動(dòng)的科學(xué)研究新范式。在生命科學(xué)領(lǐng)域,單細胞組學(xué)技術(shù)的突破產(chǎn)生了大量不同物種細胞的基因表達譜數據,形成了海量的生命“語(yǔ)料”。如果把基因表達值看作單詞,它們組合在一起就構成了細胞“句子”,進(jìn)而形成了組織“段落”和器官“文章”,而不同物種可以看作生命“語(yǔ)種”。利用LLMs相關(guān)技術(shù)學(xué)習和理解這些生命“語(yǔ)料”,有望構建系統精準破解基因密碼的生命基礎大模型,探索生命普遍存在的基因調控機制,增進(jìn)理解生命底層共性規律并創(chuàng )新各種重大疾病的診療手段。

      中國科學(xué)院動(dòng)物研究所、中國科學(xué)院自動(dòng)化研究所、中國科學(xué)院計算技術(shù)研究所、中國科學(xué)院計算機網(wǎng)絡(luò )信息中心、中國科學(xué)院數學(xué)與系統科學(xué)研究院等組成多學(xué)科交叉研究團隊在生命科學(xué)人工智能(AI for Life Science)研究方面取得了重要突破,于2024年10月發(fā)表在生命科學(xué)領(lǐng)域頂級期刊Cell Research上。

      論文建立了世界首個(gè)知識與數據聯(lián)合驅動(dòng)的多物種生命基礎大模型GeneCompass,同時(shí)處理了人類(lèi)和小鼠兩個(gè)物種的轉錄組數據,包含了超過(guò)1.26億個(gè)單細胞并覆蓋3.6萬(wàn)個(gè)基因,融合了啟動(dòng)子序列、基因共表達關(guān)系、基因家族標注和基因調控關(guān)系等四種先驗知識。GeneCompass的參數量超過(guò)1.3億,實(shí)現了對基因表達調控規律的全景式學(xué)習理解,同時(shí)支持細胞狀態(tài)變化預測及多種生命過(guò)程的精準分析,展示了人工智能賦能生命科學(xué)研究的強大能力和巨大潛力。

      模型架構:知識嵌入的生命基礎大模型GeneCompass

      GeneCompass是國際上首個(gè)融入先驗知識的預訓練基礎大模型,發(fā)展了知識與數據聯(lián)合驅動(dòng)的新范式。GeneCompass采用gene2vec、DNABert等工具將啟動(dòng)子序列、已知基因調控網(wǎng)絡(luò )、基因家族信息和基因共表達關(guān)系等四種生物學(xué)先驗知識進(jìn)行編碼,在單細胞轉錄組的基因ID和表達值基礎上加入人類(lèi)注釋信息編碼,提高了對生物數據間復雜特征關(guān)聯(lián)關(guān)系的理解。通過(guò)訓練整合了不同物種的數據信息及先驗知識,GeneCompass顯著(zhù)提升了多種下游任務(wù)的性能,有望進(jìn)一步提高傳統生物學(xué)研究的效率和精準性,為尚無(wú)法突破的復雜生命科學(xué)難題帶來(lái)新的切入點(diǎn)。

      GeneCompass采用基于Transformer的深度學(xué)習架構,通過(guò)擴展傳統的掩碼語(yǔ)言模型Masked Auto Encoder(MAE)方式進(jìn)行預訓練,根據單細胞轉錄組的上下文同時(shí)預測掩碼的基因ID及其表達值,捕獲不同基因之間在不同細胞背景下的長(cháng)程動(dòng)態(tài)關(guān)聯(lián),通過(guò)多任務(wù)聯(lián)合預訓練形成更加細粒度的生命基礎大模型。預訓練完成后,GeneCompass進(jìn)一步應用于多種下游任務(wù),對單細胞轉錄組數據進(jìn)行編碼,支撐細胞類(lèi)型標注、基因擾動(dòng)預測、藥物反應預測和基因調控關(guān)系預測等多種任務(wù)。

      GeneCompass模型架構

      規模效應:多物種聯(lián)合訓練捕獲生物共性進(jìn)化保守規律

      研究人員發(fā)現基于大規??缥锓N數據的預訓練模型對于單物種的子任務(wù)符合尺度定律(scaling law):即較大規模的多物種預訓練數據量較單一物種數據量產(chǎn)生更優(yōu)異的預訓練表征,并進(jìn)一步提高下游任務(wù)的性能。這一發(fā)現顯示了物種間存在保守的基因調控規律,并且這些規律能夠被預訓練模型學(xué)習理解。這同時(shí)預示著(zhù)隨物種和數據的擴展,模型性能有望進(jìn)一步提升。

      研究結果:GeneCompass具有跨物種表征能力

      研究人員對人類(lèi)和小鼠同一細胞類(lèi)型(心肌細胞)中同源基因和非同源基因的GeneCompass編碼進(jìn)行了相似性分析,可以看出相較于非同源基因,不同物種的同源基因具有更相似的編碼,同源基因在人類(lèi)和小鼠之間也具有相似的基因調控關(guān)系。

      研究人員將GeneCompass編碼后的基因嵌入與跨物種細胞類(lèi)型標注的當前最優(yōu)方法CAME進(jìn)行結合,發(fā)現在多種細胞尤其是視網(wǎng)膜細胞中,GeneCompass能夠顯著(zhù)提升跨物種細胞類(lèi)型標注的精度。這些結果都展示了GeneCompass通過(guò)多物種聯(lián)合預訓練獲得了生命底層的共性規律,增強了基因表征的能力。

      在基因擾動(dòng)預測、藥物反應預測、基因調控預測、藥物劑量反應預測、劑量敏感基因預測等多種下游任務(wù)中GeneCompass模型均展現出強大的功能。

      綜上所述,作為迄今為止最大規模的、具有知識嵌入的跨物種預訓練生命基礎大模型,GeneCompass可實(shí)現多個(gè)跨物種下游任務(wù)的遷移學(xué)習,并在細胞類(lèi)型注釋、定量基因擾動(dòng)預測、藥物敏感性分析等多個(gè)任務(wù)中取得比現有方法更優(yōu)的性能。這充分展示了基于多物種無(wú)標注大數據預訓練,再利用不同子任務(wù)數據進(jìn)行模型微調的策略?xún)?yōu)勢,有望成為實(shí)現基因-細胞特征相關(guān)聯(lián)的各種生物問(wèn)題分析預測的通用解決方案。

      中國科學(xué)院自動(dòng)化所劉國樂(lè )和江潔與合作單位的楊曉東、馮桂海、卜德超、王鵬飛、陳述白、楊沁蒙等為文章共同第一作者。自動(dòng)化所楊戈研究員,劉靜研究員與合作單位李鑫研究員、陳益強研究員、李非研究員、周元春研究員、趙屹研究員為共同通訊作者。


      論文鏈接

      代碼鏈接


      來(lái)源:中國科學(xué)院自動(dòng)化研究所



      熱點(diǎn)新聞

      推薦產(chǎn)品

      x
      • 在線(xiàn)反饋
      1.我有以下需求:



      2.詳細的需求:
      姓名:
      單位:
      電話(huà):
      郵件:
      欧美精品欧美人与动人物牲交_日韩乱码人妻无码中文_国产私拍大尺度在线视频_亚洲男人综合久久综合天

    2. <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

      <table id="fficu"></table>

      <sup id="fficu"></sup>
      <output id="fficu"></output>