近日,國內(nèi) Genos 團隊發(fā)布全新基因組模型插件 Gengram,將 DeepSeek “外掛大腦” 模式引入生命科學(xué)領(lǐng)域,通過構(gòu)建 “基因字典” 與動態(tài)檢索機制,大幅提升基因組大模型性能,助力破解 DNA 序列密碼,推動生命科學(xué)研究邁入新階段。
當前主流基因組大模型多采用單堿基分詞處理方式,將 DNA 序列拆分為單個堿基分析,雖精準卻效率低下,易在數(shù)億堿基長序列中丟失關(guān)鍵信息,難以高效識別啟動子、剪接位點等由特定堿基組合決定的功能元件。針對這一瓶頸,Genos 團隊借鑒 DeepSeek Engram “外掛大腦” 思路,創(chuàng)新推出 Gengram,實現(xiàn) “靜態(tài)模體識別” 與 “動態(tài)語境推理” 的結(jié)構(gòu)解耦。
Gengram核心在于構(gòu)建外置 “基因字典”,團隊預(yù)建涵蓋 1 至 6 堿基長度的哈希字典,存儲生物學(xué)常見短序列組合,模型讀取序列時可直接檢索先驗知識,無需從零推導(dǎo)。同時配備動態(tài)門控機制,在編碼區(qū)、關(guān)鍵調(diào)控區(qū)激活記憶庫調(diào)用,在無功能背景區(qū)抑制檢索,精準分配算力,減少無效計算。
測試中,Gengram 展現(xiàn)出驚人的生物學(xué)適配性。研究發(fā)現(xiàn),當局部信息聚合窗口設(shè)為 21bp(堿基對)時模型性能最優(yōu),這一數(shù)值恰好對應(yīng) DNA 雙螺旋旋轉(zhuǎn)兩圈的長度,讓模型處理一維序列時能捕捉三維空間中堿基的協(xié)同作用,自主悟出 DNA 雙螺旋物理規(guī)律,實現(xiàn)對生命本質(zhì)的深度理解。
作為僅約 20M 參數(shù)的輕量插件,Gengram 以小體量撬動大性能。數(shù)據(jù)顯示,搭載該插件的模型刷新多項基因組任務(wù) SOTA 記錄,剪接位點識別等任務(wù) AUC 提升 16.1%;且數(shù)據(jù)能效比突出,小規(guī)模訓(xùn)練數(shù)據(jù)即可媲美甚至超越訓(xùn)練數(shù)據(jù)規(guī)模數(shù)十倍的公開模型。此外,在 MoE 模型中,Gengram 還能優(yōu)化負載均衡,提升模型訓(xùn)練與推理效率。
目前,Gengram 已應(yīng)用于華大基因遺傳病臨床檢測大語言模型 GeneT,助力提升遺傳病分析解讀水平,推動精準醫(yī)療發(fā)展。該技術(shù)基于團隊去年 10 月發(fā)布的全球首個百億級人類基因組基礎(chǔ)模型 Genos 研發(fā),背后是之江實驗室與華大生命科學(xué)研究院的強強聯(lián)合,融合頂尖組學(xué)大數(shù)據(jù)經(jīng)驗與計算模型能力,打造出杭州 AI for Science 領(lǐng)域的創(chuàng)新力量。
從逐字識別 ATCG 排列,到借助 “基因字典” 讀懂序列含義,Gengram 的發(fā)布標志著基因組 AI 研究實現(xiàn)關(guān)鍵跨越。未來,隨著技術(shù)持續(xù)優(yōu)化,Gengram 有望拓展至蛋白質(zhì)結(jié)構(gòu)預(yù)測、藥物靶點發(fā)現(xiàn)等領(lǐng)域,為生命科學(xué)研究與臨床應(yīng)用提供更強大的 AI 工具,助力人類真正讀懂 “生命之書”。
網(wǎng)站首頁 | 公司簡介 | 加入我們 | 聯(lián)系我們 | 虛擬主機 | 無錫網(wǎng)頁設(shè)計 | 域名注冊
無錫企業(yè)做網(wǎng)站模版 | 無錫做網(wǎng)站 | 無錫企業(yè)網(wǎng)站建設(shè)|先舟erp| 無錫不銹鋼加工廠|軟瓷
版權(quán)所有:無錫世融網(wǎng)絡(luò)科技有限公司 Copyright?2010 蘇ICP備10231109號-3 ICP電信經(jīng)營許可證:蘇B2-20100211