2024年9月19日,中國科學(xué)院地理科學(xué)與資源研究所聯(lián)合中國科學(xué)院青藏高原研究所、中國科學(xué)院自動(dòng)化研究所等單位研發(fā)的多模態(tài)地理科學(xué)大模型“坤元”(Sigma Geography)正式發(fā)布。
大模型是指通過(guò)海量數據訓練的深度學(xué)習模型,具備強大的語(yǔ)言理解、信息生成和處理能力?!袄ぴ笔菍?zhuān)注于地理科學(xué)的專(zhuān)業(yè)語(yǔ)言大模型,具備處理地理科學(xué)相關(guān)問(wèn)題的專(zhuān)業(yè)能力。研發(fā)團隊完成了地理學(xué)全譜系高質(zhì)量語(yǔ)料庫構建、地理科學(xué)語(yǔ)言大模型構建、地理科學(xué)研究智導平臺研發(fā)等工作,讓“坤元”具備“懂地理”“精配圖”“知人心”“智生圖”等特點(diǎn),實(shí)現了地理專(zhuān)業(yè)問(wèn)題解答、地理學(xué)文獻智能分析、地理數據資源查詢(xún)、地理數據挖掘分析、專(zhuān)題地圖繪制等功能。
在“懂地理”方面,該團隊建立了涵蓋4大類(lèi)、16小類(lèi)的地理全學(xué)科語(yǔ)料庫,提供了320億詞元供大模型自監督學(xué)習,制作了4萬(wàn)余條高質(zhì)量地理學(xué)指令進(jìn)行模型微調。與通用語(yǔ)言大模型相比,“坤元”更熟悉地理學(xué)的語(yǔ)言模式、專(zhuān)業(yè)術(shù)語(yǔ)和領(lǐng)域知識,并在地理學(xué)基準測試集上的準確性提升了31.3%。
在“精配圖”方面,該團隊自主研發(fā)了面向多層次地圖信息的多模態(tài)檢索技術(shù)以及支持地理認知與圖形表達的知識推理技術(shù)。這些技術(shù)使得“坤元”能夠在解答地理學(xué)提問(wèn)的同時(shí),可以根據生成的文字答案檢索不同地理要素,并匹配地理景觀(guān)照片、專(zhuān)題地圖或示意圖表呈現給提問(wèn)者。
在“知人心”方面,該團隊創(chuàng )新性地提出了基于“認知啟航-應用智導-前沿研析”框架的用戶(hù)畫(huà)像精準判別與響應技術(shù),保證“坤元”能夠充分考慮地理知識愛(ài)好者、地理學(xué)專(zhuān)業(yè)學(xué)生和科研人員的地理科學(xué)知識體系認知和表達差異,以圖文共現的方式給出適配用戶(hù)知識結構的地理學(xué)專(zhuān)業(yè)問(wèn)題解答。
在“智生圖”方面,該團隊基于“坤元”開(kāi)發(fā)的科研助手,可以根據用戶(hù)指令完成概念理解、數據獲取、信息分析、制圖綜合等流程,生成用戶(hù)需要的專(zhuān)業(yè)地理圖表。
“坤元”旨在拓寬普通大眾的地理視野,解放地理從業(yè)者的雙手,推動(dòng)地理智能發(fā)展,賦能地理科學(xué)研究,加速重要地理科學(xué)發(fā)現。目前,“坤元”已支撐發(fā)表Nature子刊、The innovation、Earth’s Future等高水平學(xué)術(shù)論文10余篇。未來(lái),研發(fā)團隊將推進(jìn)地圖大模型與地理推理機研發(fā),以期讓地理科學(xué)語(yǔ)言大模型讀懂地圖;將打造地理科研協(xié)作大平臺,以期讓每個(gè)科學(xué)家和科研團隊都可以擁有專(zhuān)屬的地理大模型,并能夠與數百萬(wàn)科學(xué)家通過(guò)共享數據、模型、研究思路等方式協(xié)同工作。
多模態(tài)地理科學(xué)大模型“坤元”
來(lái)源:中國科學(xué)院自動(dòng)化研究所