讓機器像人一樣思考,是很多人工智能(AI)從業(yè)者的美好愿景,也是不少投資人看好的賽道。
今年9月,由清華大學(xué)知識工程實(shí)驗室(KEG)孵化的人工智能企業(yè)智譜AI宣布獲得數億元人民幣B輪融資。本次融資由君聯(lián)資本和啟明創(chuàng )投聯(lián)合領(lǐng)投,將被用來(lái)繼續投入打造高性能千億級普惠大模型。
啟明創(chuàng )投合伙人周志峰表示:“下一個(gè)十年,人工智能將走向認知智能。預訓練大模型是其核心技術(shù)推動(dòng)力和關(guān)鍵基礎設施,讓AI吸收更多的知識去理解和思考,最終實(shí)現接近人類(lèi)水平的認知。同時(shí),預訓練大模型使得AI從依賴(lài)手工調參建模走向可大規模復制的工業(yè)化階段?!?/p>
最近,人工智能公司OpenAI發(fā)布的AI聊天機器人ChatGPT成功“破圈”,它可以按照要求寫(xiě)詩(shī)、寫(xiě)新聞稿甚至生成代碼,使得大模型的創(chuàng )新熱潮備受關(guān)注。這一賽道上的智譜AI也再次走進(jìn)了“聚光燈”下。
打造國產(chǎn)開(kāi)源大模型
2020年6月,人工智能公司OpenAI發(fā)布了GPT-3語(yǔ)言模型,其千億參數的規模和強大的語(yǔ)言處理能力攪動(dòng)了AI領(lǐng)域的“一池春水”。今年年初,OpenAI將GPT-3微調為InstructGPT ,減少了不真實(shí)、有偏差的輸入。如今,OpenAI又將其進(jìn)一步升級為ChatGPT,并在線(xiàn)上測試中展現出驚人的語(yǔ)言能力。
遺憾的是,GPT-3 的模型參數不開(kāi)源,僅以付費API(應用程序編程接口)的形式提供給海外用戶(hù)(中國地區不可用),這給研究者對模型的深入探索設立了壁壘。
當前,雖然互聯(lián)網(wǎng)公司Meta開(kāi)源了大模型OPT,AI創(chuàng )業(yè)公司Hugging Face開(kāi)源了BLOOM,但用戶(hù)至少需要一臺 A100(80G×8)服務(wù)器才能啟動(dòng)推理,大部分普通研究者仍然被擋在門(mén)檻之外。
與此相對的是,今年8月,由KEG與智譜AI共同研發(fā)的大規模中英文預訓練語(yǔ)言模型GLM-130B正式發(fā)布,該模型以開(kāi)源開(kāi)放的形式供研究機構或個(gè)人免費下載使用。團隊在模型量化方面做了大量嘗試,用戶(hù)可以在一臺 A100(40G×8)或V100(32G×8)服務(wù)器上進(jìn)行推理。
不久前,美國斯坦福大學(xué)基礎模型研究中心負責人Percy Liang等開(kāi)展了一項研究,對國際上眾多大模型進(jìn)行對比,其中GLM-130B模型在魯棒性和正確率方面均取得了較好的表現,且該評測僅使用英文任務(wù),GLM-130B可同時(shí)支持中英雙語(yǔ)。
從2021年12月起,清華大學(xué)KEG、PACMAN(并行與分布式計算機系統)、NLP(自然語(yǔ)言處理)等實(shí)驗室開(kāi)始了關(guān)于訓練千億參數的稠密模型的討論。隨著(zhù)工作的推進(jìn),研究團隊一直沒(méi)有找到充足、穩定的計算資源用于模型訓練。
今年4月,在了解到清華大學(xué)KEG的千億參數GLM模型訓練缺少計算資源的情況后,智譜AI決定為這一項目免費提供模型訓練所需的算力支持。
經(jīng)過(guò)多方的協(xié)調與努力,智譜AI最終租用了近百臺A100服務(wù)器,為KEG提供了模型訓練所需的算力,并致力于將這一研究開(kāi)源、開(kāi)放,讓研究界和產(chǎn)業(yè)界都能以超低成本理解大模型和使用大模型。
“如此規模的算力、以月為單位的租用,其成本對于創(chuàng )業(yè)公司來(lái)說(shuō)不是筆小數目,但公司還是毅然決定為項目提供支持?!敝亲VAI總裁王紹蘭表示,“我們希望通過(guò)這樣的方式,讓更多人直接用上大模型,帶動(dòng)更多人了解和認可大模型。最終,讓大模型技術(shù)像云計算、大數據一樣成為信息化、智能化系統的基礎設施,為各行各業(yè)賦能?!?/p>
大模型賦能的數字人
連日來(lái),第二十二屆世界杯足球賽正在卡塔爾進(jìn)行,在相關(guān)視頻App的世界杯轉播報道中,總會(huì )有一個(gè)熟悉的身影出現在視頻節目左下角。
她是智譜AI研發(fā)的AI手語(yǔ)數字人華同學(xué),可以為觀(guān)眾提供專(zhuān)業(yè)、準確的手語(yǔ)體育賽事解說(shuō),向聽(tīng)障人群傳遞足球場(chǎng)上的“聲音”。
早在北京冬奧會(huì )和冬殘奧會(huì )期間,華同學(xué)就曾服務(wù)于《北京您早》節目,對“冬奧賽事集錦”和“一起看冬奧”進(jìn)行手語(yǔ)播報。
“用數字人完成手語(yǔ)播報,不僅降低了冬奧運營(yíng)成本,還彰顯了冬奧的科技創(chuàng )新力?!蓖踅B蘭介紹,智譜AI研發(fā)的智慧手語(yǔ)系列產(chǎn)品,涵蓋手語(yǔ)播報、手語(yǔ)翻譯以及手語(yǔ)詞典三種應用,滿(mǎn)足手語(yǔ)信息播報、實(shí)時(shí)翻譯交流、手語(yǔ)學(xué)習等多個(gè)場(chǎng)景的需求。
“大規模預訓練模型賦能的數字人,體現了智譜AI的社會(huì )公益情懷,讓科技更有溫度?!蓖踅B蘭表示,“以千億級預訓練大模型為核心,我們的數字人已經(jīng)在A(yíng)I虛擬面試官、虛擬主持人、智能客服、陪聊機器人等場(chǎng)景得到應用。接下來(lái),我們還將繼續拓展數字人的應用場(chǎng)景,建立數字人生態(tài)合作,加快實(shí)現‘數智人’?!?/p>
《中國科學(xué)報》獲悉,智譜AI基于開(kāi)源的千億雙語(yǔ)預訓練模型GLM,推出了聊天機器人XDAI和chatGLM,讓機器模擬人類(lèi)的思考模式,實(shí)現知識具象化的對話(huà)系統。
與此同時(shí),在大模型的技術(shù)基礎之上,智譜AI還提出了Model as a Service(MaaS)的市場(chǎng)理念,即提供模型共訓服務(wù)、模型授權服務(wù),以及API開(kāi)放平臺等,聯(lián)合上下游伙伴建設大模型生態(tài)。
在生態(tài)建設方面,智譜AI與中國計算機學(xué)會(huì )(CCF)聯(lián)合發(fā)起了CCF-智譜大模型基金,圍繞預訓練大模型理論、算法、模型、應用等相關(guān)研究提供資助,希望通過(guò)降低大模型研究的門(mén)檻,讓每一名計算機領(lǐng)域的科研工作者均有機會(huì )參與大模型的研究,推進(jìn)大模型技術(shù)和應用的創(chuàng )新落地。
經(jīng)歷時(shí)間檢驗的初心
沒(méi)有一次成功是偶然的,技術(shù)走出實(shí)驗室并投入市場(chǎng)應用更是如此。
智譜AI成立于2019年,由清華大學(xué)KEG的技術(shù)成果轉化而來(lái)。在智譜AI核心團隊中,首席執行官張鵬畢業(yè)于清華大學(xué)計算機系,董事長(cháng)劉德兵是中國工程院院士高文的弟子,王紹蘭則是清華大學(xué)創(chuàng )新領(lǐng)軍博士。
早在2006年,清華大學(xué)KEG就啟動(dòng)了科技信息分析引擎ArnetMiner(以下簡(jiǎn)稱(chēng)AMiner)的相關(guān)研究,到真正實(shí)現產(chǎn)業(yè)化,即智譜AI成立的時(shí)候已經(jīng)過(guò)去十多年。當年的研究團隊先后獲得了國際頂級會(huì )議SIGKDD的十年最佳論文、國家科學(xué)進(jìn)步獎二等獎、北京市發(fā)明專(zhuān)利獎一等獎。
“技術(shù)要實(shí)現產(chǎn)業(yè)化還需要做到洞察市場(chǎng)需求、持續創(chuàng )新推廣、賦能產(chǎn)業(yè)生態(tài)?!蓖踅B蘭回憶,“當時(shí)僅僅是為了抓取、清洗數據,我們就在南京專(zhuān)門(mén)成立了分公司,共40多人,從一開(kāi)始的手工標注,到逐漸建立起技術(shù)規則,再到將AI算法靈活應用于其中?!?/p>
在日復一日的打磨和探索下,如今的AMiner系統收錄了全球1億余位學(xué)者、38萬(wàn)家機構發(fā)表的3.3億篇論文、1.1億篇專(zhuān)利、280萬(wàn)個(gè)科研項目,并構建了億級高清知識圖譜,涵蓋40個(gè)學(xué)科800萬(wàn)個(gè)知識概念和11億條關(guān)聯(lián)信息,每年吸引全球220個(gè)國家/地區的3000多萬(wàn)獨立IP訪(fǎng)問(wèn)。
這些年來(lái),從實(shí)驗室的技術(shù)出發(fā),智譜AI一直保持初心,努力學(xué)習?!皩?shí)現知識與大模型的融合需要產(chǎn)學(xué)研強結合,需要打造研究生態(tài)、硬件生態(tài)、智算生態(tài)、應用生態(tài)、組織生態(tài)?!蓖踅B蘭向《中國科學(xué)報》透露,“我們希望通過(guò)打造支持不同場(chǎng)景、不同方向的智能應用程序的底層人工智能架構,賦能千行百業(yè),‘讓機器像人一樣思考’將是可以觸及的未來(lái)?!?/p>
來(lái)源:《中國科學(xué)報》