近來(lái),大模型技術(shù)引發(fā)了全球對通用人工智能的廣泛關(guān)注,在產(chǎn)業(yè)界、科研界掀起了巨大熱潮。在人工智能技術(shù)大顯身手、取得矚目成就的同時(shí),如何應對技術(shù)跨越所帶來(lái)的風(fēng)險并進(jìn)行管控與治理,如何判斷人工智能系統是否具備通用人工智能的性能等,也日益成為各方關(guān)注的焦點(diǎn)。在筆者看來(lái),當下,我國科學(xué)界和產(chǎn)業(yè)界要抓住這一歷史機遇,明確通用人工智能的發(fā)展路徑和方向,牢牢把握解讀和評估通用人工智能的話(huà)語(yǔ)權,盡快搭建并完善通用人工智能測試評級標準與平臺。
在建構人工智能評測系統方面,早在1950年,英國計算機科學(xué)家阿蘭·圖靈就提出了基于行為的圖靈測試:如果一臺機器能夠與人類(lèi)展開(kāi)對話(huà)而不被人類(lèi)辨別出其機器身份,則稱(chēng)這臺機器通過(guò)了測試。人工智能發(fā)展至今,現有的人工智能測試體系各自所呈現出的局限性,已無(wú)法滿(mǎn)足通用人工智能的研究訴求:圖靈測試不足以準確衡量人工智能的智能程度、任務(wù)導向測試(俗稱(chēng)“刷榜”),可能導致人工智能過(guò)度適應某項特定任務(wù),當前很多基于Unity(一種實(shí)時(shí)三維互動(dòng)內容創(chuàng )作和運營(yíng)平臺)的虛擬環(huán)境測試則在模擬復雜物理交互方面有所欠缺……顯然,傳統的人工智能測試已不適用于通用人工智能系統的評級。
另外,很多應用者反映,當下熱門(mén)的大模型常常出現“腦霧”與“認知眩暈”等現象,在產(chǎn)業(yè)落地中出現問(wèn)題。歸根結底,是因為這種基于數據驅動(dòng)的大模型仍然缺“心”,缺乏明確的認知架構和價(jià)值體系,只能按照人類(lèi)設定的程序,機械地對問(wèn)題進(jìn)行反饋,求解“填空題”。這也倒逼通用人工智能測試之“心”要具備兩個(gè)結構:其一為價(jià)值體系,具備符合人類(lèi)價(jià)值觀(guān)的通用智能體,才能被廣泛接納;其二為認知架構,這是通用智能體與人交流、合作的基礎。價(jià)值體系、認知架構不僅應是驅動(dòng)通用人工智能自主任務(wù)生成的根本內驅力,也是保障通用人工智能安全運轉的關(guān)鍵。智能體只有具備了“良知”的知識體系及可以與人類(lèi)溝通解釋的“認知架構”,才能形成人機信任關(guān)系,實(shí)現人機和諧共生。
針對科學(xué)測試人工智能所需的種種條件,近期,筆者帶領(lǐng)團隊依據發(fā)展心理學(xué)和心智理論,參考人類(lèi)嬰幼兒發(fā)育的測試標準,研究總結出一種基于能力和價(jià)值的通用人工智能評測方法,并開(kāi)發(fā)了復雜動(dòng)態(tài)的物理場(chǎng)景(模擬仿真)和社會(huì )交互(混合現實(shí))的測試平臺——通智測試。這項成果于今年8月發(fā)表在中國工程院院刊《工程(英文)》上,這也是該領(lǐng)域發(fā)布的全球首個(gè)評級測試標準與平臺。
該測試強調在復雜動(dòng)態(tài)的物理及社會(huì )環(huán)境中,通用人工智能系統(智能體)應滿(mǎn)足三個(gè)基本標準:
一是能完成無(wú)限任務(wù)并具備任務(wù)泛化能力,不依賴(lài)人類(lèi)定義和訓練任務(wù)。任務(wù)被定義為智能體對物理世界屬性(如顏色、位置、速度等)或社會(huì )狀態(tài)(如感知、認知、決策、心智等)狀態(tài)的改變。人類(lèi)在與外界交互時(shí)會(huì )產(chǎn)生無(wú)限可能,通用智能體需在這些場(chǎng)景中理解人類(lèi)意圖、與人協(xié)作,其任務(wù)和運動(dòng)的規劃必須符合物理因果與社會(huì )規范。
二是能根據變化的場(chǎng)景自主生成任務(wù),不依賴(lài)于人類(lèi)分配任務(wù),做到俗話(huà)說(shuō)的“眼里有活”。反之,如果智能體只能執行人類(lèi)提前設定好的任務(wù),不論是基于規則或者統計模型,既不能對預設之外的任務(wù)做到自主定義,也無(wú)法在與陌生環(huán)境交互中自動(dòng)生成新任務(wù),并不能適應人類(lèi)社會(huì )的動(dòng)態(tài)性與多樣性。
三是由價(jià)值驅動(dòng)并具有自我意識和層次化的價(jià)值體系。智能體能夠自主生成并完成符合人類(lèi)需求的任務(wù),一套合適的價(jià)值系統至關(guān)重要。這套價(jià)值體系必須融入人類(lèi)價(jià)值觀(guān),使智能體有能力學(xué)習和理解人類(lèi)的價(jià)值偏好,并最終實(shí)現與人類(lèi)價(jià)值的同向甚至對齊。例如,如果兒童提出不安全的要求,智能體能否識別出任務(wù)的不合理之處,并自主形成新任務(wù)。
通智測試從智能體探索和認知世界規律的各自感知、認知、運動(dòng)、交互、社會(huì )、學(xué)習等能力,以及對自我、他人和群體的價(jià)值理解學(xué)習這兩個(gè)角度入手,搭建了具體可行的測試平臺架構。測試全面考慮了通用人工智能的關(guān)鍵特征,填補了通用人工智能評測的空白,突破了傳統圖靈測試的方法局限,在人工智能領(lǐng)域具有創(chuàng )新價(jià)值:不但有助于指導研究者為通用人工智能構建綜合的設計架構與完善的評估體系,而且能為人工智能安全治理問(wèn)題提供積極的解決方案。
在通智測試評估體系下,管理者可針對不同水平的智能體制定差異化監管準入機制,對通用人工智能規范化發(fā)展具有參考意義。此外,通智測試評級機制還可以為通用人工智能的科研路徑提供明晰可靠的路線(xiàn)圖,協(xié)助相關(guān)領(lǐng)域研究者找準科研道路上的前進(jìn)方向。
來(lái)源:《光明日報》