中國科學(xué)院大學(xué) 陳孟卓
華為云 鄭子木
摘要:隨著(zhù)大模型進(jìn)入應用時(shí)代,針對個(gè)性化、合規、實(shí)時(shí)性需求,邊側大模型服務(wù)成為大趨勢。其中,政務(wù)大模型是最為典型的邊側大模型行業(yè)應用之一。在各地政府,政務(wù)領(lǐng)域應用該模型能推進(jìn)業(yè)務(wù)辦理智能化,幫助政府機構提升處理效率和服務(wù)質(zhì)量。然而,現有大模型基準測試大多集中于評估模型的通用能力或者特定學(xué)科任務(wù)的性能,而對于模型在特定行業(yè)中的應用能力,例如處理政務(wù)的能力評測方面,卻缺乏相應的評測數據集。為填補這一空白,本文提出了一種新的中文政務(wù)理解基準測試(A Chinese Government Affairs Understanding Evaluation Benchmark,CGAUE)。本基準是開(kāi)放、社區驅動(dòng)的,不僅包含對模型的客觀(guān)能力測試集,還提供對模型主觀(guān)能力的測試集。具體來(lái)說(shuō),本基準旨在評估大模型在處理政務(wù)相關(guān)任務(wù)時(shí)的表現,包括但不限于對外部知識的利用以及對實(shí)際市民問(wèn)題的響應能力,更真實(shí)地反映模型在實(shí)際政務(wù)場(chǎng)景中的應用效果。此外,本文還提出了一種新的測試集參考格式。該格式在大模型領(lǐng)域具有通用性和兼容性,可促進(jìn)不同測試集的相互交換、集成和處理,以及不同模型之間的比較和評估,推動(dòng)了大模型評測產(chǎn)業(yè)發(fā)展??偟膩?lái)說(shuō),本工作通過(guò)構建全新的中文政務(wù)理解評估基準和評測數據集參考格式,推動(dòng)了大模型在實(shí)際政務(wù)領(lǐng)域的應用和評測。這不僅有助于提高模型在行業(yè)中的實(shí)用性,也為大模型的研究和開(kāi)發(fā)提供了新的方向和挑戰。
關(guān)鍵詞:大模型;基準測試;政務(wù)大模型
在線(xiàn)預覽:邊側大模型基準測試:政務(wù)大模型初探.pdf
摘自《自動(dòng)化博覽》2025年2月刊