當前,多模態(tài)大語(yǔ)言模型(MLLMs)在處理涉及視覺(jué)、語(yǔ)言和音頻的復雜任務(wù)中取得了顯著(zhù)進(jìn)展,但現有的先進(jìn)模型仍然缺乏與人類(lèi)意圖偏好的充分對齊,即無(wú)法高質(zhì)量地按照人類(lèi)偏好習慣理解并完成指令任務(wù)?,F有的對齊研究多集中于某些特定領(lǐng)域(例如減少幻覺(jué)問(wèn)題),而是否通過(guò)與人類(lèi)偏好對齊可以全面提升多模態(tài)大語(yǔ)言模型的各種能力仍是一個(gè)未知數。
為探究這一問(wèn)題,中國科學(xué)院自動(dòng)化研究所聯(lián)合快手、南京大學(xué)建立了MM-RLHF——一個(gè)包含12萬(wàn)對精細標注的人類(lèi)偏好比較數據集,并基于此數據集進(jìn)行多項創(chuàng )新,從數據集,獎勵模型以及訓練算法三個(gè)層面入手推動(dòng)多模態(tài)大語(yǔ)言模型對齊的發(fā)展,全面提升多模態(tài)大語(yǔ)言模型在視覺(jué)感知、推理、對話(huà)和可信度等多個(gè)維度的能力。
MM-RLHF數據集包含三個(gè)維度的打分、排序、文本描述的具體原因以及平局等標注。所有標注均由人類(lèi)專(zhuān)家完成。與現有資源相比,該數據集在規模、多樣性、標注精細度和質(zhì)量方面均有顯著(zhù)提升。以此為基礎,本研究提出了一種基于批判的獎勵模型(Critique-Based Reward Model),該模型在評分之前先對模型輸出進(jìn)行批判分析,相比傳統的標量獎勵機制,提供了更具可解釋性、信息量更豐富的反饋。此外,團隊提出動(dòng)態(tài)獎勵縮放(Dynamic Reward Scaling)方法,根據獎勵信號調整每個(gè)樣本的損失權重,從而優(yōu)化高質(zhì)量比較數據在訓練中的使用,進(jìn)一步提高了數據的使用效率。
MM-RLHF數據集
研究團隊在10個(gè)評估維度,27個(gè)基準測試上對提出的方案進(jìn)行了嚴格評估。結果表明,模型性能得到了顯著(zhù)且持續的提升。比較突出的是,基于提出的數據集和對齊算法對LLaVA-ov-7B模型進(jìn)行微調后,其對話(huà)能力平均提升19.5%,安全性平均提升60%。
全面評估結果
本研究充分展示了高質(zhì)量、細粒度數據集MM-RLHF在推動(dòng)多模態(tài)大語(yǔ)言模型對齊工作上的巨大潛力。下一步,研究團隊將將重點(diǎn)利用數據集豐富的注釋粒度與先進(jìn)的優(yōu)化技術(shù),結合高分辨率數據來(lái)解決特定基準的局限性,并使用半自動(dòng)化策略高效地擴展數據集。這些努力不僅將推動(dòng)多模態(tài)大語(yǔ)言模型對齊到新的高度,還將為更廣泛、更具普適性的多模態(tài)學(xué)習框架奠定基礎。
MM-RLHF數據集、訓練算法、模型以及評估pipeline均已全面開(kāi)源。
項目主頁(yè):https://mm-rlhf.github.io
來(lái)源:中國科學(xué)院自動(dòng)化研究所