北京郵電大學(xué)信息與通信工程學(xué)院沈昕炎,林亞捷,許方敏,趙成林
1 引言
隨著(zhù)第四次工業(yè)革命的推動(dòng),工業(yè)生產(chǎn)逐漸邁入了數字化和智能化的時(shí)代,這不僅改變了傳統制造業(yè)的面貌,也為企業(yè)帶來(lái)了前所未有的機遇與挑戰[1]。AI大模型作為驅動(dòng)工業(yè)創(chuàng )新的關(guān)鍵引擎,在生產(chǎn)制造、研發(fā)設計和經(jīng)營(yíng)管理等方面發(fā)揮了巨大作用,也對構建高效、經(jīng)濟、智能、安全、可靠的網(wǎng)絡(luò )和計算基礎設施提出了更為迫切的需求[2]。算力網(wǎng)絡(luò ),作為“算力+連接”的融合形式,充分反映了新基建對5G、工業(yè)互聯(lián)網(wǎng)等基礎設施以及AI、云/邊緣計算、區塊鏈等新技術(shù)服務(wù)的融合需求。工業(yè)大模型的持續推進(jìn),對算力網(wǎng)絡(luò )在計算資源、海量數據傳輸與存儲、實(shí)時(shí)性和安全性等方面提出了更高的要求。本文旨在深入調研工業(yè)大模型的發(fā)展現狀,探究發(fā)展趨勢,提出面向工業(yè)大模型的算力網(wǎng)絡(luò )架構,并探討其中的關(guān)鍵技術(shù)問(wèn)題,以促進(jìn)工業(yè)領(lǐng)域數字化轉型的加速發(fā)展。
2 工業(yè)大模型發(fā)展現狀
2.1 AI大模型發(fā)展歷程
自20世紀50年代人工智能誕生以來(lái),AI大模型一直以多維共進(jìn)的高速發(fā)展為特點(diǎn),經(jīng)歷了以CNN等傳統神經(jīng)網(wǎng)絡(luò )模型為代表的萌芽期、以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò )模型的沉淀期和以GPT為代表的預訓練大模型爆發(fā)期[3],如圖1所示。大模型每年的參數規模至少提升了10倍,從預訓練模型到大規模預訓練模型再到超大規模預訓練模型,實(shí)現了從億級到百萬(wàn)億級的飛躍。此外,大模型也從最初支持文本、圖像、語(yǔ)音等單一模態(tài)下的單一任務(wù),逐漸演化為支持多種模態(tài)下的多任務(wù)。在各個(gè)發(fā)展階段,涌現出多個(gè)代表性的AI大模型。
在技術(shù)架構方面,Transformer架構是當前AI大模型領(lǐng)域的主流算法架構基礎。2018年,自然語(yǔ)言處理模型參數量達到了3億規模;2020年,OpenAI提出了首個(gè)千億級的GPT-3模型,將模型規模推向了新的高峰;2023年OpenAI推出新一代多模態(tài)大模型GPT-4,升級了ChatGPT的人機交互能力;同年5月,谷歌推出升級版多模態(tài)模型PaLM2,宣布在其辦公套件Workspace和搜索引擎中嵌入新一代人工智能系統。在國內,華為于2021年發(fā)布了首個(gè)中文千億級的盤(pán)古模型;同年,中科院自動(dòng)化所提出了首個(gè)三模態(tài)的紫東太初模型,預示著(zhù)AI大模型進(jìn)一步走向通用場(chǎng)景。
在應用場(chǎng)景方面,AI大模型可分為通用大模型和行業(yè)大模型兩種類(lèi)型?;谕ㄓ么竽P?,結合行業(yè)知識,衍生出了以工業(yè)大模型為主的一系列行業(yè)大模型,滿(mǎn)足了工業(yè)制造業(yè)、金融業(yè)、能源業(yè)等不同領(lǐng)域的應用需求。
圖1 AI大模型發(fā)展歷程
2.2 AI大模型在工業(yè)領(lǐng)域的應用
2023年5月發(fā)布的《工業(yè)數字化/智能化2030白皮書(shū)》[4]指出,數字化正全面改變工業(yè)生產(chǎn)的基本功能,正推動(dòng)新的生產(chǎn)要素、制造體系、研發(fā)范式和組織形態(tài)的涌現,它是塑造工業(yè)體系、推進(jìn)工業(yè)化進(jìn)程和改變全球工業(yè)格局的最重要技術(shù)變量。
根據2023年IDC發(fā)布的《AI大模型在工業(yè)應用展望,2023》報告,大模型在工業(yè)中的應用主要分為兩個(gè)方向,如圖2所示。一是增強場(chǎng)景模型的泛化能力,以提升模型的適用性,二是利用自然語(yǔ)言對話(huà)和內容生成能力改變應用的交互方式,包括生成文檔、報表等。通過(guò)運用深度學(xué)習、強化學(xué)習等先進(jìn)技術(shù),工業(yè)大模型能夠高效處理海量數據,能夠快速識別生產(chǎn)過(guò)程中的問(wèn)題和瓶頸,實(shí)現對生產(chǎn)過(guò)程的精細化管理[5]。
圖2 工業(yè)大模型發(fā)展方向
3 工業(yè)大模型對算力網(wǎng)絡(luò )需求和挑戰
近年來(lái),云/邊緣計算在工業(yè)領(lǐng)域嶄露頭角,為實(shí)現物聯(lián)網(wǎng)設備的智能和自治提供了關(guān)鍵支持。云計算作為中心化的大數據處理平臺,在復雜多樣的工業(yè)場(chǎng)景中,對低時(shí)延和高可靠性的需求日益凸顯。邊緣計算充分利用物聯(lián)網(wǎng)設備的嵌入式計算能力,在終端實(shí)現了更為智能的數據處理和決策,從而降低了數據傳輸時(shí)延,但邊緣計算仍面臨著(zhù)資源有限和管理復雜的問(wèn)題。
在這一演進(jìn)過(guò)程中,算力網(wǎng)絡(luò )成為解決云/邊緣計算挑戰的新范式。算力網(wǎng)絡(luò )強調了算力資源的泛在化部署和協(xié)同優(yōu)化,以支持工業(yè)大模型在復雜環(huán)境中的高效運行。工業(yè)大模型的飛速發(fā)展與以“海量數據、低時(shí)延、安全傳輸”為特點(diǎn)的關(guān)鍵需求,對現有的算力網(wǎng)絡(luò )提出了如下需求。
3.1 大規模數據處理能力
目前主流的大模型都是建立在巨大的參數量和運算量之上,對計算和傳輸能力提出了極高要求。以1750億參數的GPT-3為例,每生成一次1000字回答,所需算力資源約為4PFLOP/s[6]。工業(yè)模型中數據規模指數級增長(cháng),節點(diǎn)間需要建立高效的通信和傳輸機制,以保證龐大的數據集在網(wǎng)絡(luò )中可靠流通,確保節點(diǎn)之間信息的共享與協(xié)同訓練,這是保障工業(yè)大模型整體性能的重要環(huán)節。
3.2 實(shí)時(shí)性與低延遲
面向工業(yè)制造、供應鏈管理與物流優(yōu)化等重點(diǎn)核心領(lǐng)域的實(shí)時(shí)工業(yè)生產(chǎn),需要在不同的場(chǎng)景中進(jìn)行實(shí)時(shí)推理,以應對生產(chǎn)過(guò)程中的突發(fā)變化,這需要算力網(wǎng)絡(luò )提供足夠的算力資源,確保大模型能夠在短時(shí)間內做出準確的決策,從而維持生產(chǎn)線(xiàn)的高效運行[7]。在設備監測和預測性維護中,大模型需要獲取終端設備的實(shí)時(shí)數據,統籌全局,分析設備的運行狀況并預測潛在的故障,以提高整體供應鏈的靈活性和適應性。
3.3 分布式并行計算
對于需要進(jìn)行訓練的工業(yè)大模型,分布式訓練是一個(gè)關(guān)鍵需求,算力網(wǎng)絡(luò )應提供相應的框架和策略,支持高效的訓練過(guò)程并確保模型參數的一致性和收斂性。針對龐大的工業(yè)大模型參數,算力網(wǎng)絡(luò )需要支持高效的模型參數分布和同步,以確保各計算節點(diǎn)之間的模型保持同步,這些需求強調了對于模型、數據、計算任務(wù)的高效管理和協(xié)同處理能力,為分布式計算系統提供了挑戰和優(yōu)化的方向。
4 面向工業(yè)大模型的算力網(wǎng)絡(luò )架構
本文將面向工業(yè)大模型的算力網(wǎng)絡(luò )劃分為四個(gè)關(guān)鍵層,如圖3所示,以滿(mǎn)足工業(yè)場(chǎng)景對數據處理和智能決策的需求[8]。首先,數據接入層扮演著(zhù)數據源的關(guān)鍵角色,它包括各類(lèi)工業(yè)設備傳感器,通過(guò)高效的實(shí)時(shí)數據采集與傳輸機制以及符合工業(yè)大模型需求的數據預處理,實(shí)現對工業(yè)數據的實(shí)時(shí)采集和高質(zhì)量精準傳輸。計算存儲層整合了智能邊緣節點(diǎn)和分布式存儲系統,可以對來(lái)自數據接入層的數據進(jìn)行輕量化處理和海量數據的分布式存儲及檢索,以提高響應速度,減輕中心計算負擔。核心控制層是整個(gè)工業(yè)算力網(wǎng)絡(luò )的計算引擎,集成了分布式計算引擎和實(shí)時(shí)通信與調度方案,為工業(yè)大模型提供了強大的算力支持。其通過(guò)網(wǎng)絡(luò )控制單元和動(dòng)態(tài)調整服務(wù),實(shí)現對整個(gè)算力網(wǎng)絡(luò )的靈活管理和優(yōu)化,適應了工業(yè)AI任務(wù)的動(dòng)態(tài)變化和多樣性。工業(yè)AI服務(wù)層涵蓋了模型存儲服務(wù)、模型訓練與推理服務(wù)和性能監控服務(wù)。這一層確保工業(yè)大模型的高效存儲、訓練和推理,同時(shí)通過(guò)性能監控服務(wù)實(shí)現對模型運行狀態(tài)的實(shí)時(shí)監控與優(yōu)化。這一完整而高效的架構使得各層次之間能夠高效協(xié)同,為工業(yè)大模型的全生命周期提供了全方位的支持。
圖3 面向工業(yè)大模型的算力網(wǎng)絡(luò )架構
如圖4所示是基于工業(yè)大模型與算力網(wǎng)絡(luò )相結合的質(zhì)量控制流程,在此場(chǎng)景中,工業(yè)大模型需要大量的計算資源來(lái)訓練和推理,同時(shí)需要與算力網(wǎng)絡(luò )無(wú)縫協(xié)作。其主要包含以下步驟:
(1)數據采集與預處理:傳感器和攝像頭分布在廠(chǎng)房不同生產(chǎn)線(xiàn)上,可以實(shí)時(shí)收集汽車(chē)生產(chǎn)過(guò)程中的各種數據,并送入工業(yè)算力網(wǎng)絡(luò )的數據接入層,進(jìn)行預處理和清洗。
(2)模型訓練與優(yōu)化:工業(yè)大模型在云端的計算節點(diǎn)上進(jìn)行訓練,并通過(guò)分布式并行計算加速模型的學(xué)習過(guò)程。優(yōu)化過(guò)程需要大規模的計算資源來(lái)調整模型參數,以適應不同汽車(chē)型號和生產(chǎn)變化。
(3)實(shí)時(shí)推理與質(zhì)量控制:訓練完成的大模型被應用到工業(yè)生產(chǎn)中,例如工廠(chǎng)內的服務(wù)器或邊緣設備。在汽車(chē)生產(chǎn)過(guò)程中,模型實(shí)時(shí)進(jìn)行推理,分析各個(gè)階段的數據,檢測潛在質(zhì)量問(wèn)題,并共享數據信息。
(4)實(shí)時(shí)反饋與調整:通過(guò)算力網(wǎng)絡(luò ),模型的實(shí)時(shí)推理結果被反饋到生產(chǎn)線(xiàn)和邊緣算力中心,系統可以根據反饋實(shí)時(shí)調整生產(chǎn)參數,甚至在必要時(shí)停止生產(chǎn)線(xiàn),這種實(shí)時(shí)性要求對于保障質(zhì)量至關(guān)重要。
上述質(zhì)量控制流程突顯了工業(yè)大模型如何依賴(lài)算力網(wǎng)絡(luò )的計算、通信和實(shí)時(shí)性能,以實(shí)現在復雜的工業(yè)制造環(huán)境中對產(chǎn)品質(zhì)量進(jìn)行精準控制。
圖4 面向工業(yè)大模型的生產(chǎn)流程圖
5 面向工業(yè)大模型的算力網(wǎng)絡(luò )關(guān)鍵技術(shù)
5.1 面向工業(yè)大模型的算力感知技術(shù)
算力感知是對算力能力信息、算力資源狀態(tài)信息、算力服務(wù)信息等要素的全面感知。在面向工業(yè)大模型場(chǎng)景的算力網(wǎng)絡(luò )中,計算負載各不相同使得計算資源具有異構泛在的部署特性和動(dòng)態(tài)時(shí)變的資源特性[9],算力感知的目的是明確網(wǎng)絡(luò )中的算力資源部署,滿(mǎn)足不同規模工業(yè)任務(wù)的算力需求。
當前面向工業(yè)大模型場(chǎng)景的算力感知針對工業(yè)中單個(gè)節點(diǎn)存在的感知范圍有限、效率低等問(wèn)題,將多節點(diǎn)感知的算網(wǎng)信息進(jìn)行聚合來(lái)擴展感知的維度和范圍,并利用智能算法構建全局統一的算網(wǎng)狀態(tài)視圖[10],精準地對泛在異構、動(dòng)態(tài)時(shí)變的工業(yè)信息資源的部署位置、實(shí)時(shí)狀態(tài)、負載信息等進(jìn)行感知,并對工業(yè)網(wǎng)絡(luò )的傳輸時(shí)延、抖動(dòng)、帶寬資源利用率等信息進(jìn)行實(shí)時(shí)動(dòng)態(tài)獲取,保證了工業(yè)生產(chǎn)的可靠性,如圖5所示。
圖5 面向工業(yè)大模型場(chǎng)景的算力感知示意圖
5.2 工業(yè)大模型大規模數據傳輸與存儲技術(shù)
工業(yè)大模型的數據量呈指數級增長(cháng),包括來(lái)自傳感器、監控設備、移動(dòng)設備等多源數據,以及歷史數據和場(chǎng)景數據。為確保算力感知基礎,應用時(shí)間敏感網(wǎng)絡(luò )(Time-Sensitive Networking,TSN)等確定性傳輸技術(shù),保障工業(yè)大模型中的業(yè)務(wù)流具備高可靠性和低時(shí)延的服務(wù)質(zhì)量。TSN不僅滿(mǎn)足工業(yè)控制的實(shí)時(shí)性和確定性需求,還兼容以太網(wǎng),可實(shí)現工業(yè)控制數據和以太網(wǎng)數據的混合傳輸[11]。鑒于工業(yè)數據的突發(fā)性,TSN采用基于信用的整形器(Credit-Based Shaper,CBS)平滑流量,有效維護突發(fā)性實(shí)時(shí)業(yè)務(wù)流的時(shí)延上界。
此外,在工業(yè)大模型的生產(chǎn)場(chǎng)景中,存儲技術(shù)不斷創(chuàng )新,包括藍光存儲、硬件高密度、數據縮減、編碼算法、芯片卸載、多協(xié)議數據互通等技術(shù),使得大規模數據存儲成為現實(shí)。
5.3 面向工業(yè)大模型的分布式計算和優(yōu)化
應用于工業(yè)AI領(lǐng)域的大型模型,需處理龐大數量的參數和變量。為了實(shí)現高效可靠的數據處理,通常采用多層級復雜結構構建這些模型。為了應對工業(yè)領(lǐng)域龐大的過(guò)程性和歷史性數據,多數情況下采用并行計算和分布式計算技術(shù)。這利用了多個(gè)計算機或處理器同時(shí)處理數據的能力,從而顯著(zhù)提高了計算效率,減少了訓練模型所需的時(shí)間,并解決了計算能力瓶頸的問(wèn)題。同時(shí),考慮到工業(yè)環(huán)境中可能存在節點(diǎn)故障或計算資源不足的情況,算力網(wǎng)絡(luò )需具備容錯性和彈性計算的能力,以確保計算任務(wù)的持續進(jìn)行和動(dòng)態(tài)資源調整。
5.4 面向工業(yè)大模型的協(xié)同資源調度
在工業(yè)大模型場(chǎng)景中,一方面,海量數據的處理很難在單一邊緣節點(diǎn)中完成,算力網(wǎng)絡(luò )的邊緣計算節點(diǎn)計算資源有限,計算能力各不相同,計算負載狀況動(dòng)態(tài)變化。當多個(gè)計算節點(diǎn)可以完成某項計算任務(wù)時(shí),需要考慮選擇哪一個(gè)計算節點(diǎn)來(lái)處理該計算任務(wù);另一方面,計算量較大的計算任務(wù)需要分派給多個(gè)邊緣節點(diǎn)或者計算資源充足的邊緣節點(diǎn)來(lái)進(jìn)行處理,如何將計算任務(wù)分派并調度至最匹配的邊緣計算節點(diǎn)以提升工業(yè)互聯(lián)網(wǎng)計算任務(wù)處理效率是算力網(wǎng)絡(luò )的關(guān)鍵技術(shù)之一。
協(xié)同資源調度策略需要將計算任務(wù)按照某種方式分配給云端或邊緣設備,同時(shí)還需要考慮任務(wù)的執行順序和資源的分配情況。在這個(gè)過(guò)程中,要盡可能地減少任務(wù)的執行時(shí)間,降低網(wǎng)絡(luò )的傳輸延時(shí),從而提升系統的整體性能[12]。一種策略是基于設備的計算能力和資源利用率來(lái)分配任務(wù),將計算密集型任務(wù)分派給計算能力較強的網(wǎng)絡(luò )節點(diǎn),而將數據密集型任務(wù)分配給邊緣計算節點(diǎn),以最大程度地利用各節點(diǎn)的資源。另一種策略則是采用任務(wù)切分和協(xié)同執行的方式,將一個(gè)任務(wù)切割成多個(gè)子任務(wù),并將這些子任務(wù)分配給不同的設備執行,最后將它們的結果協(xié)同合并,得到最終的計算結果,其過(guò)程如圖6所示。
圖6 工業(yè)算力網(wǎng)絡(luò )協(xié)同資源調度流程
5.5 工業(yè)算力網(wǎng)絡(luò )安全性和隱私保護
在工業(yè)算力網(wǎng)絡(luò )中,云、邊、端各類(lèi)算力節點(diǎn)廣泛接入,節點(diǎn)間存在安全差異,安全風(fēng)險復雜多樣,可信評估與安全認證機制尚未成熟。為滿(mǎn)足工業(yè)大模型網(wǎng)絡(luò )服務(wù)特點(diǎn)并應對安全挑戰,可在網(wǎng)絡(luò )層對數據流向、節點(diǎn)操作等信息進(jìn)行編碼標記,構建跨系統、跨節點(diǎn)的數據流轉標記和預授權機制,實(shí)現對數據流出網(wǎng)時(shí)的有效管控,并在整個(gè)數據流轉過(guò)程中全程感知。結合工業(yè)算力網(wǎng)絡(luò )的保障能力,通過(guò)智能化分析和靈活配置,形成主動(dòng)防護和聯(lián)動(dòng)彈性的內在安全能力,提高網(wǎng)絡(luò )行為的可預見(jiàn)性和高效管理,同時(shí)滿(mǎn)足端對端極度差異性的安全需求[13]。
6 結束語(yǔ)
本文深入研究了面向工業(yè)大模型的算力網(wǎng)絡(luò )架構及其關(guān)鍵技術(shù),并通過(guò)對算力網(wǎng)絡(luò )在工業(yè)領(lǐng)域的需求、挑戰以及發(fā)展趨勢的剖析,深刻認識到算力網(wǎng)絡(luò )在支持工業(yè)大模型應用中的重要性。本文還提出了面向工業(yè)大模型的算力網(wǎng)絡(luò )架構,該架構包括應用服務(wù)層、網(wǎng)絡(luò )控制層、核心資源層、邊緣計算層和設備接入層,以全面滿(mǎn)足工業(yè)領(lǐng)域數字化轉型的需求。在關(guān)鍵技術(shù)方面,本文討論了算力感知、數據傳輸與存儲、協(xié)同資源調度等核心技術(shù),為后續工業(yè)大模型的深入研究提供了參考。
作者簡(jiǎn)介:
沈昕炎(2000-),男,碩士,現就讀于北京郵電大學(xué),主要研究方向為工業(yè)算力網(wǎng)絡(luò )、工業(yè)互聯(lián)網(wǎng)。
林亞捷(1999-),女,碩士,現就讀于北京郵電大學(xué),主要研究方向為工業(yè)算力網(wǎng)絡(luò )、工業(yè)互聯(lián)網(wǎng)。
許方敏(1982-),男,副教授,博士,現就職于北京郵電大學(xué),主要研究方向為物聯(lián)網(wǎng)網(wǎng)絡(luò )、未來(lái)網(wǎng)絡(luò )技術(shù)。
趙成林(1964-),男,教授,博士,現就職于北京郵電大學(xué),主要研究方向為短距無(wú)線(xiàn)傳輸技術(shù)、認知無(wú)線(xiàn)電技術(shù)、毫米波技術(shù)、工業(yè)互聯(lián)網(wǎng)網(wǎng)絡(luò )。
參考文獻:
[1] 申元善, 王圣淇. 數字化質(zhì)量模型及其智能商業(yè)領(lǐng)域應用[J]. 中國質(zhì)量, 2023 (1) : 5.
[2] 雷波, 陳運清, 王旭亮, 等. 邊緣計算與算力網(wǎng)絡(luò ): 5G+AI時(shí)代的新型算力平臺與網(wǎng)絡(luò )連接[M]. 北京: 電子工業(yè)出版社, 2020.
[3] 天翼智庫. 迎接大模型時(shí)代: 大模型發(fā)展簡(jiǎn)史及攻略[J]. 互聯(lián)網(wǎng)天地, 2023 (5) : 8 - 15.
[4] 華為技術(shù)有限公司, 中國信通院, 羅蘭貝格. 工業(yè)數字化/智能化2030白皮書(shū)[R/OL]. 2023-5.
[5] 國際數據公司 (IDC). AI大模型在工業(yè)應用展望,2023 [R/OL]. 2023-5.
[6] 史庭祥, 張劍波, 曹越, 等. 一種基于超大規模云資源池的算力供給新模式及其關(guān)鍵技術(shù)[J]. 移動(dòng)通信, 2023, 47 (1) : 83 - 89.
[7] 劉作國, 廖一星, 綦云華, 等. 一種工業(yè)生產(chǎn)設備故障預測分析方法及模型[J].
[8] 祁昊穎. "端-邊-云"超融合背景下的算力網(wǎng)絡(luò )架構[J]. 通信電源技術(shù), 2022, 39 (13) : 124 - 128.
[9] 賈慶民, 丁瑞, 劉輝, 等. 算力網(wǎng)絡(luò )研究進(jìn)展綜述[J]. 網(wǎng)絡(luò )與信息安全學(xué)報
[10] 蔡旭輝, 董曉荔, 趙宇, 等. 算網(wǎng)感知能力與關(guān)鍵技術(shù)研究[J]. 中國信息化, 2023 (11) : 64 - 67 + 63
[11] 李宗輝, 楊思琪, 喻敬海, 等. 時(shí)間敏感網(wǎng)絡(luò )中確定性傳輸技術(shù)綜述[J]. 軟件學(xué)報, 2022, 33 (11) : 4334 - 4355.
[12] 周旭, 李琢. 面向算力網(wǎng)絡(luò )的云邊端協(xié)同調度技術(shù)[J]. 中興通訊技術(shù), 2023, 29 (4) : 32 - 37.
[13] 朱文閱, 董江帆, 李玉華, 等. 算力網(wǎng)絡(luò )安全與數據安全治理技術(shù)研究[J]. 電信工程技術(shù)與標準化, 2024, 37 (1) : 12 - 17.
摘自《自動(dòng)化博覽》2024年第二期暨《邊緣計算2024專(zhuān)輯》