• <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

    <table id="fficu"></table>

    <sup id="fficu"></sup>
    <output id="fficu"></output>
    1. ABB
      關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
      CAIAC 2025
      2025工業(yè)安全大會(huì )
      OICT公益講堂
      當前位置:首頁(yè) >> 案例 >> 案例首頁(yè)

      案例頻道

      “靈暢算力服務(wù)”賦能區域智算中心從可用走向好用

      ★軟通智慧科技有限公司李巍峰

      1 背景

      在今年兩會(huì )期間,政府確立了“適度超前建設數字基礎設施,加快形成全國一體化算力體系”的2024年工作任務(wù)。黑龍江省深入貫徹習近平總書(shū)記的重要指示,圍繞發(fā)展新質(zhì)生產(chǎn)力,結合自身產(chǎn)業(yè)發(fā)展優(yōu)勢,通過(guò)開(kāi)展人工智能+行動(dòng)強化數字產(chǎn)品制造、智能機器人等重點(diǎn)產(chǎn)業(yè)鏈。

      在此背景下,為服務(wù)國家戰略,支撐地方產(chǎn)業(yè)數字化發(fā)展,加快人工智能與經(jīng)濟社會(huì )各領(lǐng)域深度融合,哈爾濱數字龍江智算中心項目落地哈爾濱道外區,一方面助力黑龍江省落實(shí)國家“星網(wǎng)工程”、“星地融算”等國家級戰略樞紐節點(diǎn)布局,另一方面,面向區域產(chǎn)業(yè),通過(guò)項目、基地、人才、資金的一體化配置,實(shí)現科技創(chuàng )新引領(lǐng)產(chǎn)業(yè)創(chuàng )新,促成地方產(chǎn)業(yè)與算力發(fā)展相互促進(jìn)、共同前進(jìn)的良好態(tài)勢。

      數字龍江智算中心定位區域“人工智能+行動(dòng)”核心載體,國家一體化算力網(wǎng)絡(luò )樞紐節點(diǎn)大科學(xué)裝置,通過(guò)二期建設完成,并于2024年7月全面上線(xiàn)運營(yíng)。數字龍江智算中心上線(xiàn)后,采用“算力+產(chǎn)業(yè)”雙輪驅動(dòng)模式,基于一體化公共算力服務(wù)平臺,服務(wù)AI、大模型及國產(chǎn)GPU芯片等智算中心上下游企業(yè)。這些企業(yè)與AI、新金融、芯片設計、裝備制造、新能源、工業(yè)材料、城市治理、科研教育等行業(yè)和場(chǎng)景深度融合,推動(dòng)傳統產(chǎn)業(yè)的數字化轉型,加速AI大模型產(chǎn)業(yè)向本地集聚。

      2 案例實(shí)施與應用

      數字龍江智算中心作為新型數字基礎設施,覆蓋了云計算、人工智能、大數據等諸多技術(shù)領(lǐng)域,具備數字化、智能化的特點(diǎn),是數字經(jīng)濟時(shí)代支撐社會(huì )生產(chǎn)力數字化的基礎設施,也是數據要素的重要載體。

      數字龍江智算中心采用“集中部署、分級應用”的總體思路,采用基于高并發(fā)和數據資源處理的計算架構設計,參考五橫三縱的總體框架體系,采用多層架構設計,由展現層、應用層、應用支撐層、數據層、基礎軟硬件平臺、能源基礎設施,以及安全保障體系、運維管理系統構成。

      其總體架構圖如圖1所示。

      image.png

      圖1 總體架構圖

      其中,展現層通過(guò)集成各應用系統接口,整合匯總各種數據,以門(mén)戶(hù)網(wǎng)站、客戶(hù)端或手機APP形式對外提供政務(wù)辦公、行業(yè)智能應用、信息咨詢(xún)等各類(lèi)服務(wù)內容。

      應用層采用云原生技術(shù),部署了大模型應用平臺、AI開(kāi)發(fā)平臺、數據治理平臺云服務(wù)平臺等平臺系統。各平臺基于底層豐富的計算、存儲及網(wǎng)絡(luò )資源,支撐政府、企業(yè)及個(gè)人應用上云,同時(shí),為云內用戶(hù)提供用戶(hù)管理、接入管理、資源管理、授權管理、流程管理和安全審計等統一管理界面。

      數據層針對結構化數據、非結構化數據等多種數據類(lèi)型,提供關(guān)系型數據庫、非關(guān)系型數據庫、向量數據庫等多種數據處理、分析、存儲能力供應用層各類(lèi)應用系統使用。

      基礎軟硬件平臺利用云計算、軟件定義存儲、軟件定義網(wǎng)絡(luò )等技術(shù)將底層網(wǎng)絡(luò )設備、服務(wù)器、存儲備份設備、安全設備等基礎硬件產(chǎn)品資源化,為上層業(yè)務(wù)提供精細化計算、存儲、網(wǎng)絡(luò )資源。

      運維管理系統結合智算中心底層軟硬件設備進(jìn)行設計,支持軟硬件設備及基礎軟件平臺系統的運行監控、異常報警、事件自動(dòng)處理、態(tài)勢分析等功能。

      安全保障系統依據信息系統等級保護要求進(jìn)行建設,實(shí)現了融合安全統一可視化管理,管理員可在統一界面下進(jìn)行日常安全巡檢、集中策略下發(fā)、配置調整和設備監控等全域安全操作,同時(shí),可實(shí)現針對入侵等安全事件及時(shí)調整安全策略,實(shí)時(shí)修正防御規則,以構建數據中心零信任安全防護體系。

      目前,數字龍江智算中心已入駐8大科研聯(lián)合實(shí)驗室,支撐實(shí)驗室十余個(gè)課題小組開(kāi)展大模型算法研發(fā)、行業(yè)數據分析等科研活動(dòng)所需的算力及數據需求。同時(shí),基于智算中心各類(lèi)應用平臺,數字龍江智算中心為行業(yè)頭部大模型企業(yè)面向區域提供包括人工智能遷移部署在內的25項管家式服務(wù)及5類(lèi)19項大模型MaaS服務(wù)。

      3 應用創(chuàng )新

      智算中心是數字基建發(fā)展的重要組成部分,其設計、建設、運營(yíng)涉及數據中心機電配套、硬件設備實(shí)施、軟件系統設計、安全合規保障、服務(wù)內容設計等多方面內容,是一項規模體量特別龐大、涉及技術(shù)特別復雜、服務(wù)要求特別高、客戶(hù)需要變化特別快的創(chuàng )新性系統性工程。

      智算中心的建設和運營(yíng)往往眾多重點(diǎn)及難點(diǎn),包括:算力硬件技術(shù)路線(xiàn)多樣,難以實(shí)現統一管理、統籌調度;算力需求迅猛發(fā)展,算力設備供應緊張,建設周期壓力大;算力服務(wù)重點(diǎn)從高性?xún)r(jià)比向高性能轉移;算法應用賦能業(yè)務(wù)場(chǎng)景周期長(cháng),新型應用落地不夠敏捷;算法應用賦能業(yè)務(wù)場(chǎng)景周期長(cháng),新型應用落地不夠敏捷。

      軟通智慧基于在智算中心建設運營(yíng)方面的豐富經(jīng)驗,積累沉淀了諸多技術(shù)和人才儲備,圍繞智算中心規劃、建設、運營(yíng)全流程打造了靈暢算力服務(wù)體系,基于該體系,軟通智慧在數字龍江智算中心建設過(guò)程中通過(guò)架構創(chuàng )新、聯(lián)合優(yōu)化、AI工程化服務(wù)、體系保障幾個(gè)方面充分保障了數字龍江智算中心建設運營(yíng)工作順利開(kāi)展。

      3.1 架構創(chuàng )新

      數字龍江智算中心整體建設遵循“分區+分層+分平面+安全”的全新設計理念。將智算中心進(jìn)行模塊化、標準化,便于日常運維管理和日后擴展,如圖2所示。

      image.png

      圖2

      分區是指按照業(yè)務(wù)特點(diǎn)和安全要求劃分不同的業(yè)務(wù)區域,各區塊間通過(guò)核心交換機連接在一起,不同類(lèi)型的流量,通過(guò)VRF進(jìn)行隔離。其中:

      (1)AI訓練算力存儲區+調度區主要部署人工智能融合賦能的計算和存儲節點(diǎn)包含調度功能模塊,向人工智能融合賦能平臺提供塊存儲、對象存儲、文件存儲,還有提供人工智能融合賦能平臺中AI計算能力,主要由人工智能服務(wù)器+存儲構成。

      (2)云資源區主要為提高超算中心資源利用率,提供基礎軟硬件層包括創(chuàng )建業(yè)務(wù)虛擬機。業(yè)務(wù)虛擬機提供CPU、內存資源,并通過(guò)增加分布式存儲共享的方式提供共享存儲資源,是人工智能融合賦能平臺的核心系統之一;云資源區網(wǎng)絡(luò )采用扁平化二層數據中心Spine-Leaf組網(wǎng)架構組網(wǎng),通過(guò)部署雙機高性能數據中心盒式交換機作為機柜TOR接入交換機對服務(wù)器或存儲設備進(jìn)行網(wǎng)絡(luò )接入,采用堆疊部署,形成統一管理控制界面后與雙機集群核心交換機之間通過(guò)雙鏈路上行,設計速率為2*100GE保障高速率轉發(fā),10GE下行連接服務(wù)器或存儲設備。

      (3)外部接入區承擔人工智能融合賦能平臺互聯(lián)網(wǎng)區的網(wǎng)絡(luò )交換職責,主要為平臺提供流量統計、防火墻、EIP、VPN等功能。內部網(wǎng)絡(luò )相互訪(fǎng)問(wèn),以及內部與外部相互訪(fǎng)問(wèn)都通過(guò)該區域完成。提供網(wǎng)絡(luò )安全能力,檢測掃描外部訪(fǎng)問(wèn)內部的網(wǎng)絡(luò )流量,保障平臺安全能力。使用出口路由器與MPLSVPN承載網(wǎng)絡(luò )、Internet網(wǎng)絡(luò )、DCN網(wǎng)絡(luò )等進(jìn)行互聯(lián)。

      (4)運維管理區:該區域主要用于運維、運營(yíng)和管理接入,運維管理區部署所有安全審計以及安全管理設備,包括網(wǎng)管平臺、漏洞掃描、運維審計、數據庫審計、日志審計、殺毒軟件、WAF、態(tài)勢感知等,做到融合安全統一可視化管理,方便管理員日常安全巡檢、集中策略下發(fā)、配置調整和設備監控,可以限制數據中心業(yè)務(wù)的非授權IP訪(fǎng)問(wèn)權限,同時(shí)關(guān)閉不必要的通訊端口,收集前端防火墻、邊界墻實(shí)現對來(lái)自外部網(wǎng)絡(luò )的攻擊行為記錄、溯源、記錄攻擊目標、攻擊類(lèi)型和攻擊時(shí)間。所有安全設備為態(tài)勢感知提供海量數據,態(tài)勢感知通過(guò)AI大數據分析的能力對入侵等安全事件可以及時(shí)地調整安全策略配置,及時(shí)修正防御規則,靈活地對匹配IT資源、攻擊類(lèi)型、協(xié)議等的攻擊報文采取相應的動(dòng)作,構建數據中心零信任安全防護體系。

      分層是指采用核心層和接入層兩層扁平結構。

      分平面是指采用AI高性能計算平面、業(yè)務(wù)平面、管理平面等分離的設計方法,各自獨立組網(wǎng),保證平臺可靠性。同時(shí)避免了各類(lèi)網(wǎng)絡(luò )之間的競爭和由此產(chǎn)生的擁塞,從而提高提高系統的可擴展性、安全性和可維護性。

      安全是指在不同業(yè)務(wù)區域之間、在數據中心出口等位置部署安全設備,實(shí)現業(yè)務(wù)安全訪(fǎng)問(wèn)和數據安全保障。

      3.2 計算優(yōu)化

      人工智能芯片作為支撐智算中心算力的核心部件,在單臺智算服務(wù)器中,其成本能占到整臺服務(wù)器成本的80%以上。然而,數據表明,大部分用戶(hù)的智能算力芯片利用率只有10%到30%。大量算力的閑置無(wú)疑是對智算中心成本的巨大浪費。因此,對智算中心智算集群進(jìn)行調優(yōu),以提高整體算力使用率無(wú)疑是智算中心建設運營(yíng)的重點(diǎn)。

      站在整個(gè)智算中心的角度來(lái)看,計算的優(yōu)化分為三個(gè)方面:

      (1)單訓練任務(wù)的優(yōu)化

      目前人工智能算法開(kāi)發(fā)都依賴(lài)于TensorFlow、Pytorch、Mindspore等深度學(xué)習框架,這些基礎軟件的設計目標之一是提升單個(gè)訓練任務(wù)的計算性能,而在訓練過(guò)程中,數據的讀取、芯片之間的通信吞吐都是影響訓練效率的關(guān)鍵因素。因此,網(wǎng)絡(luò )系統、存儲系統及計算系統的聯(lián)合調優(yōu)尤為重要,資源分配平臺需要充分了解服務(wù)器硬件的內部拓撲及整體網(wǎng)絡(luò )架構,才能有效發(fā)現數據傳輸的最短路徑、避免網(wǎng)絡(luò )可能產(chǎn)生的擁塞。龍江智算中心云平臺通過(guò)自動(dòng)化NUMA設置、內核參數配置、網(wǎng)路擁塞策略調整等多種手段保證了單任務(wù)計算達到理論性能上限。

      (2)多任務(wù)調度優(yōu)化

      智算中心作為面向公共的算力服務(wù)平臺,訓練任務(wù)是非常多樣化的,單機單卡、單機多卡、多機多卡任務(wù)對于資源規模的要求均不同。不合理的算力芯片調度策略會(huì )導致智算中心內資源碎片化嚴重,同時(shí)任務(wù)資源等待時(shí)長(cháng)增加,如圖3所示。

      image.png

      圖3

      龍江智算中心算力調度平臺一方面通過(guò)資源分配算法優(yōu)化,通過(guò)底層拓撲信息分析實(shí)現GPU資源的精細化資源調度,另一方面,通過(guò)資源調度算法支持細粒度的GPU資源共享與回收,通過(guò)支持不同算力芯片的上報和管理,幫助AI訓練任務(wù)根據實(shí)際需求選擇合適的GPU類(lèi)型,提升計算效率。

      3.3 AI工程化服務(wù)

      針對AI應用開(kāi)發(fā)定制化程度高、訓練數據集生成難的問(wèn)題,龍江智算中心通過(guò)搭建人工智能開(kāi)發(fā)平臺,提供一站式人工智能解決方案。平臺面向人工智能研究中的數據處理、算法開(kāi)發(fā)、模型訓練、算力管理和推理應用等各個(gè)流程的技術(shù)難點(diǎn),提供了模型開(kāi)發(fā)平臺、集成高性能分布式深度學(xué)習框架、先進(jìn)算法模型庫、視覺(jué)模型煉知平臺、數據可視化分析平臺等一系列平臺工具,幫助平臺用戶(hù)高效開(kāi)展分布式人工智能算法訓練、數據處理和可視分析、模型煉知和輕量化等人工智能算法開(kāi)發(fā)工作。平臺整體功能架構如圖4所示。

       image.png

      圖4 平臺整體功能架構

      同時(shí),軟通智慧基于平臺能力,圍繞數據工程及算法工程兩方面為智算中心企業(yè)提供定制化服務(wù)。數據工程方面,圍繞業(yè)務(wù)數據清洗、訓練數據標注及數據價(jià)值發(fā)掘,協(xié)助客戶(hù)為智算中心用戶(hù)提供定制化軟件開(kāi)發(fā)及數據治理服務(wù)。算法工程方面,面向用戶(hù)場(chǎng)景及行業(yè)痛點(diǎn),協(xié)助客戶(hù)為智算中心用戶(hù)提供算力芯片適配服務(wù)、應用云化服務(wù)及場(chǎng)景解決方案打造服務(wù)。

      4 效益分析

      借助軟通智慧靈暢算力服務(wù)體系的全方位服務(wù)保障,數字龍江智算中心建設運營(yíng)至今已完成130P算力需求的簽約,為現有算力規模的130%,達到上限即可滿(mǎn)載運營(yíng)。同時(shí)項目發(fā)揮智算中心平臺優(yōu)勢,積極整合央國企資源,截至目前已與星網(wǎng)集團達成合作,并將科技部學(xué)術(shù)認偽大模型、組織部人才畫(huà)像大模型、中國科學(xué)院紫東太初大模型等12個(gè)科研、行業(yè)大模型引入黑龍江,在全國范圍首個(gè)實(shí)現大模型訓練場(chǎng)的智算中心。

      今年,三期項目計劃通過(guò)產(chǎn)業(yè)聯(lián)盟投資18億元,提升域內算力達500P,建成數字龍江智算中心國家一體化算力網(wǎng)絡(luò )鏈接衛星互聯(lián)網(wǎng)服務(wù)網(wǎng)絡(luò )的地基門(mén)戶(hù),形成東數西算骨干節點(diǎn)、天數地算的首發(fā)節點(diǎn)、星地融算的樞紐節點(diǎn)戰略格局。目前,運營(yíng)公司已成功完成180P算力服務(wù)協(xié)議的簽約。

      5 案例意義

      數字龍江智算中心建設運營(yíng)的成功是軟通智慧靈暢算力服務(wù)體系加速人工智能大模型賦能千行百業(yè)、助力區域數字基建發(fā)展的一次成功實(shí)踐。靈暢算力服務(wù)體系圍繞智算中心規劃、建設、運營(yíng)全流程打造,覆蓋了智算中心從規劃設計、建設集成到運營(yíng)運維各階段客戶(hù)所需的各類(lèi)技術(shù)及人員服務(wù)需求。實(shí)踐表明,靈暢算力服務(wù)體系為區域智算中心建設、運營(yíng)提供了一套成熟、先進(jìn)的技術(shù)服務(wù)標準,通過(guò)靈暢算力服務(wù)體系,可幫助智算中心實(shí)現交付標準、易于管理、性能高效、整體安全可控的建設目標,同時(shí)智算中心作為數字基建核心出現建而不用、用而不好的問(wèn)題,切實(shí)幫助區域通過(guò)發(fā)展數字基建帶動(dòng)地方產(chǎn)業(yè)轉型升級,進(jìn)而實(shí)現地方數字經(jīng)濟快速發(fā)展。

      作者簡(jiǎn)介:

      李巍峰(1985-),浙江東陽(yáng)人,現任軟通智慧新算力系統部總裁,主要研究方向為人工智能、數據中心建設,帶領(lǐng)團隊在人工智能領(lǐng)域取得顯著(zhù)突破性進(jìn)展,在多地實(shí)現區域級智算中心落地。

      摘自《自動(dòng)化博覽》2024年10月刊

      熱點(diǎn)新聞

      推薦產(chǎn)品

      x
      • 在線(xiàn)反饋
      1.我有以下需求:



      2.詳細的需求:
      姓名:
      單位:
      電話(huà):
      郵件:
      欧美精品欧美人与动人物牲交_日韩乱码人妻无码中文_国产私拍大尺度在线视频_亚洲男人综合久久综合天

    2. <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

      <table id="fficu"></table>

      <sup id="fficu"></sup>
      <output id="fficu"></output>