近日,在中國電信集團公司統一組織下,中國電信研究院、天翼云、北京電信成功完成業(yè)內首個(gè)1024卡千億參數商用大模型分布式聯(lián)合訓練真實(shí)用戶(hù)試商用,通過(guò)武清到瀛海之間的真實(shí)光路環(huán)回實(shí)現了500公里長(cháng)距互聯(lián)分布式訓練,訓練性能達到單數據中心的97%以上,這一重大突破為大模型訓練的跨地域協(xié)同發(fā)展開(kāi)辟了新的道路。
本次試商用基于北京現網(wǎng)800G廣域智聯(lián)無(wú)損網(wǎng)絡(luò )以及息壤一站式智算服務(wù)平臺開(kāi)展,在互聯(lián)距離、帶寬收斂比以及模型參數方面均產(chǎn)生突破,實(shí)現了多數據中心互聯(lián)及資源整合支持商用模型分布式聯(lián)合訓練。
在廣域智聯(lián)無(wú)損網(wǎng)絡(luò )技術(shù)方面,中國電信創(chuàng )新廣域無(wú)損調度算法、關(guān)鍵幀識別技術(shù),將帶寬收斂比提升到32:1;創(chuàng )新WSON 50ms極速倒換技術(shù),實(shí)現長(cháng)距鏈路中斷無(wú)感知切換。系列技術(shù)有效解決了長(cháng)距離傳輸中網(wǎng)絡(luò )擁塞丟包、鏈路故障、建網(wǎng)成本等問(wèn)題,確保了訓練過(guò)程的穩定性和高效性——在500公里的長(cháng)距離傳輸下,網(wǎng)絡(luò )傳輸吞吐率仍能保持在較高水平,為千卡千億參數商用大模型的聯(lián)合訓練提供了堅實(shí)的網(wǎng)絡(luò )支撐。與此同時(shí),息壤平臺支持算力插件、跨地域算網(wǎng)協(xié)同、跨數據中心自動(dòng)并行、斷點(diǎn)續訓等一系列關(guān)鍵技術(shù)能力,實(shí)現故障秒級定位、分鐘級處理與恢復,保證了百川千億參數商用模型的快速部署和穩定高效運行。
此次試商用的成功是中國電信在智算網(wǎng)絡(luò )領(lǐng)域持續創(chuàng )新和實(shí)踐的成果,也是積極響應國家戰略推動(dòng)算力網(wǎng)絡(luò )協(xié)同發(fā)展的重要舉措。未來(lái),中國電信將繼續加大在智算網(wǎng)絡(luò )領(lǐng)域的投入和研發(fā)力度,為人工智能產(chǎn)業(yè)的發(fā)展提供更加強有力的網(wǎng)絡(luò )支持,助力我國數字經(jīng)濟的高質(zhì)量發(fā)展。