近日,百度公司宣布旗下“飛槳”深度學(xué)習開(kāi)源開(kāi)放平臺又一次迎來(lái)20多項功能發(fā)布和技術(shù)升級。這些發(fā)布和升級包括提升核心框架性能和易用性、新增產(chǎn)業(yè)級模型庫、發(fā)布端側推理引擎PaddleLite、發(fā)布面向產(chǎn)業(yè)應用場(chǎng)景的端到端開(kāi)發(fā)套件(自然語(yǔ)言處理領(lǐng)域的ERNIE語(yǔ)義理解、計算機視覺(jué)方向的PaddleDetection目標檢測和PaddleSeg圖像分割、智能推薦方向的ElasticCTR點(diǎn)擊率預估)等。
百度首席技術(shù)官、深度學(xué)習技術(shù)及應用國家工程實(shí)驗室主任王海峰向《中國科學(xué)報》表示,功能發(fā)布和技術(shù)升級后,飛槳平臺的深度學(xué)習模型開(kāi)發(fā)能力、訓練能力、預測和部署能力進(jìn)一步提升,可比肩TensorFlow、PyTorch等國際主流框架,在多項技術(shù)上有優(yōu)于后者的表現。
智能時(shí)代的操作系統
“深度學(xué)習框架上承各種應用、下接芯片等硬件,起到了承上啟下的作用,是‘智能時(shí)代的操作系統’?!蓖鹾7逭f(shuō),然而,在2016年之前,國內外開(kāi)發(fā)者主要基于谷歌TensorFlow、臉書(shū)PyTorch、亞馬遜MxNet等國外深度學(xué)習框架進(jìn)行人工智能算法、模型的開(kāi)發(fā)、訓練與部署。
百度飛槳的開(kāi)源開(kāi)放及不斷升級打破了這一局限。尤其是經(jīng)過(guò)多輪升級和打磨之后,如今飛槳平臺在深度學(xué)習框架的開(kāi)發(fā)、訓練、預測及部署等核心能力上均有著(zhù)比肩甚至超越國外主流框架的表現。這使得我國人工智能(AI)技術(shù)開(kāi)發(fā)者和使用者不必依賴(lài)于國外平臺,同時(shí)還可進(jìn)一步培育自主可控的AI開(kāi)發(fā)應用生態(tài)。
飛槳是我國目前唯一具有完全自主知識產(chǎn)權的全功能性產(chǎn)業(yè)級深度學(xué)習平臺,包括核心框架、模型庫、開(kāi)發(fā)套件、工具組件和服務(wù)平臺五大部分。百度技術(shù)團隊自2018年以來(lái)對飛槳進(jìn)行了全面升級,并進(jìn)行大規模推廣。
優(yōu)于國外框架的使用體驗
近兩年來(lái),飛槳圍繞深度學(xué)習框架的基本功能、性能、芯片支持的完備性等技術(shù)指標進(jìn)行了一系列的易用性開(kāi)發(fā)和性能迭代,為開(kāi)發(fā)者提供了優(yōu)于國外框架的使用體驗。
在開(kāi)發(fā)能力方面,飛槳除了支持對常用API的調用之外,還在編程范式上同時(shí)支持聲明式編程和命令式編程,兼具很好的靈活性和穩定性,可滿(mǎn)足不同開(kāi)發(fā)者的開(kāi)發(fā)習慣,更易上手。另外,飛槳提供了“自動(dòng)化網(wǎng)絡(luò )結構設計”這一工具,在多個(gè)任務(wù)上實(shí)測顯示自動(dòng)化設計水平已超過(guò)人類(lèi)專(zhuān)家。
百度深度學(xué)習技術(shù)平臺部總監馬艷軍告訴《中國科學(xué)報》,該領(lǐng)域頂級學(xué)術(shù)會(huì )議之一AAAI第一篇有關(guān)圖像風(fēng)格遷移網(wǎng)絡(luò )的自動(dòng)化網(wǎng)絡(luò )結構設計的論文即來(lái)自百度飛槳技術(shù)團隊。
在訓練方面,飛槳平臺突破了超大規模深度學(xué)習模型訓練技術(shù),研制了千億特征、萬(wàn)億參數、數百節點(diǎn)的開(kāi)源大規模訓練平臺,實(shí)現了萬(wàn)億規模參數深度學(xué)習模型的實(shí)時(shí)更新。
“當前國際主流的開(kāi)源框架還停留在僅支持千億參數或更低規模的模型訓練的水平,飛槳這一突破解決了大規模產(chǎn)業(yè)應用的難題?!蓖鹾7逭f(shuō),有的大型科技公司每天會(huì )有百億級數據量,所需模型規模參數量達萬(wàn)億級別,這要求深度學(xué)習平臺的訓練能力與之匹配。例如,OPPO在應用商店的應用推薦場(chǎng)景,使用基于飛槳的分布式訓練技術(shù),訓練速度(16個(gè)訓練節點(diǎn))相比單機TensorFlow提升8倍。
在預測、部署環(huán)節,飛槳技術(shù)團隊在各類(lèi)硬件適配上做了大量工作,當前可以輕松地部署到X86 CPU、英偉達GPU、Mali GPU、華為NPU等8種不同架構的平臺設備上,并在對華為、寒武紀等國產(chǎn)AI芯片的適配方面取得了顯著(zhù)效果。比如在華為麒麟芯片上,無(wú)論推理速度還是能效都有大幅提升。
同時(shí),飛槳平臺和其他開(kāi)源框架訓練的模型也能無(wú)縫銜接,可進(jìn)一步突破模型推理速度。
“產(chǎn)業(yè)級應用要求很苛刻,推理速度快的優(yōu)勢盡顯。比如質(zhì)檢線(xiàn)上一個(gè)零件的停留時(shí)間只有數十毫秒,如果推理速度不夠,可能導致機器無(wú)法及時(shí)完成缺陷識別?!瘪R艷軍舉例說(shuō),飛槳下大力氣結合許多苛刻場(chǎng)景做了性能優(yōu)化,目的就是推動(dòng)飛槳在工業(yè)場(chǎng)景的應用。在已上線(xiàn)飛槳計算機視覺(jué)相關(guān)模型的上海和輝光電OLED及重慶京東方LCD不良檢測項目中,產(chǎn)品漏檢率、過(guò)檢率相較應用前均有數倍提升。
評測數據顯示,通過(guò)采用CPU全異步并行,飛槳平臺在點(diǎn)擊率預估模型、詞向量模型上比TensorFlow快8~10倍;在GPU多機多卡同步訓練下,飛槳在多個(gè)模型下評測訓練速度比TensorFlow快30%~70%。
在上述能力強化的基礎上,飛槳官方支持100多個(gè)經(jīng)過(guò)長(cháng)期產(chǎn)業(yè)實(shí)踐打磨的主流模型,其中包括在國際競賽中奪得冠軍的模型,同時(shí)開(kāi)源開(kāi)放200多個(gè)預訓練模型,以助力快速產(chǎn)業(yè)應用。
培育自主可控的AI生態(tài)
統計數字顯示,飛槳當前擁有超過(guò)6.5萬(wàn)企業(yè)用戶(hù),在定制化訓練平臺上發(fā)布了16.9萬(wàn)個(gè)模型,且模型數量呈現顯著(zhù)增長(cháng)趨勢,在工業(yè)、農業(yè)、服務(wù)業(yè)等各行各業(yè)中廣泛應用。同時(shí),飛槳已經(jīng)累計服務(wù)150萬(wàn)開(kāi)發(fā)者,這一數字約占中國軟件從業(yè)平均人數的1/4。
不過(guò),與TensorFlow等相比,飛槳在生態(tài)構建上仍然有較大發(fā)展空間?!吧鷳B(tài)體系不是一朝一夕培育起來(lái)的,國外框架幾年前就開(kāi)始在中國大規模推廣了,目前滲透很深?!蓖鹾7逭f(shuō),“我們希望有關(guān)多方圍繞深度學(xué)習框架和平臺這個(gè)核心形成合力,下大力氣培育自主的生態(tài)體系?!?nbsp;
中國科學(xué)院計算技術(shù)研究所研究員陳云霽今年發(fā)表在《中國計算機學(xué)會(huì )通訊》上的《智能計算系統——一門(mén)人工智能專(zhuān)業(yè)的系統課程》一文中提到,越是人工智能上層(算法層、應用層)的研究,我國研究者對世界作出的貢獻越多;越是底層(系統層、芯片層),我國研究者的貢獻越少。
“在各種ImageNet比賽中,我國很多機構的算法模型已經(jīng)呈現霸榜的趨勢,可以說(shuō)代表了世界前沿水平。但這些算法模型絕大部分都是在CUDA編程語(yǔ)言、TensorFlow編程框架以及GPU之上開(kāi)發(fā)的。在這些底層的‘硬科技’中,我國研究者對世界的貢獻就相對少了很多?!睂@一現象,陳云霽表示擔憂(yōu),“底層研究能力的缺失不僅給我國人工智能基礎研究拖后腿,更重要的是,將使得我國智能產(chǎn)業(yè)成為‘空中樓閣’,走上信息產(chǎn)業(yè)受核心芯片和操作系統制約的老路?!?nbsp;
對此,王海峰表示,國產(chǎn)智能芯片和深度學(xué)習框架都是構建我國自主AI生態(tài)的關(guān)鍵,智能時(shí)代深度學(xué)習平臺一定要和AI芯片對接,不僅要做軟件的優(yōu)化,還要軟硬一體,跟芯片一起聯(lián)合優(yōu)化。
“如果不發(fā)展自主芯片、操作系統,國內也就培養不出相應的人才——維護好自己的社區,跟在別人構建的社區中修修補補是完全不一樣的。我國在智能時(shí)代不能再讓受制于人的歷史重演,這也是百度大力做飛槳平臺的意義所在?!蓖鹾7灞硎?,無(wú)論是推動(dòng)AI技術(shù)從實(shí)驗室走向產(chǎn)業(yè),還是自主AI生態(tài)構建,飛槳深度學(xué)習框架未來(lái)將繼續發(fā)揮重要作用。
摘自《中國科學(xué)報》