機器學(xué)習處理器是專(zhuān)門(mén)為移動(dòng)和相鄰市場(chǎng)(例如智能相機、AR/VR、無(wú)人機、醫療和消費性電子產(chǎn)品等)推出的全新設計,性能為 4.6 TOP/s,能效為 3TOPs/W。計算能力和內存的進(jìn)一步優(yōu)化大大提高了它們在不同網(wǎng)絡(luò )中的性能。
其架構包括用于執行卷積層的固定功能引擎以及用于執行非卷積層和實(shí)現選定原語(yǔ)和算子的可編程層引擎。網(wǎng)絡(luò )控制單元管理網(wǎng)絡(luò )的整體執行和網(wǎng)絡(luò )的遍歷,DMA 負責將數據移入、移出主內存。板載內存可以對重量和特征圖進(jìn)行中央存儲,減少流入外部存儲器的流量,從而降低功耗。
有了固定功能和可編程引擎,機器學(xué)習處理器變得非常強大、高效和靈活,足以應對未來(lái)的挑戰,不僅保留了原始性能,還具備多功能性,能夠有效運行各種神經(jīng)網(wǎng)絡(luò )。
為應對多個(gè)市場(chǎng)帶來(lái)的挑戰,滿(mǎn)足不同的性能需求,從物聯(lián)網(wǎng)的每秒幾 GOP 到服務(wù)器的每秒數十TOP,機器學(xué)習處理器采用了全新的可擴展架構。對于物聯(lián)網(wǎng)或嵌入式應用,該架構的性能可降低至約每秒 2 GOP,而對于 ADAS、5G 或服務(wù)器型應用,性能可提高至每秒 150 TOP。這些多重配置的效率可達到現有解決方案的數倍。由于與現有的 Arm CPU、GPU 和其他 IP 兼容, 且能提供完整的異構系統, 該架構還可通過(guò)TensorFlow、TensorFlow Lite、Caffe 和 Caffe 2等常用的機器學(xué)習框架來(lái)獲取。
隨著(zhù)機器學(xué)習的工作負載不斷增大,計算需求將呈現出多種形式。Arm 已經(jīng)開(kāi)始采用擁有不同性能和效率等級的增強型 CPU 和 GPU,運行多種機器學(xué)習用例。推出 Arm 機器學(xué)習平臺的目的在于擴大選擇范圍,提供異構環(huán)境,滿(mǎn)足每種用例的選擇和靈活性需求,開(kāi)發(fā)出邊緣智能系統。