CPU推理性能提高數十倍,MegEngine計算圖、MatMul優化解析 | 工程之道

本文針對曠視天元深度學習框架在推理優化過程中所涉及的計算圖優化與 MatMul 優化進行深度解讀。

背景及引言

在深度學習大規模落地邊緣端場景的今天,如何最大程度降本增效,是企業與開發者共同關注的話題。其中,模型的訓練與推理是兩個關鍵環節。

天元(MegEngine)深度學習框架憑藉「訓練與推理一體化」的獨特範式,能夠極大程度上(90%)節省模型從研發到部署的整體成本,降低轉換難度,真正實現小時級轉化;同時,天元(MegEngine)在 CPU 推理方面所做的大量優化工作,也使得開發者在推理時能夠發揮出處理器的最佳性能。

在之前我們對天元的極致推理優化進行了綜述《 工程之道,MegEngine 推理性能極致優化之綜述篇》。本文則針對天元在推理優化過程中所涉及的計算圖優化與 MatMul 優化進行深度解讀,希望能夠幫助廣大開發者在利用天元 MegEngine「深度學習,簡單開發」的同時,也能夠了解 CPU 優化的相關知識。

從而幫助大家在模型部署的整體流程中更好地進行加速;在實際模型部署時能夠評估模型在特定平臺上運行所能達到的性能以及內存使用情況;以及在算法設計時可以設計出更利於 CPU 優化加速的卷積 Opr 等。

CPU 推理優化概覽

原文鏈接:【https://www.infoq.cn/article/80vOXzkSRw35wZms2e8z】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章