分散式深度學習系統中處理器間通訊與效能擴展性之模型建構與預測

深度學習是機器學習的一種方法，在實際應用中，即使運用具備圖形處理器(graphics processing unit, GPU）的機器來加速計算，往往需要幾天，甚至數周的時間才能完成以巨量資料訓練深度學習神經網路的工作，因此採用高效能計算叢集(HPC cluster)進一步加速深度學習的作法應運而生。高效能計算叢集將訓練深度神經網路的計算任務分配到不同計算節點進行分散式訓練(distributed training)，每個計算節點具備多個圖形處理器，因此可大幅縮短訓練的時間。但是隨著節點個數的增加，以及圖形處理器計算能力的提升，訓練時所需要同步更新參數(parameters)所產生的資料交換量亦大幅的成長，而處理器之間大量的通訊所造成的負擔可能嚴重削減加速的效果。本篇論文發展一套效能模型的建構方法，可針對Tensorflow分散式訓練中參數同步的方法，包括參數伺服器(parameter server)及環狀(xring)，以及高效能計算叢集中處理器間的通訊網路拓樸，建構出系統層級的效能預估模型。我們透過測量程式獲得一次疊代(iteration)圖形處理器所需要的計算時間、網路傳輸參數所需的時間、模型參數的大小、模型參數在內部處理器間的傳輸量等資訊，自動為目標系統產生效能模型。使用者可透過此模型，準確預估出任何在該系統上執行分散式深度學習訓練工作的效能可擴展性、與網路的頻寬需求、甚至可以使用此模型來建構出成本效益高的圖形處理器叢集。根據我們的實驗結果，模型所預測的效能與實際的效能的差距在正負百分之十之內，因此對於系統設計者在做初期規劃的時候提供了相當實用的參考資料。

關鍵字

效能分析工具；深度學習；分散式訓練；時間模型；網路

並列摘要

無資料

並列關鍵字

Profiling tool ； Deep learning ； Distrbuted training ； Timing Model ； Network

參考文獻

[1] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, et al. Tensorflow: a system for large-scale machine learning. In OSDI, volume 16, pages 265–283, 2016.

Google Scholar

[2] L. Cheng-Yueh. Scout j-bench. https://github.com/cyliustack/scout/tree/master/j-bench, 2018.

Google Scholar

[3] L. Cheng-Yueh. Sofa. https://github.com/cyliustack/sofa.git, 2018.

Google Scholar

[4] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

Google Scholar

[5] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.

Google Scholar

國際替代計量

分散式深度學習系統中處理器間通訊與效能擴展性之模型建構與預測

全文下載

主題瀏覽