社外向け勉強会を開催しました! – [Tensorflow分散学習] Horovodによる分散学習の実装方法と解説 –

はじめまして、LeapMind Infrastructure Division エンジニアの増田です。
組込みDeep Learningモデル構築サービス「DeLTA-Lite」の開発やLeapMind社内のDeep Learning研究開発環境の改善を担当しています。

先日、社外向けにUberが開発しているOSSの分散学習用フレームワークであるHorovodについての勉強会を開催しました。
最近ではAWSのDeep Learning AMIにもHorovodが追加され話題になっていますね。

Horovodの大きな特徴として、通常の1GPUを用いたTrainingで使用しているコードを少し変更するだけで、簡単に複数GPUを用いた分散学習が実装できるという点が挙げられます。

イベントでは、サンプルコードを用いながら、必要な変更部分を示してチュートリアルを行いました。実際にコード変更から動作確認までを見て頂くことで、より具体的に実行までのイメージを掴んで頂けたかと思っております。
また、Deep Learningにおける分散学習とは?といったところやTensorflow公式の分散学習実装であるDistributed Tensorflowとの比較も交えながら説明をさせて頂きました。

発表資料については下記から閲覧可能ですので、ご興味がありましたらぜひご覧下さい!

LeapMindではDeep Learningの高速化やGPUの高効率利用を一緒に実現していく仲間を募集しています。
また、エンジニア、非エンジニア問わず、あらゆる職種にて一緒に働く仲間を募集していますので、Wantedlyからお気軽にお問合わせ下さい。

増田 英晃

Posted by 増田 英晃

Leave a reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です