[AWS re:Invent 2019] DeepRacerのワークショップに参加

2019.12.07

本記事のポイント

ラスベガスで開催されているAWS re:Invent 2019でDeepRacerのワークショップに参加しました。

自分専用のAWS DeepRacer RLモデルを作成しコースをシミュレーションするところまでの手順をハンズオンで行いましたので、紹介させて頂きます。

AWS DeepRacerとは

強化学習によって駆動される完全自走型の 1/18 スケールのレースカー、3D レーシングシミュレーター、およびグローバルレーシングリーグを備えた、強化学習 (RL) を自由自在に操る最速の手段です。開発者は、実際の世界での自律的なエクスペリエンス、および AWS DeepRacer リーグで AWS DeepRacer チャンピオンカップの出場権をかけて競い合うために、オンラインシミュレーターで RL モデルをトレーニング、評価、調整することができます。

目標

１．AWSコンソールでAWS DeepRacerを理解

２．レースに参加できるようにタイムトライアルモデルのトレーニングを開始する

最初のモデルトレーニング

マシンのカスタマイズ

１．AWSコンソールにログインしてAWS DeepRacerサービスにアクセスします。

※ 現時点ではバージニア北部リージョンしか対応していません。

リソースをまだ作成していない場合は「Create Resources」をクリックします。

完了までに5分程度時間がかかります。

この操作を行うことで、AWS DeepRacerが自動的に「Amazon SageMaker」と「AWS RoboMaker」にアクセス許可を与え、VPCを管理するCloud Formation stackをスピンアップします。

Reset resourcesは押さないように注意して下さい。

stackが削除されプロセスが再起動します。

２．Garageから「Build a new vehicle」をクリックします。

３．カメラの数やニュートラルネットワークを選択します。

今回はCameraと3 Layer CNN を選択します。

４．Action Spaceを設定します。

今回は以下パラメータを設定します。

Maximum steering angle ： 30

steering angle granularity : 5

maximum speed ： 1m/s

speed granularity ： 3

５．DeepRacerの名前と色をカスタマイズします

６．Grageに戻ると作成したものが確認できます。

Modelの作成

１．「create model」をクリックします。

２．model名やシミュレーションするレーストラックを選択します。

ここでは、re:Invent内の会場で行われているレースと同じトラック「the 2019 DeepRacer Championship Cup track」を選択しました。

３．Race TypeとAgentを選択します。

報酬関数とtraining algorithm と hyperparametersの設定

１．報酬関数を設定する

パラメータの一部を可視化するとこんな形になっています。

以下例の様に設定します。

センターラインを追従する基本的な報酬機能です。

def reward_function(params):
'''
Example of rewarding the agent to follow center line
'''

# Calculate 3 marks that are farther and father away from the center line
marker_1 = 0.1 * params['track_width']
marker_2 = 0.25 * params['track_width']
marker_3 = 0.5 * params['track_width']

# Give higher reward if the car is closer to center line and vice versa
if params['distance_from_center'] <= marker_1:
reward = 1.0
elif params['distance_from_center'] <= marker_2:
reward = 0.5
elif params['distance_from_center'] <= marker_3:
reward = 0.1
else:
reward = 1e-3 # likely crashed/ close to off track

return float(reward)

２．Training algorithm と hyperparametersを設定します。