OPS

【AWS re:Invent 2023】コミックビデオを作成するAIについて

2023.12.01

本記事のポイント

昨今著しい発展を見せているAI技術ですが、そのAIを用いてコミックビデオを作成するアプリ開発について紹介されていました。
本記事ではセッションの内容をレポートします。


Amazon Bedrockとは

AI21 Labs、Anthropicなどの大手 AI 企業が提供する高性能な基盤モデル (FM) を単一の API で選択できるサービスです。

代表的なモデルとしてテキストの生成や分類、質疑応答、情報抽出が可能なAmazon Titanや、Anthropic社の大規模言語モデルClaudeが挙げられます。

セッション情報

セッション名 Building an Al comic video generator with Amazon Bedrock
セッション概要 コミックスクリプトを生成するためにAmazon Bedrock大規模言語モデルを使用する方法します。
Amazon SageMaker JumpStartの助けを借りてStable Diffusionモデルを微調整し、キャラクターの不一致をなくし、子供の大好きなおもちゃをメインキャラクターとしてコミックビデオをパーソナライズする方法を学びます。
プロンプトエンジニアリングのテクニックを深く掘り下げ、Stable Diffusionモデルを使って2つの画像をブレンドする方法を学びます。
登壇者 Agustinus Nalwan
登壇者情報 「AWS Machine Learning Hero(AWS機械学習ヒーロー)」の異名を持つオーストラリア出身のCarsales社 AI責任者

コミックビデオ作製の課題

コミックビデオとは、紙芝居のように複数の画像を順番に投影そこにセリフやBGMなどの音声を追加する形で作成された映像作品です。

日本においてはいわゆる「漫画動画」が近いかと思います。

動画共有サイトなどで見たことがある方も多いのではないでしょうか。

コミックビデオに欠かせない要因が大きく2つあり、どちらかが欠けてしまうとコミックビデオとして成立しません。

それは「ストーリー」「イラスト」です。

今回のセッションではストーリーとイラストをそれぞれの生成を課題として紹介しておりました。


ストーリー生成

初めに物語の基盤となるストーリーをAIに生成させます。

ストーリー生成には、Amazon Bedrockの機能を利用します。

AWS マネジメントコンソールより[Amazon Bedrock > Playgrounds > text]へ遷移しSelect providerへ「Anthropic」Select modelへ「Claude V1 v1.3」を 選択


推測構成よりRandomness and Diversityへ任意の値を選択し、左のテキストボックスへ生成したいストーリー要件を入力し[Run]を押下することによりストーリーが生成されます。

▼実際に紹介された例

———【要件】———

> Human: Write me a 300 words words story about Bob the Penguin who wants to travel to Europe visiting famous landmarks.

> (ペンギンのボブがヨーロッパを旅して有名な名所を訪ねるという300字の物語を書いてください。)


———【生成されたストーリー(一部抜粋)】———

> Bob the penguin had always dreamed of traveling to Europe to see the famous landmarks he read about in books. One day, he decided it was time to embark on an adventure. He packed his bags, said

goodbye to his friends and family, and set off on a ship to Europe.~

> (ペンギンのボブは、本で読んだ有名な名所を見にヨーロッパを旅するのが夢だった。ある日、彼は冒険の旅に出る決心をした。彼は荷物をまとめ、友達や家族に別れを告げ、ヨーロッパ行きの船に乗り込んだ。)


イラスト生成

前項で作成したストーリーに合わせたイラストを生成します。

イラストの生成には機械学習を用いる必要があるためAmazon SageMakerを使用します。

AWS マネジメントコンソールよりAmazon SageMakerへ遷移し[Stable Diffusion 2.1 base] を選択後に[Open notebook]を選択します。

[2.1 Select a Model]にて前項で作成したモデルID(ストーリー)を選択し生成してみます。

ペンギンが主人公の作品のはずが2セクション以降の画像は主人公が人間に置き換わってしまいました。

理由は生成されたストーリーの主語が「Bob the pengin」「Bob」「he」と焦点が一定ではなく段落が長いことにありました。

そこで各セクションを詳細に説明し、[]内に1文で記載する必要があります。

追加した結果下図のようにペンギンの画像が生成されましたが、ペンギンにも様々な種類があり完璧とは言えません。

そこで予めペンギンのトレーニング画像をAIに学習させることで意図したペンギンを含めたイラストを生成します。

この時にS3へトレーニング画像を複数格納することで更に精度の高い画像が生成可能です。


学習させた後の結果を確認すると主人公のペンギンがすべて同一で複数シーンが作成されていることが確認できます。

最後に

このようにストーリーやイラストをAIにて生成し組み合わせることで誰にでも簡単にコミックビデオを作成を生成可能です。

re:Invent初日から著しいAI進歩に驚かされました。

これほど手軽に物語とイラストを作成することが可能であれば、来年には何が出来るようになるのだろうと今後の更なる発展への期待に胸が膨らみます。

引き続きre:Inventに関する記事を投稿させていただきますので併せてご覧いただけますと幸いです。