OPS

【AWS re:Invent2022】Keynote Day3(現地レポート)

2022.12.01

本記事のポイント

AWSが主催するクラウドコンピューティング最大のイベント「AWS re:Invent」が、2022年11月28日~12月2日にかけてアメリカのラスベガスにて開催されます。本ブログでは、AWS re:Inventに実際に参加したエンジニアから、イベントの様子やKeynote(基調講演)の現地レポートをいち早くお届けします。

今回は、11/30(水)8:30~10:30(現地時間)に実施されたSwami Sivasubramanianによる基調講演の内容をお伝えします。

 

AWS re:Invent とは?

re:Inventとは、Amazon Web Services(以下、AWS)が主催するAWSに関するセッションや展示ブース、試験準備のためのブートキャンプやゲーム化された演習などを通じて、参加者が主体的に学習できるAWS最大のイベントです。

昨年も今年同様でラスベガスとオンラインにて開催されており、85以上の新サービスや新機能が発表されました。昨年の参加人数はオンサイト参加者2万人以上、バーチャル参加者は60万人以上になります。

基調講演の現地レポート(Day3、Swami Sivasubramanian)

3回目の基調講演レポートとなる今回は、11/30(水)08:30~10:30に開催されたAWSの新機能、新サービスに関する講演をリポートします。公式サイトによるセッション紹介を日本語訳すると、以下のような内容になります。

“AWS Data and Machine LearningのVice PresidentであるSwami Sivasubramanianが、企業のデータをビジネスにとって意味のある洞察とアクションに変換するために役立つ最新のAWSイノベーションを明らかにします。この基調講演では、複数の講演者が、将来を見据えたデータ戦略の重要な構成要素と、データによって現代の発明の次の波を推進するために組織を強化する方法について説明します。データを活用して顧客に新たな体験を提供しているAWSの主要なお客様からお話をお聞きください。”
引用元:AWS re:Invent公式サイト

登壇者

会社名 登壇者 役職
Amazon Web Services Swami Sivasubramanian Vice President

Keynote Day3開始

Amazon Web Services Vice PresidentのSwami Sivasubramanianさんが登壇し、いよいよKeynoteが開始。 冒頭は近代的な新しいイノベーションはデータから始まる、とデータの重要性を説いていました。

AmazonはAWSが始まるかなり前からデータの重要性を理解しており、配達の効率化などに役立てていたそうです。 AWSのデータに関する革新の15年以上の歴史の説明もありました。

クラウドにおける最初のスケーラブルなオブジェクトストレージであるS3をはじめとして、Amazon DynamoDB、Amazon Redshift、Amazon KinesisとMSK、Amazon SageMakerから始まったという説明でした。

そして、今では150万以上の人たちががAWSのデータベースや分析、機械学習のサービスを利用するようになりました。

しかし、データを集めたとしても、構築されたデータ戦略がなければ意思決定を行えません。 そこでAWSは企業が将来的なデータ基盤を整えるにあたり、4つの観点が大事であると主張しています。

それは「あらゆるワークロードに対応するツール」、「スケールのパフォーマンス」、「重労働を取り除く」,「信頼性とスケーラビリティ」、の4つです。 この4つを軸にした新機能や新サービスの発表があるのでしょう。とても楽しみです。

Amazon Athena for Apache Spark

最初に発表されたのはAmazon Athena(Athena)のためのApache Sparkでした。

AthenaはS3 内のデータを標準 SQLで分析するサービスです。またApache Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワークです。

この新機能によって、以下のことができるようになります。

  • AthenaでApache Sparkを1秒以内にインタラクティブ分析を開始することができるようになります。
  • 複雑で強力な分析が可能になります。
  • 分析時間が短縮されます。
  • リソースの管理やソフトウェアの構築ををAWSに任せることができます。
  • Amazon Redshift integration for Apache Spark

    続いてRedshiftでもApache Sparkが導入されます。

    既存のredshift-sparkよりも最大10倍速く、より簡単になります。 また、Apache Sparkは以下の5つのAWSサービスで3倍速く実行できます。

  • AmazonEMR
  • AWS Glue
  • Amazon SageMaker
  • Amazon RedShift
  • Amazon Athena

  • Amazon DocumentDB Elastic Clusters

    ほぼ全てのサイズとスケールのドキュメントワークロードをスケーリングするフルマネージドソリューションです。

    この新機能は以下の特長があります。

  • ワークロードを数分で柔軟にスケーリングできる
  • アプリケーションの可用性やパフォーマンスへの影響なし
  • 基盤となるインフラストラクチャを自動で管理
  • 今までは、DBの許容を超えるようなペタバイト級のデータの書き込みがあったとき、スケーリングやシャーディングをするため全てのインスタンスのオーケストレーション(調節)する処理は、複雑で、スピードもゆっくり、かつ高価なものでした。

    この機能によって自動で拡張できるようになり、かかる時間も数時間節約できるようになります。

    Amazon SageMaker now supports Geospatial ML

    Amazon SageMakerが地理空間をサポートするようになりました。 地理空間データを使用した空間モデルの構築、トレーニング、デプロイを容易にします。

    以下の特徴があります。

  • 数回クリックするだけで地理空間データを取得
  • 組み込みアルゴリズムを使用して地理空間データを簡単に準備
  • ニューラルネットワークモデルによるモデル構築の高速化
  • 今までのモデルは構造化データをもとにしたものでしたが、80%の企業のデータは非構造化や半構造化のデータでMLのラベリングに莫大な手間や時間がかかっていました。また解析ツールが限られておりデータの結びつきを特定するのも困難でした。

    この新機能では様々なデータソースにアクセスできます。大規模なデータを扱うことができ、3Dの可視化も行うことができます。

    具体例としてリアルタイム衛星画像から自然災害の予測地理空間データで予測する例が示されました。 写真の赤色で囲まれた部分は水没,緑は使える道路です.また最寄りの病院、臨時のヘリポートを確認できます。

    その中で水没していない道路からそれらへの最短ルートを示すことができます。 これにより迅速に現場の状況を把握し明確な指示を出すことができるようになるでしょう。

    Amazon Redshift Multi-AZ

    Amazon Redshift Multi-AZはミッションクリティカルな分析ワークロードをサポートするための高可用性と信頼性の提供します。 ミッションクリティカルとはそれが欠けると業務の遂行に致命的な悪影響が出るほど重要であることです。

    この機能は以下の特長があります。

  • 自動的にフェイルオーバーする容量を保証します。
  • 高可用性でコストパフォーマンスを最大化します。
  • アプリケーションを変更せずにビジネス継続性を維持します。
  • AWSにはAmazon S3やAWS Lake Formation、Multi-AZ Regionsなど比類のない信頼性とセキュリティの歴史があります。 しかし、データウェアハウスはミッションクリティカルでした。この新機能はそれを克服します。

    Trusted Language Extensions for PostgreSQL

    Amazon RDSとAmazon AthenaでPostgreSQLの拡張機能をサポートする新しいオープンソースプロジェクトです。

    この機能は以下の特徴があります。

  • ニーズに合わせて拡張機能を安全に使用できます
  • AWS認定を待たずに拡張機能をインストールできます
  • レバレッジ人気のプログラミング言語を使用できます。
  • 通常、新しく拡張機能を導入する時など,基礎にadminでアクセスが必要があります。 しかしこれは玄関に鍵を置いておくくらい危険なものです。

    そこで,オープンソースプロジェクトに投資し、PostgreSQLをサポートするようにしました。 今後もオープンソースプロジェクトへの貢献を継続するそうです。

    Amazon GuardDuty RDS Protection

    賢い脅威検知でAuroraのデータを保護します。

    この機能は以下の特徴があります。

  • 機械学習を活用して不審なアクティビティを正確に検出します。
  • コンテンツデータによって強化されたセキュリティの検出結果を提供します。
  • たった一つのクリックで潜在的な脅威を継続的に監視します。
  • 現在ではAuroraに対応しています。AWSでRDBを選択するときはAuroraを使うと良いかもしれません。

    AWS Glue Data Quality

    データレイクのデータ品質を自動的に測定、監視、管理します。

    この新機能は以下の特長があります。

  • データ品質ルールが自動生成されます。
  • より良い意思決定のためデータ品質の向上しました。
  • 手作業が数日から数時間に短縮できます。
  • 企業にとってデータストアは資産です。データには質の高いデータと質の低いデータがあります。 今までは、質の高いデータを収集するためにエンジニアが手作業でルールを設定していました。これは時間もかかりミスも起きやすいです。

    この新機能はデータセットに対して数時間でルールを設定し、品質の低いデータがデータレイクにはいらないように.警告を発して対策できます。

    Centralized Access Control for Redshift Data Sharing

    AWS Lake Formationを使用してRedshiftデータへのアクセスを管理します。

    以下の特長があります。

  • Lake Formationを使用してRedshiftデータのアクセス制御を一元管理します。
  • 複雑なクエリや手動スクリプトを使用せずにユーザーアクセスを指定できます。
  • 行または列レベルのデータを共有権限でセキュリティを強化します。
  • 今まで複数企業や多くのユーザーとコラボする時権限設定することはとても大変でした。またモデル情報を共有をするのは困難でした。

    この新機能ではアクセス制御を一元管理でき、複雑なクエリや特定部分をきめ細かいアクセスをコントロールできます.

    Amazon SageMaker ML Governance

    エンドツーエンドのML開発のためのガバナンスと監査の機能です。

    以下の特長があります。

  • Role Managerはカスタムユーザー権限を数分で定義します。
  • Models Cardsはモデル情報とドキュメントを一元化します。
  • Model Dashboardはモデルのパフォーマンスを1カ所で監視します。
  • Amazon Redshift auto-copy from S3

    Redshiftへのファイルの取り込みを簡素化し自動化します。

    以下の特長があります。

  • シンプルなデータ取り込みをしてパイプラインを簡単に作成して維持します。
  • S3で新しいファイルが作成されるとすぐに継続的にデータを取り込みます。
  • エンジニアのリソースなしにデータの読み込みを自動化します。
  • Amazon AppFlow now offers 50+ connectors

    要望が多くあったため、Amazon AppFlowでサードパーティとのコネクションを増やし、50以上提供しています。

    Access 40+ new data sources from Amazon SageMaker Data Wrangler

    Wranglerから40以上の新しいデータソースにアクセスできるようになり、モデルのデータをインポート可能になりました。

    AWS Machine Learning University now provides educator training

    大学の教育者向けトレーニングの提供を開始しました。全国のコミュニティカレッジとMSI向けのALとML教育者トレーニングプログラムです。

    以下の特長があります。

  • ハンズオントレーニングセッション
  • 構造化されたカリキュラムと教室のリソースの提供します。
  • 教育者の実践コミュニティへのアクセスを提供します。
  • これからの企業にとってデータの活用は必要不可欠です。

    データへのアクセスを民主化することが目的としており、IT業界ではない人たちにもデータを分析したり活用する力を培うべきだという考えからこのプログラムを推進しています。2023年300以上の大学で提供する見積りです。

    Core elements of a data strategy

    最後にデータ戦略のコア要素の3つの紹介がありました。

  • コアデータサービスによるサポートで将来を見据えた基盤の構築
  • 組織の統合
  • ツールと教育でデータを民主化する
  • まとめ

    今日のKeynoteも2回目と同様「データ」に焦点をあてた基調講演でした。

    MLを活用したマネージドサービスが多く新リリースされ、MLは今後の便利なサービスに欠かせないものになる印象を受けました。 またデータの活用をIT業界に携わる人に関わらず全ての人ができるようにしたいという活動も開始し、データを企業戦略に活かせるかが今後の鍵になるでしょう。

    プレビューリリースやGAのプロダクトもあるので実際に触ってみた感想なども今後アウトプットできればと思いますのでご期待ください。