【AWS re:Invent2022】Keynote Day3(現地レポート)
2022.12.01
AWSが主催するクラウドコンピューティング最大のイベント「AWS re:Invent」が、2022年11月28日~12月2日にかけてアメリカのラスベガスにて開催されます。本ブログでは、AWS re:Inventに実際に参加したエンジニアから、イベントの様子やKeynote(基調講演)の現地レポートをいち早くお届けします。
今回は、11/30(水)8:30~10:30(現地時間)に実施されたSwami Sivasubramanianによる基調講演の内容をお伝えします。
AWS re:Invent とは?
re:Inventとは、Amazon Web Services(以下、AWS)が主催するAWSに関するセッションや展示ブース、試験準備のためのブートキャンプやゲーム化された演習などを通じて、参加者が主体的に学習できるAWS最大のイベントです。
昨年も今年同様でラスベガスとオンラインにて開催されており、85以上の新サービスや新機能が発表されました。昨年の参加人数はオンサイト参加者2万人以上、バーチャル参加者は60万人以上になります。
基調講演の現地レポート(Day3、Swami Sivasubramanian)
3回目の基調講演レポートとなる今回は、11/30(水)08:30~10:30に開催されたAWSの新機能、新サービスに関する講演をリポートします。公式サイトによるセッション紹介を日本語訳すると、以下のような内容になります。
“AWS Data and Machine LearningのVice PresidentであるSwami Sivasubramanianが、企業のデータをビジネスにとって意味のある洞察とアクションに変換するために役立つ最新のAWSイノベーションを明らかにします。この基調講演では、複数の講演者が、将来を見据えたデータ戦略の重要な構成要素と、データによって現代の発明の次の波を推進するために組織を強化する方法について説明します。データを活用して顧客に新たな体験を提供しているAWSの主要なお客様からお話をお聞きください。”引用元:AWS re:Invent公式サイト
登壇者
会社名 | 登壇者 | 役職 |
---|---|---|
Amazon Web Services | Swami Sivasubramanian | Vice President |
Keynote Day3開始
Amazon Web Services Vice PresidentのSwami Sivasubramanianさんが登壇し、いよいよKeynoteが開始。 冒頭は近代的な新しいイノベーションはデータから始まる、とデータの重要性を説いていました。
AmazonはAWSが始まるかなり前からデータの重要性を理解しており、配達の効率化などに役立てていたそうです。 AWSのデータに関する革新の15年以上の歴史の説明もありました。
クラウドにおける最初のスケーラブルなオブジェクトストレージであるS3をはじめとして、Amazon DynamoDB、Amazon Redshift、Amazon KinesisとMSK、Amazon SageMakerから始まったという説明でした。
そして、今では150万以上の人たちががAWSのデータベースや分析、機械学習のサービスを利用するようになりました。
しかし、データを集めたとしても、構築されたデータ戦略がなければ意思決定を行えません。 そこでAWSは企業が将来的なデータ基盤を整えるにあたり、4つの観点が大事であると主張しています。
それは「あらゆるワークロードに対応するツール」、「スケールのパフォーマンス」、「重労働を取り除く」,「信頼性とスケーラビリティ」、の4つです。 この4つを軸にした新機能や新サービスの発表があるのでしょう。とても楽しみです。
Amazon Athena for Apache Spark
最初に発表されたのはAmazon Athena(Athena)のためのApache Sparkでした。
AthenaはS3 内のデータを標準 SQLで分析するサービスです。またApache Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワークです。
この新機能によって、以下のことができるようになります。
Amazon Redshift integration for Apache Spark
続いてRedshiftでもApache Sparkが導入されます。
既存のredshift-sparkよりも最大10倍速く、より簡単になります。 また、Apache Sparkは以下の5つのAWSサービスで3倍速く実行できます。
Amazon DocumentDB Elastic Clusters
ほぼ全てのサイズとスケールのドキュメントワークロードをスケーリングするフルマネージドソリューションです。
この新機能は以下の特長があります。
今までは、DBの許容を超えるようなペタバイト級のデータの書き込みがあったとき、スケーリングやシャーディングをするため全てのインスタンスのオーケストレーション(調節)する処理は、複雑で、スピードもゆっくり、かつ高価なものでした。
この機能によって自動で拡張できるようになり、かかる時間も数時間節約できるようになります。
Amazon SageMaker now supports Geospatial ML
Amazon SageMakerが地理空間をサポートするようになりました。 地理空間データを使用した空間モデルの構築、トレーニング、デプロイを容易にします。
以下の特徴があります。
今までのモデルは構造化データをもとにしたものでしたが、80%の企業のデータは非構造化や半構造化のデータでMLのラベリングに莫大な手間や時間がかかっていました。また解析ツールが限られておりデータの結びつきを特定するのも困難でした。
この新機能では様々なデータソースにアクセスできます。大規模なデータを扱うことができ、3Dの可視化も行うことができます。
具体例としてリアルタイム衛星画像から自然災害の予測地理空間データで予測する例が示されました。 写真の赤色で囲まれた部分は水没,緑は使える道路です.また最寄りの病院、臨時のヘリポートを確認できます。
その中で水没していない道路からそれらへの最短ルートを示すことができます。 これにより迅速に現場の状況を把握し明確な指示を出すことができるようになるでしょう。
Amazon Redshift Multi-AZ
Amazon Redshift Multi-AZはミッションクリティカルな分析ワークロードをサポートするための高可用性と信頼性の提供します。 ミッションクリティカルとはそれが欠けると業務の遂行に致命的な悪影響が出るほど重要であることです。
この機能は以下の特長があります。
AWSにはAmazon S3やAWS Lake Formation、Multi-AZ Regionsなど比類のない信頼性とセキュリティの歴史があります。 しかし、データウェアハウスはミッションクリティカルでした。この新機能はそれを克服します。
Trusted Language Extensions for PostgreSQL
Amazon RDSとAmazon AthenaでPostgreSQLの拡張機能をサポートする新しいオープンソースプロジェクトです。
この機能は以下の特徴があります。
通常、新しく拡張機能を導入する時など,基礎にadminでアクセスが必要があります。 しかしこれは玄関に鍵を置いておくくらい危険なものです。
そこで,オープンソースプロジェクトに投資し、PostgreSQLをサポートするようにしました。 今後もオープンソースプロジェクトへの貢献を継続するそうです。
Amazon GuardDuty RDS Protection
賢い脅威検知でAuroraのデータを保護します。
この機能は以下の特徴があります。
現在ではAuroraに対応しています。AWSでRDBを選択するときはAuroraを使うと良いかもしれません。
AWS Glue Data Quality
データレイクのデータ品質を自動的に測定、監視、管理します。
この新機能は以下の特長があります。
企業にとってデータストアは資産です。データには質の高いデータと質の低いデータがあります。 今までは、質の高いデータを収集するためにエンジニアが手作業でルールを設定していました。これは時間もかかりミスも起きやすいです。
この新機能はデータセットに対して数時間でルールを設定し、品質の低いデータがデータレイクにはいらないように.警告を発して対策できます。
Centralized Access Control for Redshift Data Sharing
AWS Lake Formationを使用してRedshiftデータへのアクセスを管理します。
以下の特長があります。
今まで複数企業や多くのユーザーとコラボする時権限設定することはとても大変でした。またモデル情報を共有をするのは困難でした。
この新機能ではアクセス制御を一元管理でき、複雑なクエリや特定部分をきめ細かいアクセスをコントロールできます.
Amazon SageMaker ML Governance
エンドツーエンドのML開発のためのガバナンスと監査の機能です。
以下の特長があります。
Amazon Redshift auto-copy from S3
Redshiftへのファイルの取り込みを簡素化し自動化します。
以下の特長があります。
Amazon AppFlow now offers 50+ connectors
要望が多くあったため、Amazon AppFlowでサードパーティとのコネクションを増やし、50以上提供しています。
Access 40+ new data sources from Amazon SageMaker Data Wrangler
Wranglerから40以上の新しいデータソースにアクセスできるようになり、モデルのデータをインポート可能になりました。
AWS Machine Learning University now provides educator training
大学の教育者向けトレーニングの提供を開始しました。全国のコミュニティカレッジとMSI向けのALとML教育者トレーニングプログラムです。
以下の特長があります。
これからの企業にとってデータの活用は必要不可欠です。
データへのアクセスを民主化することが目的としており、IT業界ではない人たちにもデータを分析したり活用する力を培うべきだという考えからこのプログラムを推進しています。2023年300以上の大学で提供する見積りです。
Core elements of a data strategy
最後にデータ戦略のコア要素の3つの紹介がありました。
まとめ
今日のKeynoteも2回目と同様「データ」に焦点をあてた基調講演でした。
MLを活用したマネージドサービスが多く新リリースされ、MLは今後の便利なサービスに欠かせないものになる印象を受けました。 またデータの活用をIT業界に携わる人に関わらず全ての人ができるようにしたいという活動も開始し、データを企業戦略に活かせるかが今後の鍵になるでしょう。
プレビューリリースやGAのプロダクトもあるので実際に触ってみた感想なども今後アウトプットできればと思いますのでご期待ください。