OPS

Google Cloud Next San Francisco ’23 現地レポート

【Google Cloud Next San Francisco ’23 現地レポート】BigQueryとPaLMによる次世代のデータ分析について

2023.08.31

本記事のポイント

Googleが主催する世界的なイベント「Google Cloud Next」が、2023年8月29日~8月31日にかけてアメリカのサンフランシスコにて開催されます。本ブログでは、Google Cloud Next San Francisco '23に実際に参加したエンジニアから、イベントの様子やKeynote(基調講演)の現地レポートをいち早くお届けします。

今回は、8/31(木)10:15~11:00(現地時間)に実施されたChris Crosbieによる講演の内容をお伝えします。



Google Cloud Next とは?

Google Cloud Next ’23とは、Google Cloud のインスピレーション、イノベーション、教育の世界的な展示会です。

意思決定者、開発者、そしてアクセシブルでスケーラブル、かつ社会的責任のあるクラウドに情熱を燃やすすべての人々が一堂に会し、課題、ソリューション、10 倍のアイデア、ゲームを変えるテクノロジーを共有する場です。

Next-generation data analytics with BigQuery and PaLM

今回は、08/31(木)10:15~11:00に開催された「Next-generation data analytics with BigQuery and PaLM」に関する講演をリポートします。

公式サイトによるセッション紹介を日本語訳すると、以下のような内容です。

GoogleのAIにおける研究とイノベーションを、BigQueryでお客様のデータに直接お届けします。本セッションでは、モデル推論などのBigQueryに組み込まれたML機能、およびVertex AIの基盤となる大規模言語モデル(LLM)をBigQuery内で直接使用し、センチメント分析、エンティティ抽出などの高度なユースケースを簡素化する方法について学びます。本セッションでは、顧客予測プラットフォームであるFaradayがBigQueryの基礎的LLMのパワーをどのように活用しているかについて、ライブデモを交えてご紹介します。

引用元:Google Cloud Next San Francisco ’23

登壇者

登壇者はこちらの方です。

会社名 登壇者 役職
Google Cloud Chris Crosbie Group Product Manager
Faraday Seamus Abshere CTO

Google Cloudのデータ・AIサービス

まずはじめに、Google CloudのデータおよびAIサービスの紹介がされました。

Google Cloudのデータ・AIサービスは全体を通して非常に多くのユーザ、ユースケースによって広く使用されております。

セッションで紹介されたデータ・AIサービスは以下になります。

AlloyDB

優れたパフォーマンス、スケーリング、可用性を実現したエンタープライズ ワークロードに対応するフルマネージドの PostgreSQL 互換データベース サービスです。

Spanner

グローバルなトランザクション整合性、高可用性を備えた、フルマネージドのミッション クリティカルなリレーショナル データベース サービスです。

BigQuery

優れた柔軟性、予測可能な費用、最良のコスト パフォーマンスを備えたサーバレスのエンタープライズデータウェアハウスです。

Vertex AI

フルマネージドの機械学習ツールを使用し、機械学習モデルの構築やデプロイ、スケーリングを高速化するサービスです。
Vertex AIの基礎モデルは、テキストやビデオ、画像、チャットなどがあります。

Looker

企業データを検索、共有、可視化し、ビジネス上の意思決定に役立てることが可能なデータプラットフォーム・サービスです。

BigQuery Studioの登場

さきほど紹介したGoogle Cloudのデータツールはそれぞれ独自のインターフェースを持っているため、データのインプット/アウトプットを行う際、プログラミング言語を切り替える必要がありました。

その課題を解決するため、最近発表されたBigQuery Studioの特徴について述べられました。

BigQuery内でSQL、Python、Spark、Javascript、または自然言語などを使用し、データの規模、形式、場所に関係なく、1つのデータソース内で分析を行うことが出来るサービスです。

本サービスは、AIがデータを操作するための新たな手法をユーザーへ提供し、さまざまな言語に簡単にアクセス出来ることを目的としています。

BigQuery DataFramesによる次世代AI開発

生成AIアプリケーションを構築するために必要なデータセットを扱えるようにする必要があります。

そこでBigQueryエンジンを利用したBigQuery DataFramesが登場しました。

BigQuery DataFramesは、Pythonで人気のオープンソースデータライブラリをベースにしたBigQuery用の新しいデータフレームであり、ML APIを提供します。

また、オープンソースパッケージとなるため、自由にインストールすることができます。

BigQuery DataFramesのパッケージは以下2つです。

bigframes.Pandas

  • Pandas互換APIを提供
  • データのインプット・アウトプットで、異なるソースから簡潔にデータを取り込むことが可能
  • Pythonエコシステムのアクセスマップへのデータ操作(索引、並び替え)が可能
  • 独自のカスタムPythonを記載し、BigQueryにデプロイすることが可能
  • bigframes.ML

  • scikit-learn API を提供
  • BigQuery MLがPythonインターフェースを公開
  • Vertex2.0 APIへの切り替えを実施
  • BigQuery SQLとPaLMの統合

    さらにBigQueryは飛躍的成長を遂げていくと述べています。
    BigQuery SQLと大規模言語モデルであるPaLMが統合することで、BigQuery SQL内でPaLM APIを呼び出し、生成AIの能力を直接使用することができます。

    つまり、クラウドAIを参照するモデルをBigQuery SQL内で作成することができ、よりデータ分析に役立つ新しいデータを生成することが可能になります。

    感想

    BigQueryの成長が感じられたセッションでした。今後のGoogle Cloud Data Toolとの関連性がどのように変化するのか目が離せません。

    まとめ

    今回は3日目のセッション「Next-generation data analytics with BigQuery and PaLM」の内容を紹介しました。

    データウェアハウスであるBigQueryですが、ML APIを提供しているBigQuery DataFramesの登場やBigQuery SQLとPaLMの統合により、活用できる範囲が増えました。Google Cloud Data tool全体のサービスが今後、どのように進化していくのか注目していきます。

    本記事がBigQueryを使用されている方に少しでも参考になると幸いです。