セッション概要

Apache Sparkは、大量のデータを高速に処理するためのOSSの並列分散処理系で、アナリティクスなどのユースケースで活用されています。本セッションではSparkの基本をはじめ、次期最新バージョンである3.2についてもご紹介いたします。

Spark 3.2では、pandas互換のAPIやセッションウィンドウなど、より高度なアナリティクスを可能にする新機能が導入されます。本セッションでは主にこれらの新機能について解説いたします。

講師

猿田 浩輔

猿田 浩輔

(株式会社NTTデータ (Apache Sparkコミッタ / PMCメンバ))

セッション情報

担当:
株式会社NTTデータ
レベル:
入門編
対象者:
大量のデータを高速に処理したり、分析に役立てる技術に興味のある方。 次期最新リリースとなるApache Spark 3.2の新機能に興味のある方。
前提知識:
特になし。 Spark 3.2の新機能については、Sparkの予備知識があると理解しやすいですが、 全体的にはSparkを知らない方でも理解していただける内容になっています。
カテゴリー:
アナリティクス/ビッグデータ/並列分散処理
Google Calendar

資料

Apache Sparkの基本と最新バージョン3.2のアップデート(外部リンク)