セッション概要
Apache Sparkは、大量のデータを高速に処理するためのOSSの並列分散処理系で、アナリティクスなどのユースケースで活用されています。本セッションではSparkの基本をはじめ、次期最新バージョンである3.2についてもご紹介いたします。
Spark 3.2では、pandas互換のAPIやセッションウィンドウなど、より高度なアナリティクスを可能にする新機能が導入されます。本セッションでは主にこれらの新機能について解説いたします。
講師
猿田 浩輔
(株式会社NTTデータ (Apache Sparkコミッタ / PMCメンバ))
セッション情報
- 担当:
- 株式会社NTTデータ
- レベル:
- 入門編
- 対象者:
- 大量のデータを高速に処理したり、分析に役立てる技術に興味のある方。 次期最新リリースとなるApache Spark 3.2の新機能に興味のある方。
- 前提知識:
- 特になし。 Spark 3.2の新機能については、Sparkの予備知識があると理解しやすいですが、 全体的にはSparkを知らない方でも理解していただける内容になっています。
- カテゴリー:
- アナリティクス/ビッグデータ/並列分散処理