オープンソースカンファレンス2021 Fukuoka セミナープログラム

Apache Sparkの基本と最新バージョン3.2のアップデート

2021年11月20日(土) 15:00 〜 15:45

セッション概要

Apache Sparkは、大量のデータを高速に処理するためのOSSの並列分散処理系で、アナリティクスなどのユースケースで活用されています。本セッションではSparkの基本をはじめ、次期最新バージョンである3.2についてもご紹介いたします。

Spark 3.2では、pandas互換のAPIやセッションウィンドウなど、より高度なアナリティクスを可能にする新機能が導入されます。本セッションでは主にこれらの新機能について解説いたします。

講師

猿田浩輔

猿田浩輔

(株式会社NTTデータ (Apache Sparkコミッタ / PMCメンバ))

セッション情報

担当:: 株式会社NTTデータ
レベル:: 入門編
対象者:: 大量のデータを高速に処理したり、分析に役立てる技術に興味のある方。次期最新リリースとなるApache Spark 3.2の新機能に興味のある方。
前提知識:: 特になし。 Spark 3.2の新機能については、Sparkの予備知識があると理解しやすいですが、全体的にはSparkを知らない方でも理解していただける内容になっています。
カテゴリー:: アナリティクス/ビッグデータ/並列分散処理

資料

Apache Sparkの基本と最新バージョン3.2のアップデート（外部リンク）