セッション概要
Apache Sparkは、多数の計算リソースを用いることで大量のデータを高速に処理することを可能にするOSSです。
ScalaやJavaだけでなく、データ分析で利用されることの多いPythonやSQLなどでロジックを組み立てることができ、汎用的なデータ処理から機械学習、ストリーム処理など様々な分野で活用されています。
本セッションでは、Apache Sparkの基本から今年6月にリリースされた最新バージョン3.0でのアップデートを、一挙にご紹介します。
講師
猿田 浩輔
(株式会社NTTデータ)
セッション情報
- 担当:
- 株式会社NTTデータ
- レベル:
- 入門編
- 対象者:
- データ処理/データ分析の手段としてApache Sparkに興味があり、基礎知識から最新動向までをキャッチアップしたい方
- 前提知識:
- 特になし
- カテゴリー:
- ビッグデータ/並列分散処理基盤
資料
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介 - 基本から最新バージョン3.0まで -(外部リンク)