セッション概要
Apache Sparkは、多数の計算リソースを用いることで大量のデータを高速に処理することを可能にするOSSです。ScalaやJavaだけでなく、データ分析で利用されることの多いPythonやSQLなどでロジックを組み立てることができ、汎用的なデータ処理から機械学習、ストリーム処理など様々な分野で活用されています。
本セッションでは、Apache Sparkの基本から昨今の動向をご紹介し、開発コミュニティへの参加の仕方についても触れます。
講師
猿田 浩輔
(シニア・ソフトウェアエンジニア)
セッション情報
- 担当:
- 株式会社NTTデータ
- レベル:
- 入門編
- 対象者:
- 大量のデータを高速に処理したり、分析に役立てる技術に興味のある方。 OSSプロジェクトへの参加に興味がある方。
- 前提知識:
- 特になし (SQLなどクエリ処理の経験があるとより理解しやすい内容)
- カテゴリー:
- 並列分散処理/ビッグデータ/アナリティクス
資料
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2021 Online/Kyotoエディション -(外部リンク)