セッション概要
LLMサービングなどのAI基盤では、GPU利用率やメモリ使用量だけでなく、推論性能やボトルネックを含めた「基盤全体の状態把握」が重要になります。 本セッションでは、vLLMが動作するGPUサーバを題材に、DCGM Exporterで取得したGPUメトリクスをOpenTelemetry Collector経由でPrometheus互換ストレージへ集約し可視化するまでの構成と実践例を紹介します。
講師
芦野光
(さくらインターネット)
セッション情報
- 担当:
- さくらインターネット株式会社
- レベル:
- 入門編
- 対象者:
- GPUサーバやAI基盤を運用している方、OpenTelemetryやPrometheusを使った監視基盤に興味がある方
- 前提知識:
- Prometheus/Grafanaなどメトリクス監視の基礎知識
- カテゴリー:
- AI / クラウド / 運用管理