セッション概要

LLMサービングなどのAI基盤では、GPU利用率やメモリ使用量だけでなく、推論性能やボトルネックを含めた「基盤全体の状態把握」が重要になります。 本セッションでは、vLLMが動作するGPUサーバを題材に、DCGM Exporterで取得したGPUメトリクスをOpenTelemetry Collector経由でPrometheus互換ストレージへ集約し可視化するまでの構成と実践例を紹介します。

講師

芦野光

(さくらインターネット)

セッション情報

担当:
さくらインターネット株式会社
レベル:
入門編
対象者:
GPUサーバやAI基盤を運用している方、OpenTelemetryやPrometheusを使った監視基盤に興味がある方
前提知識:
Prometheus/Grafanaなどメトリクス監視の基礎知識
カテゴリー:
AI / クラウド / 運用管理