nvidia_gpu_exporter


Репозиторий: nvidia_gpu_exporter

Документация: Доступна в репозитории (по использованию экспортера и настройке собираемых метрик)

Экспортер для мониторинга GPU NVIDIA. Может быть запущен как процесс или как сервис.

Описание работы

nvidia_gpu_exporter предоставляет метрики о работе графических процессоров NVIDIA.

Это стандартный Prometheus экспортер с HTTP-сервером для отображения метрик.

Он содержит

Эндпойнт /metrics со стандартными метриками (go, proc, promhttp)

Подробные метрики GPU NVIDIA:

  • Использование GPU

  • Температура и охлаждение

  • Использование памяти

  • Загрузка ядер

  • Информация о драйвере и оборудовании

Запуск экспортёра

Возможна настройка через UI и через конфигурационный файл агента.

Важно

Для работы требуется:

  1. Установленные драйвера NVIDIA

  2. Утилита nvidia-smi

  3. Права на доступ к GPU

Через конфигурационный файл агента

config.yml
exporters:
  - name: nvidia_gpu_exporter
    start_type: args
    args: "--web.listen-address=0.0.0.0:9835"
    address: 127.0.0.1:9835
    labels:
      component: nvidia_gpu
      hostname: gpu-server-01

name - должно совпадать с именем бинарного файла (nvidia_gpu_exporter)

start_type - тип запуска экспортёра

args - основные аргументы:

address - адрес для опроса экспортёра агентом

labels - дополнительные лейблы:

component - идентификатор компонента

hostname - рекомендованный лейбл (по умолчанию hostname агента)

Проверка работы

После запуска метрики будут доступны по адресу:

http://localhost:9835/metrics

Примечание

Замените localhost на IP-адрес хоста с конфигурируемым агентом.