nvidia_gpu_exporter
Репозиторий: nvidia_gpu_exporter
Документация: Доступна в репозитории (по использованию экспортера и настройке собираемых метрик)
Экспортер для мониторинга GPU NVIDIA. Может быть запущен как процесс или как сервис.
Описание работы
nvidia_gpu_exporter предоставляет метрики о работе графических процессоров NVIDIA.
Это стандартный Prometheus экспортер с HTTP-сервером для отображения метрик.
Он содержит
Эндпойнт /metrics со стандартными метриками (go, proc, promhttp)
Подробные метрики GPU NVIDIA:
Использование GPU
Температура и охлаждение
Использование памяти
Загрузка ядер
Информация о драйвере и оборудовании
Запуск экспортёра
Возможна настройка через UI и через конфигурационный файл агента.
Важно
Для работы требуется:
Установленные драйвера NVIDIA
Утилита nvidia-smi
Права на доступ к GPU
Через конфигурационный файл агента
exporters:
- name: nvidia_gpu_exporter
start_type: args
args: "--web.listen-address=0.0.0.0:9835"
address: 127.0.0.1:9835
labels:
component: nvidia_gpu
hostname: gpu-server-01
name - должно совпадать с именем бинарного файла (nvidia_gpu_exporter)
start_type - тип запуска экспортёра
args - основные аргументы:
address - адрес для опроса экспортёра агентом
labels - дополнительные лейблы:
component - идентификатор компонента
hostname - рекомендованный лейбл (по умолчанию hostname агента)
Проверка работы
После запуска метрики будут доступны по адресу:
Примечание
Замените localhost на IP-адрес хоста с конфигурируемым агентом.