Host
Описание
Группа мониторов Host рассчитана на мониторинг информации об операционной системе.
Основной правил являются метрики от node_exporter и windows_exporter. В отдельных случаях могут использоваться метрики других экспортёров.
Данные правила показывают общее здоровье наблюдаемой системы linux/windows и поставляются в качестве набора по умолчанию доступного при разоврачивании платформы мониторинга.
Список мониторов
Скачать yaml файл всех мониторов
Name: Непредвиденная перезагрузка хоста {{.Host}}
Description: Непредвиденная перезагрузка хоста {{.Host}}
Полное правило в формате YAML
- id: 41x0300aaaaa9982
name: '[Host] Непредвиденная перезагрузка хоста {{.Host}}'
description: Непредвиденная перезагрузка хоста {{.Host}}
query: node_time_seconds - node_boot_time_seconds
labels:
integration: general
object_tag: hostname
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9982
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '600'
critical: 'true'
reverse: 'true'
priority: 1
Name: Высокая нагрузка CPU хоста {{.Host}} ({{.Value0}}%)
Description: Высокая нагрузка CPU хоста {{.Host}} ({{.Value0}}%)
100 - avg by (hostname, instance, job, group) (irate(node_cpu_seconds_total{mode="idle"}[5m]) * 100)`
Полное правило в формате YAML
- id: 41x0300aaaaa9991
name: '[Host] Высокая нагрузка CPU хоста {{.Host}} ({{.Value0}}%)'
description: Высокая нагрузка CPU хоста {{.Host}} ({{.Value0}}%)
query: 100 - avg by (hostname, instance, job, group) (irate(node_cpu_seconds_total{mode="idle"}[5m])
* 100)
labels:
integration: general
aggregator: sum
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9991
labels_required: null
labels_absent: null
type: threshold_2levels_sym
parameters:
warning: '60'
critical: '85'
reverse: 'false'
priority: 1
Name: Высокая загрузка CPU ядром на хосте {{.Host}} ({{.Value2}}%)
Description: Высокая загрузка CPU ядром на хосте {{.Host}} ({{.Value2}}%)
avg by (hostname, instance, job, group) (irate(node_cpu_seconds_total{mode="system"}[5m]) * 100)`
Полное правило в формате YAML
- id: 41x0300aaaaa9992
name: '[Host] Высокая загрузка CPU ядром на хосте {{.Host}} ({{.Value2}}%)'
description: Высокая загрузка CPU ядром на хосте {{.Host}} ({{.Value2}}%)
query: avg by (hostname, instance, job, group) (irate(node_cpu_seconds_total{mode="system"}[5m])
* 100)
labels:
integration: general
aggregator: sum
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9992
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '50'
critical: 'true'
reverse: 'false'
priority: 1
Name: Высокий IOWAIT на хосте {{.Host}} ({{.Value2}}%)
Description: Высокий IOWAIT на хосте {{.Host}} ({{.Value2}}%)
(avg by (instance, hostname, job, group) (rate(node_cpu_seconds_total{mode="iowait"}[5m])) * 100) * on(instance, hostname, job, group) group_left (nodename) node_uname_info{nodename=~".+"}`
Полное правило в формате YAML
- id: 41x0300aaaaa9993
name: '[Host] Высокий IOWAIT на хосте {{.Host}} ({{.Value2}}%)'
description: Высокий IOWAIT на хосте {{.Host}} ({{.Value2}}%)
query: (avg by (instance, hostname, job, group) (rate(node_cpu_seconds_total{mode="iowait"}[5m]))
* 100) * on(instance, hostname, job, group) group_left (nodename) node_uname_info{nodename=~".+"}
labels:
integration: general
aggregator: sum
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9993
labels_required: null
labels_absent: null
type: threshold_2levels_sym
parameters:
warning: '10'
critical: '30'
reverse: 'false'
priority: 1
Name: Высокая утилизация RAM на хосте {{.Host}} ({{.Value2}}%)
Description: Высокая утилизация RAM на хосте {{.Host}} ({{.Value2}}%)
Полное правило в формате YAML
- id: 41x0300aaaaa9994
name: '[Host] Высокая утилизация RAM на хосте {{.Host}} ({{.Value2}}%)'
description: Высокая утилизация RAM на хосте {{.Host}} ({{.Value2}}%)
query: (100 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100))
labels:
integration: general
aggregator: sum
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9994
labels_required: null
labels_absent: null
type: threshold_2levels_sym
parameters:
warning: '80'
critical: '95'
reverse: 'false'
priority: 1
Name: Мало места на диске {{index .Labels «mountpoint»}} на хосте {{.Host}} свободно {{.Value0}}%
Description: Мало места на диске {{index .Labels «mountpoint»}} на хосте {{.Host}} свободно {{.Value0}}%
((node_filesystem_avail_bytes{device!~"rootfs|tmpfs"} * 100) / node_filesystem_size_bytes{device!~"rootfs|tmpfs"} and ON (instance, device, mountpoint) node_filesystem_readonly == 0) * on(instance, hostname, job, group) group_left (nodename) node_uname_info`
Полное правило в формате YAML
- id: 41x0300aaaaa9995
name: '[Host] Мало места на диске {{index .Labels "mountpoint"}} на хосте {{.Host}}
свободно {{.Value0}}%'
description: Мало места на диске {{index .Labels "mountpoint"}} на хосте {{.Host}}
свободно {{.Value0}}%
query: ((node_filesystem_avail_bytes{device!~"rootfs|tmpfs"} * 100) / node_filesystem_size_bytes{device!~"rootfs|tmpfs"}
and ON (instance, device, mountpoint) node_filesystem_readonly == 0) * on(instance,
hostname, job, group) group_left (nodename) node_uname_info
labels:
integration: general
aggregator: sum
object_tag: hostname
group_by:
- hostname
- mountpoint
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9995
labels_required: null
labels_absent: null
type: threshold_2levels_sym
parameters:
warning: '20'
critical: '10'
reverse: 'true'
priority: 1
Name: Мало свободных inodes на хосте {{.Host}} ({{.Value2}}%)
Description: Мало свободных inodes на хосте {{.Host}} ({{.Value2}}%)
(node_filesystem_files_free{fstype!="msdosfs",fstype!="tmpfs",mountpoint!~"/etc/hostname",mountpoint!~"/etc/resolv.conf",mountpoint!~"/etc/hosts"} / node_filesystem_files{fstype!="msdosfs",fstype!="tmpfs",mountpoint!~"/etc/hostname",mountpoint!~"/etc/resolv.conf",mountpoint!~"/etc/hosts"} * 100 and ON (instance, device, mountpoint) node_filesystem_readonly == 0) * on(instance, hostname, job, group) group_left (nodename) node_uname_info{nodename=~".+"}`
Полное правило в формате YAML
- id: 41x0300aaaaa9996
name: '[Host] Мало свободных inodes на хосте {{.Host}} ({{.Value2}}%)'
description: Мало свободных inodes на хосте {{.Host}} ({{.Value2}}%)
query: (node_filesystem_files_free{fstype!="msdosfs",fstype!="tmpfs",mountpoint!~"/etc/hostname",mountpoint!~"/etc/resolv.conf",mountpoint!~"/etc/hosts"}
/ node_filesystem_files{fstype!="msdosfs",fstype!="tmpfs",mountpoint!~"/etc/hostname",mountpoint!~"/etc/resolv.conf",mountpoint!~"/etc/hosts"}
* 100 and ON (instance, device, mountpoint) node_filesystem_readonly == 0) * on(instance,
hostname, job, group) group_left (nodename) node_uname_info{nodename=~".+"}
labels:
integration: general
aggregator: sum
object_tag: hostname
group_by:
- hostname
- mountpoint
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9996
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '10'
critical: 'true'
reverse: 'true'
priority: 1
Name: Ошибка устройства файловой системы хоста {{.Host}} на устройстве {{index .Labels «device»}}
Description: Ошибка устройства файловой системы хоста {{.Host}} на устройстве {{index .Labels «device»}}
Полное правило в формате YAML
- id: 41x0300aaaaa9997
name: '[Host] Ошибка устройства файловой системы хоста {{.Host}} на устройстве
{{index .Labels "device"}}'
description: Ошибка устройства файловой системы хоста {{.Host}} на устройстве
{{index .Labels "device"}}
query: node_filesystem_device_error{fstype!~"fuse.xrdp-chansrv|parsecfs|tmpfs|fuse.*"}
labels:
integration: general
aggregator: sum
object_tag: hostname
group_by:
- hostname
- mountpoint
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: No data
rules:
- id: 42x0300aaaaa9997
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '1'
critical: 'true'
reverse: 'false'
priority: 1
Name: Отключился сетевой интерфейс {{index .Labels «device»}} на хосте {{.Host}}
Description: Отключился сетевой интерфейс {{index .Labels «device»}} на хосте {{.Host}}
sum by(hostname, device) ( node_network_info{device!~"^(eno[0-9]+|docker[0-9]*|veth[0-9a-f]+|br-[0-9a-f]+|lo|tun[0-9]*|cali[0-9a-f]+|flannel\\.\\d+)$", operstate="up"} * 0) or sum by(hostname, device) (node_network_info{device!~"^(eno[0-9]+|docker[0-9]*|veth[0-9a-f]+|br-[0-9a-f]+|lo|tun[0-9]*|cali[0-9a-f]+|flannel\\.\\d+)$", operstate="down"} * 1)`
Полное правило в формате YAML
- id: 41x0300aaaaa9998
name: '[Host] Отключился сетевой интерфейс {{index .Labels "device"}} на хосте
{{.Host}}'
description: Отключился сетевой интерфейс {{index .Labels "device"}} на хосте
{{.Host}}
query: sum by(hostname, device) ( node_network_info{device!~"^(eno[0-9]+|docker[0-9]*|veth[0-9a-f]+|br-[0-9a-f]+|lo|tun[0-9]*|cali[0-9a-f]+|flannel\\.\\d+)$",
operstate="up"} * 0) or sum by(hostname, device) (node_network_info{device!~"^(eno[0-9]+|docker[0-9]*|veth[0-9a-f]+|br-[0-9a-f]+|lo|tun[0-9]*|cali[0-9a-f]+|flannel\\.\\d+)$",
operstate="down"} * 1)
object_tag: hostname
labels:
integration: general
aggregator: sum
group_by:
- device
- hostname
step: 5m
rate: 60s
metric_ttl: 30m
no_data_mode: close problem
rules:
- id: 42x0300aaaaa9998
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '0.5'
critical: 'false'
reverse: 'false'
priority: 1