Brest

Описание

Группа мониторов Brest рассчитана на мониторинг установленного гипервизора Брест.

Основной правил являются метрики от one_exporter и libvirt_exporter.

Мониторы из данного набора дают полное представление о здоровье нод виртуализации и фронта гипервизора.

Список мониторов

Скачать yaml файл всех мониторов


Name: Высокое потребление CPU на кластере {​{index .Labels «cluster»}​}

Description: Высокое потребление CPU кластере {​{index .Labels «cluster»}​}

Query
(one_cluster_cpuusage  / one_cluster_totalcpu) * 100`
Полное правило в формате YAML
- id: 41x0brest0000101
  name: '[Brest] Высокое потребление CPU на кластере {​{index .Labels "cluster"}​}'
  description: '[Brest] Высокое потребление CPU кластере {​{index .Labels "cluster"}​}'
  query: (one_cluster_cpuusage  / one_cluster_totalcpu) * 100
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000101
    labels_required: null
    labels_absent: null
    type: threshold_1level_sym
    parameters:
      level: '80'
      critical: 'false'
      reverse: 'false'
    priority: 1

Name: Непредвиденная остановка сервиса {​{index .Labels «name»}​} на сервере виртуализации {​{.Host}​}

Description: Непредвиденная остановка сервиса {​{index .Labels «name»}​} на сервере виртуализации {​{.Host}​}

Query
share_eq_over_time(systemd_unit_state_id{name=~"libvirtd.*|postgresql@.*|chrony.*|sssd.*|opennebula.*", product="brest"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0brest0000201
  name: '[Brest] Непредвиденная остановка сервиса {​{index .Labels "name"}​} на сервере
    виртуализации {​{.Host}​}'
  description: '[Brest] Непредвиденная остановка сервиса {​{index .Labels "name"}​}
    на сервере виртуализации {​{.Host}​}'
  query: share_eq_over_time(systemd_unit_state_id{name=~"libvirtd.*|postgresql@.*|chrony.*|sssd.*|opennebula.*",
    product="brest"}[5m], 1) * 100
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000201
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '85'
      recovery: '100'
      reverse: 'true'
      critical: 'true'
    priority: 1

Name: Непредвиденная ошибка RAFT на сервере виртуализации {​{.Host}​}

Description: Непредвиденная ошибка RAFT на сервере виртуализации {​{.Host}​}

Query
share_eq_over_time(one_zone_raft{}[5m], 10) * 100`
Полное правило в формате YAML
- id: 41x0brest0000301
  name: '[Brest] Непредвиденная ошибка RAFT на сервере виртуализации {​{.Host}​}'
  description: '[Brest] Непредвиденная ошибка RAFT на сервере виртуализации {​{.Host}​}'
  query: share_eq_over_time(one_zone_raft{}[5m], 10) * 100
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000301
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '85'
      recovery: '100'
      reverse: 'true'
      critical: 'true'
    priority: 1

Name: Непредвиденная ошибка подключения One-exporter к API на сервере виртуализации {​{.Host}​}

Description: Непредвиденная ошибка подключения One-exporter к API на сервере виртуализации {​{.Host}​}

Query
share_eq_over_time(one_api_connect{}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0brest0000401
  name: '[Brest] Непредвиденная ошибка подключения One-exporter к API на сервере виртуализации
    {​{.Host}​}'
  description: '[Brest] Непредвиденная ошибка подключения One-exporter к API на сервере
    виртуализации {​{.Host}​}'
  query: share_eq_over_time(one_api_connect{}[5m], 1) * 100
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000401
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '85'
      recovery: '100'
      reverse: 'true'
      critical: 'true'
    priority: 1

Name: Непредвиденная ошибка подключения к web порталу Brest на сервере виртуализации {​{.Host}​}

Description: Непредвиденная ошибка подключения к web порталу Brest на сервере виртуализации {​{.Host}​}

Query
share_eq_over_time(one_web_connect{}[5m], 200) * 100`
Полное правило в формате YAML
- id: 41x0brest0000501
  name: '[Brest] Непредвиденная ошибка подключения к web порталу Brest на сервере
    виртуализации {​{.Host}​}'
  description: '[Brest] Непредвиденная ошибка подключения к web порталу Brest на сервере
    виртуализации {​{.Host}​}'
  query: share_eq_over_time(one_web_connect{}[5m], 200) * 100
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000501
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '85'
      recovery: '100'
      reverse: 'true'
      critical: 'true'
    priority: 1

Name: Большое время подключения к web порталу Brest на сервере виртуализации {​{.Host}​}

Description: Большое время подключения к web порталу Brest на сервере виртуализации {​{.Host}​}

Query
one_web_connect_duration{}`
Полное правило в формате YAML
- id: 41x0brest0000601
  name: '[Brest] Большое время подключения к web порталу Brest на сервере виртуализации
    {​{.Host}​}'
  description: '[Brest] Большое время подключения к web порталу Brest на сервере виртуализации
    {​{.Host}​}'
  query: one_web_connect_duration{}
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000601
    labels_required: null
    labels_absent: null
    type: threshold_1level_sym
    parameters:
      level: '2000'
      critical: 'false'
      reverse: 'false'
    priority: 1

Name: Некорректный статус фронта {​{.Host}​}

Description: Некорректный статус фронта {​{.Host}​}

Query
share_eq_over_time(node_exporter_build_info{product="brest", component="front"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0brest0000701
  name: '[Brest] Некорректный статус фронта {​{.Host}​}'
  description: '[Brest] Некорректный статус фронта {​{.Host}​}'
  query: share_eq_over_time(node_exporter_build_info{product="brest", component="front"}[5m],
    1) * 100
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000701
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '85'
      recovery: '100'
      reverse: 'true'
      critical: 'true'
    priority: 1

Name: Некорректный статус ERROR хоста виртуализации {​{.Host}​}

Description: Некорректный статус ERROR хоста виртуализации {​{.Host}​}

Query
count(one_host_state == 3)`
Полное правило в формате YAML
- id: 41x0brest0000801
  name: '[Brest] Некорректный статус ERROR хоста виртуализации {​{.Host}​}'
  description: '[Brest] Некорректный статус ERROR хоста виртуализации {​{.Host}​}'
  query: count(one_host_state == 3)
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000801
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '1'
      recovery: '0'
      reverse: 'false'
      critical: 'true'
    priority: 1

Name: Некорректный статус INIT хоста виртуализации {​{.Host}​}

Description: Некорректный статус INIT хоста виртуализации {​{.Host}​}

Query
count(one_host_state == 1)`
Полное правило в формате YAML
- id: 41x0brest0000901
  name: '[Brest] Некорректный статус INIT хоста виртуализации {​{.Host}​}'
  description: '[Brest] Некорректный статус INIT хоста виртуализации {​{.Host}​}'
  query: count(one_host_state == 1)
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0000901
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '1'
      recovery: '0'
      reverse: 'false'
      critical: 'true'
    priority: 1

Name: Некорректный статус DISABLED хоста виртуализации {​{.Host}​}

Description: Некорректный статус DISABLED хоста виртуализации {​{.Host}​}

Query
count(one_host_state == 4)`
Полное правило в формате YAML
- id: 41x0brest0001001
  name: '[Brest] Некорректный статус DISABLED хоста виртуализации {​{.Host}​}'
  description: '[Brest] Некорректный статус DISABLED хоста виртуализации {​{.Host}​}'
  query: count(one_host_state == 4)
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0001001
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '1'
      recovery: '0'
      reverse: 'false'
      critical: 'true'
    priority: 1

Name: Некорректный статус OFFLINE хоста виртуализации {​{.Host}​}

Description: Некорректный статус OFFLINE хоста виртуализации {​{.Host}​}

Query
count(one_host_state == 8)`
Полное правило в формате YAML
- id: 41x0brest0001101
  name: '[Brest] Некорректный статус OFFLINE хоста виртуализации {​{.Host}​}'
  description: '[Brest] Некорректный статус OFFLINE хоста виртуализации {​{.Host}​}'
  query: count(one_host_state == 8)
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0001101
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '1'
      recovery: '0'
      reverse: 'false'
      critical: 'true'
    priority: 1

Name: Некорректный статус MONITORED хоста виртуализации {​{.Host}​}

Description: Некорректный статус MONITORED хоста виртуализации {​{.Host}​}

Query
count(one_host_state == 2)`
Полное правило в формате YAML
- id: 41x0brest0001201
  name: '[Brest] Некорректный статус MONITORED хоста виртуализации {​{.Host}​}'
  description: '[Brest] Некорректный статус MONITORED хоста виртуализации {​{.Host}​}'
  query: count(one_host_state == 2)
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0001201
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '1'
      recovery: '0'
      reverse: 'false'
      critical: 'true'
    priority: 1

Name: Неожиданная смена статуса RAFT для фронта {​{.Host}​}

Description: Неожиданная смена статуса RAFT для фронта {​{.Host}​}

Query
sum by() (changes(one_zone_raft{}[5m]))`
Полное правило в формате YAML
- id: 41x0brest0001301
  name: '[Brest] Неожиданная смена статуса RAFT для фронта {​{.Host}​}'
  description: '[Brest] Неожиданная смена статуса RAFT для фронта {​{.Host}​}'
  query: sum by() (changes(one_zone_raft{}[5m]))
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0001301
    labels_required: null
    labels_absent: null
    type: threshold_1level_asym
    parameters:
      alert: '1'
      recovery: '0'
      reverse: 'false'
      critical: 'true'
    priority: 1

Name: Более 50 новых виртуальных машины было создано за последние 10 минут

Description: Более 50 новых виртуальных машины было создано за последние 10 минут

Query
delta(sum(one_vms_states_count{}))[10m]`
Полное правило в формате YAML
- id: 41x0brest0001401
  name: '[Brest] Более 50 новых виртуальных машины было создано за последние 10 минут'
  description: '[Brest] Более 50 новых виртуальных машины было создано за последние
    10 минут'
  query: delta(sum(one_vms_states_count{}))[10m]
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0001401
    labels_required: null
    labels_absent: null
    type: threshold_1level_sym
    parameters:
      level: '50'
      critical: 'false'
      reverse: 'false'
    priority: 1

Name: Более 500 новых виртуальных машины было создано за последние 10 минут

Description: Более 500 новых виртуальных машины было создано за последние 10 минут

Query
delta(sum(one_vms_states_count{}))[10m]`
Полное правило в формате YAML
- id: 41x0brest0001501
  name: '[Brest] Более 500 новых виртуальных машины было создано за последние 10 минут'
  description: '[Brest] Более 500 новых виртуальных машины было создано за последние
    10 минут'
  query: delta(sum(one_vms_states_count{}))[10m]
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0001501
    labels_required: null
    labels_absent: null
    type: threshold_1level_sym
    parameters:
      level: '500'
      critical: 'true'
      reverse: 'false'
    priority: 1

Name: Более 50% фронтов имеют ошибки статуса

Description: Более 50% фронтов имеют ошибки статуса

Query
(count(one_zone_raft{} == 10) or vector(0)) / count(one_zone_raft{} ) * 100`
Полное правило в формате YAML
- id: 41x0brest0001601
  name: '[Brest] Более 50% фронтов имеют ошибки статуса'
  description: '[Brest] Более 50% фронтов имеют ошибки статуса'
  query: (count(one_zone_raft{} == 10) or vector(0)) / count(one_zone_raft{} ) * 100
  object_tag: hostname
  group_by:
  - hostname
  step: 5m
  rate: 60s
  metric_ttl: 168h
  no_data_mode: No data
  rules:
  - id: 42x0brest0001601
    labels_required: null
    labels_absent: null
    type: threshold_1level_sym
    parameters:
      level: '50'
      critical: 'true'
      reverse: 'false'
    priority: 1