ALD-Pro
Описание
Группа мониторов ALD-Pro рассчитана на мониторинг установленного продукта ALD-Pro.
Основной правил являются метрики от freeipa_exporter и systemd_exporter. Собирающие метрики об инсталяции и её здоровье.
Мониторы из данного набора рассчитаны на полную кластерную инсталяцию продукта и охватывают все его компоненты. В отдельных случаях, некоторые метрики могут отсутствовать, это связано с размером установки и особенностями индивидуального конфигурирования ALD-Pro в каждом конкретном окружении.
Список мониторов
Скачать yaml файл всех мониторов
Name: Непредвиденная остановка сервиса {{index .Labels «name»}} на контроллере {{.Host}}
Description: Непредвиденная остановка сервиса {{index .Labels «name»}} на контроллере {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"chrony.service|aldpro-mp-services.service|rabbitmq-server.service|celery.service|salt-master.service|krb5-kdc.service|ipa-custodia.service|apache2.service|dirsrv@.*|bind9.*.service|krb5-admin.*.service|ipa-dnskeysyncd.service", product="ald-pro", component="controller"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro000101
name: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}} на
контроллере {{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}}
на контроллере {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"chrony.service|aldpro-mp-services.service|rabbitmq-server.service|celery.service|salt-master.service|krb5-kdc.service|ipa-custodia.service|apache2.service|dirsrv@.*|bind9.*.service|krb5-admin.*.service|ipa-dnskeysyncd.service",
product="ald-pro", component="controller"}[5m], 1) * 100
object_tag: hostname
labels:
integration: aldpro
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000101
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная остановка сокета {{index .Labels «name»}} на контроллере {{.Host}}
Description: Непредвиденная остановка сокета {{index .Labels «name»}} на контроллере {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"ipa-otpd.socket", product="ald-pro", component="controller"}[5m], 8) * 100`
Полное правило в формате YAML
- id: 41x0aldpro000201
name: '[ALD-Pro] Непредвиденная остановка сокета {{index .Labels "name"}} на контроллере
{{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сокета {{index .Labels "name"}}
на контроллере {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"ipa-otpd.socket", product="ald-pro",
component="controller"}[5m], 8) * 100
object_tag: hostname
labels:
integration: aldpro
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000201
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
critical: 'true'
recovery: '100'
reverse: 'true'
priority: 1
Name: Через 30 дней истечет ldap сертификат на контроллере {{.Host}}
Description: Через 30 дней истечет ldap сертификат на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro000301
name: '[ALD-Pro] Через 30 дней истечет ldap сертификат на контроллере {{.Host}}'
description: '[ALD-Pro] Через 30 дней истечет ldap сертификат на контроллере {{.Host}}'
query: ald_ldap_cert_exp_check{product="ald-pro", component="controller"} - now()
object_tag: hostname
labels:
integration: aldpro
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000301
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '2592000'
critical: 'false'
reverse: 'true'
priority: 1
Name: Через 10 дней истечет ldap сертификат на контроллере {{.Host}}
Description: Через 10 дней истечет ldap сертификат на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro000401
name: '[ALD-Pro] Через 10 дней истечет ldap сертификат на контроллере {{.Host}}'
description: '[ALD-Pro] Через 10 дней истечет ldap сертификат на контроллере {{.Host}}'
query: ald_ldap_cert_exp_check{product="ald-pro", component="controller"} - now()
object_tag: hostname
labels:
integration: aldpro
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000401
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '864000'
critical: 'false'
reverse: 'true'
priority: 1
Name: Истек срок действия ldap сертификата на контроллере {{.Host}}
Description: Истек срок действия ldap сертификата на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro000501
name: '[ALD-Pro] Истек срок действия ldap сертификата на контроллере {{.Host}} '
description: '[ALD-Pro] Истек срок действия ldap сертификата на контроллере {{.Host}}'
query: ald_ldap_cert_exp_check{product="ald-pro", component="controller"} - now()
object_tag: hostname
labels:
integration: aldpro
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000501
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '0'
critical: 'true'
reverse: 'true'
priority: 1
Name: Через 30 дней истечет web сертификат на контроллере {{.Host}}
Description: Через 30 дней истечет web сертификат на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro000601
name: '[ALD-Pro] Через 30 дней истечет web сертификат на контроллере {{.Host}}'
description: '[ALD-Pro] Через 30 дней истечет web сертификат на контроллере {{.Host}}'
query: ald_web_cert_exp_check{product="ald-pro", component="controller"} - now()
object_tag: hostname
labels:
integration: aldpro
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000601
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '2592000'
critical: 'false'
reverse: 'true'
priority: 1
Name: Через 10 дней истечет web сертификат на контроллере {{.Host}}
Description: Через 10 дней истечет web сертификат на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro000701
name: '[ALD-Pro] Через 10 дней истечет web сертификат на контроллере {{.Host}}'
description: '[ALD-Pro] Через 10 дней истечет web сертификат на контроллере {{.Host}}'
query: ald_web_cert_exp_check{product="ald-pro", component="controller"} - now()
object_tag: hostname
labels:
integration: aldpro
aggregator: sum
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000701
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '864000'
critical: 'false'
reverse: 'true'
priority: 1
Name: Истек срок действия web сертификата на контроллере {{.Host}}
Description: Истек срок действия web сертификата на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro000801
name: '[ALD-Pro] Истек срок действия web сертификата на контроллере {{.Host}} '
description: '[ALD-Pro] Истек срок действия web сертификата на контроллере {{.Host}}'
query: ald_web_cert_exp_check{product="ald-pro", component="controller"} - now()
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000801
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '0'
critical: 'true'
reverse: 'true'
priority: 1
Name: Непредвиденная остановка сервиса {{index .Labels «name»}} на DHCP сервере {{.Host}}
Description: Непредвиденная остановка сервиса {{index .Labels «name»}} на DHCP сервере {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"isc-dhcp-server.service", product="ald-pro", component="dhcp"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro000901
name: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}} на
DHCP сервере {{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}}
на DHCP сервере {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"isc-dhcp-server.service",
product="ald-pro", component="dhcp"}[5m], 1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro000901
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная остановка сервиса {{index .Labels «name»}} на Filesharing сервере {{.Host}}
Description: Непредвиденная остановка сервиса {{index .Labels «name»}} на Filesharing сервере {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"smbd.service", product="ald-pro", component="filesharing"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001001
name: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}} на
Filesharing сервере {{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}}
на Filesharing сервере {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"smbd.service", product="ald-pro",
component="filesharing"}[5m], 1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001001
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная остановка сервиса {{index .Labels «name»}} на OS installing сервере {{.Host}}
Description: Непредвиденная остановка сервиса {{index .Labels «name»}} на OS installing сервере {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"apache2.service|rabbitmq-server.service|postgresql@.*.service", product="ald-pro", component="osinstalling"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001101
name: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}} на
OS installing сервере {{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}}
на OS installing сервере {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"apache2.service|rabbitmq-server.service|postgresql@.*.service",
product="ald-pro", component="osinstalling"}[5m], 1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001101
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Не корректный ответ от web портала с контроллера {{.Host}}
Description: Не корректный ответ от web портала с контроллера {{.Host}}
share_eq_over_time(ald_portal_check{product="ald-pro", component="controller"}[5m], 200) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001201
name: '[ALD-Pro] Не корректный ответ от web портала с контроллера {{.Host}}'
description: '[ALD-Pro] Не корректный ответ от web портала с контроллера {{.Host}}'
query: share_eq_over_time(ald_portal_check{product="ald-pro", component="controller"}[5m],
200) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001201
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная остановка сервиса {{index .Labels «name»}} на сервере мониторинга {{.Host}}
Description: Непредвиденная остановка сервиса {{index .Labels «name»}} на сервере мониторинга {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"apache2.service|zabbix-agent.service|postgresql@.*.service|zabbix-server.service", product="ald-pro", component="monitoring"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001301
name: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}} на
сервере мониторинга {{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}}
на сервере мониторинга {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"apache2.service|zabbix-agent.service|postgresql@.*.service|zabbix-server.service",
product="ald-pro", component="monitoring"}[5m], 1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001301
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Ошибка локальной DNS проверки на контроллере {{.Host}}
Description: Ошибка локальной DNS проверки на контроллере {{.Host}}
share_eq_over_time(dns_localhost_check{product="ald-pro", component="controller"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001401
name: '[ALD-Pro] Ошибка локальной DNS проверки на контроллере {{.Host}}'
description: '[ALD-Pro] Ошибка локальной DNS проверки на контроллере {{.Host}}'
query: share_eq_over_time(dns_localhost_check{product="ald-pro", component="controller"}[5m],
1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001401
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Ошибка DNS проверки через удаленный DNS сервер на контроллере {{.Host}}
Description: Ошибка DNS проверки через удаленный DNS сервер на контроллере {{.Host}}
share_eq_over_time(dns_specific_server{product="ald-pro", component="controller"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001501
name: '[ALD-Pro] Ошибка DNS проверки через удаленный DNS сервер на контроллере {{.Host}}'
description: '[ALD-Pro] Ошибка DNS проверки через удаленный DNS сервер на контроллере
{{.Host}}'
query: share_eq_over_time(dns_specific_server{product="ald-pro", component="controller"}[5m],
1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001501
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная остановка сервиса {{index .Labels «name»}} на сервере печати {{.Host}}
Description: Непредвиденная остановка сервиса {{index .Labels «name»}} на сервере печати {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"cups.service", product="ald-pro", component="printing"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001601
name: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}} на
сервере печати {{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}}
на сервере печати {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"cups.service", product="ald-pro",
component="printing"}[5m], 1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001601
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная остановка сервиса {{index .Labels «name»}} на сервере репозиториев {{.Host}}
Description: Непредвиденная остановка сервиса {{index .Labels «name»}} на сервере репозиториев {{.Host}}
share_eq_over_time(systemd_unit_state_id{name=~"apache2.service|rabbitmq-server.service|postgresql@.*.service", product="ald-pro", component="repositoring"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro001701
name: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}} на
сервере репозиториев {{.Host}}'
description: '[ALD-Pro] Непредвиденная остановка сервиса {{index .Labels "name"}}
на сервере репозиториев {{.Host}}'
query: share_eq_over_time(systemd_unit_state_id{name=~"apache2.service|rabbitmq-server.service|postgresql@.*.service",
product="ald-pro", component="repositoring"}[5m], 1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001701
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная ошибка подключения пользователя freeipa-exporter на контроллере {{.Host}}
Description: Непредвиденная ошибка подключения пользователя freeipa-exporter на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro001801
name: '[ALD-Pro] Непредвиденная ошибка подключения пользователя freeipa-exporter
на контроллере {{.Host}}'
description: '[ALD-Pro] Непредвиденная ошибка подключения пользователя freeipa-exporter
на контроллере {{.Host}}'
query: share_eq_over_time(ipa_user_connect{product="ald-pro", component="controller"}[5m],
1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001801
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
critical: 'true'
reverse: 'true'
priority: 1
Name: Время подключения подключения пользователя freeipa-exporter на контроллере {{.Host}} очень большое
Description: Время подключения подключения пользователя freeipa-exporter на контроллере {{.Host}} очень большое
Полное правило в формате YAML
- id: 41x0aldpro001901
name: '[ALD-Pro] Время подключения подключения пользователя freeipa-exporter на
контроллере {{.Host}} очень большое'
description: '[ALD-Pro] Время подключения подключения пользователя freeipa-exporter
на контроллере {{.Host}} очень большое'
query: ipa_time_for_connect{product="ald-pro", component="controller"}
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro001901
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '2000'
critical: 'false'
reverse: 'false'
priority: 1
Name: Непредвиденная ошибка репликации на контроллере {{.Host}}
Description: Непредвиденная ошибка репликации на контроллере {{.Host}}
share_eq_over_time(ipa_ldap_replication_status{product="ald-pro", component="controller"}[5m], 1) * 100`
Полное правило в формате YAML
- id: 41x0aldpro002001
name: '[ALD-Pro] Непредвиденная ошибка репликации на контроллере {{.Host}}'
description: '[ALD-Pro] Непредвиденная ошибка репликации на контроллере {{.Host}}'
query: share_eq_over_time(ipa_ldap_replication_status{product="ald-pro", component="controller"}[5m],
1) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro002001
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Непредвиденная ошибка синхронизации времени на контроллере {{.Host}}
Description: Непредвиденная ошибка синхронизации времени на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro002101
name: '[ALD-Pro] Непредвиденная ошибка синхронизации времени на контроллере {{.Host}}'
description: '[ALD-Pro] Непредвиденная ошибка синхронизации времени на контроллере
{{.Host}}'
query: share_eq_over_time(ipa_ntp_check{product="ald-pro", component="controller"}[5m],
0) * 100
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro002101
labels_required: null
labels_absent: null
type: threshold_1level_asym
parameters:
alert: '85'
recovery: '100'
reverse: 'true'
critical: 'true'
priority: 1
Name: Через 7 дней пароль пользователя {{index .Labels «username»}} будет недействителен на контроллере {{.Host}}
Description: Через 7 дней пароль пользователя {{index .Labels «username»}} будет недействителен на контроллере {{.Host}}
Полное правило в формате YAML
- id: 41x0aldpro002201
name: '[ALD-Pro] Через 7 дней пароль пользователя {{index .Labels "username"}}
будет недействителен на контроллере {{.Host}}'
description: '[ALD-Pro] Через 7 дней пароль пользователя {{index .Labels "username"}}
будет недействителен на контроллере {{.Host}}'
query: (ald_expiration_user_password{} - time()) / 3600 / 24
object_tag: hostname
group_by:
- hostname
step: 5m
rate: 60s
metric_ttl: 168h
no_data_mode: No data
rules:
- id: 42x0aldpro002201
labels_required: null
labels_absent: null
type: threshold_1level_sym
parameters:
level: '8'
critical: 'false'
reverse: 'true'
priority: 1