Параметры сервера
- 1 Proxmox VE server (X99, Xeon E5-2680 v4, 64 GB RAM)
- 2 NVME под систему и ВМ, 1 HDD 4tb хранилище фото и видео
- 1 APC UPS (SUA750)
Для мониторинга я решил использовать связку Prometheus + Grafana:
- на Proxmox добавлены 3 exporters: node_exporter, smartctl_exporter, apcupsd_exporter
- Prometheus собирает метрики с экспортеров
- Grafana рисует красивые дашборды с этих метрик

Дашборд собран из 3 частей:
- Node Exporter Full (ID 1860)
- Smartctl_exporter (ID 22381)
- APC UPS (ID 13525)
Node Exporter Full
Собирает основные данные с хоста
- температура
- загрузка процессора, памяти, свободное место на дисках
- время работы (Uptime)
Smartctl Exporter
Собирает метрики по накопителям. NVME и HDD по разному работают со SMART и используют разные атрибуты.
NVME
- NVMe Wear Level (Уровень износа)
- NVMe Media Errors (Ошибки чтения записи)
- NVMe Available Spare (Запасные блоки)
HDD
- Offline_Uncorrectable (Бэдблоки)
- Current_Pending_Sector (Пограничные)
- Reallocated_Sector_Ct (Переназначенные)
- UDMA_CRC_Error_Count (Ошибки интерфейса)
Apcupsd_exporter
Собирает параметры питания
- Частоту и напряжение в сети
- Нагрузку на ИБП
- Прогнозируемое время работы от батарей
В совокупности все эти параметры показывают здоровье сервера, но не сервисов. Поэтому необходим второй дашборд, который планируется следующим.