Я прохожу курс “от 0 до Linux админа” на платформе Yodo, и у меня появилась проблема. Мы значительно расширили нашу инфраструктуру за последний год и теперь управляем более чем 400 серверами на Linux. Это включается в собой несколько дата-центров и облачные инстансы. Управление журналами стало настоящей головной болью, и мне интересно, как другие команды справляются с этим на аналогичном уровне.
Сейчас мы используем rsyslog и logrotate на отдельных хостах и отправляем их на центральный сервер syslog, но все становится запутанным. Иногда происходит сбой вращения журналов на новых хостах, которые создаются без полноценно примененных конфигураций, и центральный сервер испытывает ударную нагрузку в пиковые часы, когда все решают сбросить журналы одновременно.
Я подумываю о переходе на полноценную систему, возможно, Loki с Promtail, так как уже используем Prometheus и Grafana для метрик, но также слышал хорошие отзывы об Elasticsearch с Filebeat. Кажется, что операционные издержки у каждого подхода сильно различаются.
У меня есть несколько специфических вопросов:
- Как вы гарантируете, что единые конфигурации журналов автоматически применяются на новых хостах? Используете Ansible, Salt или что-то другое для этого?
- Как вы справляетесь с политиками хранения для разных ролей серверов?
- Для тех, кто работает с Loki, действительно ли он хорошо справляется с масштабами, или есть какие-то болевые точки, о которых стоит знать до того, как принимать решение в его пользу?
Буду очень признателен за опыт из реальной жизни, а не только за информацию из документации производителей.