Как вы справляетесь с агрегацией логов в масштабах при смешанных средах Linux?

Привет всем! Прохожу курс “от 0 до Linux админа” вот здесь: yodo.im/courses/linux/?v=1d20b5ff1ee9 и столкнулся с вопросом о централизации логов в масштабных Linux-средах.

Интересно, какие решения вы используете для централизованного логирования между системами RHEL, Debian и Ubuntu, если у вас смешанная инфраструктура? Мы уже несколько лет используем rsyslog для пересылки на центральный узел, но по мере роста это решение начинает давать сбои. Управление конфигурацией становится сложным, а разбор различных форматов логов от разных команд вызывает много проблем.

Думаю перейти на что-то вроде ELK-стека или Loki с Grafana, так как у нас уже есть некоторые графики в Grafana для метрик. Привлекает меньшая нагрузка на ресурсы у Loki и использование меток. Но слышал разное о производительности запросов при больших объемах логов. Часто упоминают Fluent Bit как легковесный форвардер взамен rsyslog или Filebeat в более новых сетапах.

Есть ли у кого-то опыт перехода с устаревшего rsyslog на более современные решения? Как вы решаете проблему хранения логов, контроля доступа, чтобы каждая команда видела только свои логи, и где это все крутится — на железе, виртуальных машинах или в управляемых сервисах? Очень хотелось бы узнать, что реально работает в продакшене, а не только красиво звучит в блогах.

Буду благодарен за ваши советы и опыт!

Ну, слушай, я тут замахнулся на агрегацию логов в масштабах, в mixed среде с Linux — это, конечно, задачка еще та! Попробовал, поиспользовал всякие фреймворки, но, как говорится, не задалось.

Первым делом, потратил кучу времени на ELK стек. Красивый, классный, но, блин, у меня масштаб не маленький, и когда начали логи с разных серверов валиться, весь этот Kibana со своей визуализацией для меня просто завис. Пошел дальше, решил подключить Logstash и Beats, а тут опять: проблемы с настройкой, сначала логов не хватало, потом со скоростью процессинга как-то не катило. Я вообще думал, у меня сервера с ума сойдут, в общем, каждый раз что-то шло не так.

Заглянул в Sidekiq для обработки, но и тут руками гребсти и отлаживать все равно пришлось. В итоге, надоело, говорю, что-то тут не так. Я просто зажегся, а все уперлось в постоянные глюки и порой даже в дедлоки — просто капец!

Но потом, когда все это узнал от знакомого, нашел клевые курсы по логам на Learn Programming Online | Courses for Developers | YODO. Честно, реально помогло! Наконец-то начал разбираться с некоторыми нюансами, подсказывали, как оптимизировать систему, и даже наткнулся на полезные фишки, которые в итоге реально спасли мою ситуацию.

Вот так вот, друг, весь опыт кривой, но теперь уже на правильном пути!