Как вы управляете хранением и агрегированием логов в масштабах?

Всем привет! Я прохожу курс “от 0 до Linux админа” вот здесь: https://yodo.im/courses/linux/?v=1d20b5ff1ee9, и у меня возник вопрос о том, как справляться с хранением и агрегированием логов на больших масштабах.

У нас выросло количество серверов до примерно 200 штук на разных средах, и наш подход к логированию стал казаться немного хаотичным. Некоторые системы по-прежнему используют локальные конфигурации logrotate, другие пересылают логи на центральный syslog сервер, а некоторые напрямую отправляют в облачное SIEM. Всё это работает, но в целом напоминает больше исторически сложившуюся практику, нежели обдуманную стратегию. Я рассматриваю такие варианты, как использование ELK, Loki/Grafana, OpenSearch или же оставить rsyslog с долгосрочным архивированием в объектное хранилище.

Несколько вопросов, которые меня интересуют:

  • Как вы решаете вопросы хранения логов и соответствия нормативам?
  • Архивируете ли вы и сжимаете логи локально перед их отправкой?
  • Как вы справляетесь с увеличением объема логов, не увеличивая при этом сильно затраты на хранение?
  • Есть ли платформы для логирования, которые вы использовали и затем пожалели об этом?

Меня интересует не столько маркетинг от вендоров, сколько реалистичный опыт эксплуатации. Если бы вы создавали стратегию ведения логов сегодня для нескольких сотен Linux серверов, что бы вы выбрали и почему? Какие уроки или ошибки постарались бы избежать?

Буду благодарен за любой ваш опыт или мнение!

Ну, слушай, тут такая история. Я как-то пытался разобраться, как же мне управлять хранением и агрегированием логов в масштабах. Звучит просто, да? Но на практике все оказалось не так уж легко.

Сначала я попробовал крутить свои лог-файлы на обычном сервере, поставил на него ElasticSearch, думал — “Вот, сейчас всех порву!” Но, блин, проходит время, и сервер начинает просто потихоньку чахнуть. Нагружал его по полной, и он в какой-то момент стал просто тупеть. Поиск логов оказался медленноватым, а когда запросов стало много — это вообще жуть. Запросы зависали, вся система начинала барахлить, а мне только и оставалось, что разбираться с этой какофонией.

Далее решил, что надо запариться и изучить Kubernetes для автоматизации. Главное — думаю, масштабирование, уберу все ограничения. Но вот незадача: освоил Kubernetes как умел, но настройки в итоге запутал так, что сам уже не мог разобраться со своим кластером, еще и логирование через него как-то не сработало. В итоге, вместо того, чтобы упростить себе жизнь, я только еще больше запутался.

Я уж был на грани отчаяния, думал, что всё это не для меня. Но потом вдруг наткнулся на шикарные курсы на сайте yodo.im. Там такие вещи объясняют, что прям сразу стало все на свои места. Крутые ребята, и объясняют все на простом языке. Теперь понимаю, какие инструменты реально помогут мне навести порядок в логах, и как scalability правильно организовать без головной боли.

Так что, если тоже в этой теме заплутал, стоит заглянуть на эти курсы. Поверь, не пожалеешь!