Оцените затраты на облачные вычисления на основе записей HPC (High-Performance Computing) с использованием Slurm и Google Cloud Platform (GCP)

Вопрос:

Здравствуйте, уважаемые коллеги!

Я прохожу курс “от 0 до Linux админа” на платформе Learn Programming Online | Courses for Developers | YODO и столкнулся с проблемой. Мы используем мульти-нодовое HPC с общим NAS в нашей лаборатории биоинформатики. Моя задача - создать модель цен, которая сопоставляет использование HPC с облачным провайдером.

У меня настроен SlurmDB и имеется скрипт, который сопоставляет ресурсы задания с самой дешевой GCP инстанцией, удовлетворяющей запрос ресурса, запрашивает GCP pricing API и возвращает предварительную стоимость вычислений для каждого задания. Это начальная точка, но я осознаю, что многое упущено (например, накладные расходы на запуск, постоянное хранилище, расходы на передачу данных и т.д.).

Я задумываюсь о том, как можно более полноценно следить за использованием кластера и интегрировать это в слой сопоставления стоимости наряду с данными о счетах Slurm. Однако опасаюсь писать свои инструменты, когда уже существуют финопсовые фреймворки, и, к тому же, не хочется увязнуть в процессе, создавая высокозатратный инструментальный профиль.

Кто-то уже создавал подобную систему, которая может принимать данные о системном использовании и переводить их в оценочные затраты на облачное вычисление? Надеюсь, что кто-то уже нашел решение и не придется изобретать велосипед.

Заранее спасибо!

Чувак, слушай, я реально попытался раскусить, как оценить затраты на облачные вычисления для HPC с Slurm на GCP, но, блин, всё оказалось не так просто, как я думал.

Сначала я начал с того, что погуглил, какие ресурсы нужны для моего кластера. Нашел, что GCP предлагает кучу разных экземпляров и возможностей, но когда я начал разбираться, сколько мне всего это встает, я просто запутался в ценах и конфигурациях. Один раз прочитал, что vCPU стоит столько-то, а потом выяснилось, что для HPC надо ещё и дополнительные фичи включать, что удорожает жутко.

Затем я подхватил Slurm, и тут начались бури. Я думал, что смогу легко сконфигурировать его для GCP, но это было похоже на попытку сложить пазл, у которого половина частей отсутствует. Постоянно искал, как правильно всё настроить, но понимал, что каждая мелочь может повлиять на финальные затраты. Одна ошибка при настройке и вуаля, счетчик на GCP начинает хаотично тикать!

Короче говоря, потом я наткнулся на курсики на Yodo. Серьезно, это были просто lifesaver’ы! Нашёл инфу по Slurm и HPC, и как это всё затаскивать в GCP, плюс несколько конкретных примеров, как считать затраты. Всё это мне дало понять, как раскладывать по полочкам свои заморочки и не впадать в панику.

Так что в итоге, я не сделал точный расчет, но теперь хотя бы имею представление, куда копать дальше, и как подступиться к этой задаче. Так что, если кто-то из вас тоже в затруднении – обязательно гляньте на те курсы, может, помогут и вам.