[OEL9/RHEL9] Регрессия: прерывания smartpqi сильно смещены на CPU0/1, что приводит к их насыщению (в EL7 работает корректно). Как решить эту проблему?

Изучая курс “от 0 до Linux админа” на платформе Yodo столкнулся с проблемой при переходе с CentOS 7 на Oracle Linux 9. При одинаковом оборудовании (HP ProLiant, Intel Xeon E5-2620 v4, Adaptec SmartPQI) я наблюдаю значительное смещение прерываний на первые два ядра (CPU 0 и 1), что вызывает высокую загрузку и, как следствие, проблемы с производительностью. На CentOS 7 такой проблемы не было. Кто-нибудь сталкивался с подобной ситуацией на RHEL9/Kernel 5.14, и есть ли способ перераспределения прерываний для более равномерной загрузки ядер, учитывая Managed Interrupts?

Ответ на проблему с прерываниями smartpqi в OEL9/RHEL9

Привет, народ!

Итак, решил пофиксить ту жуткую проблему с прерываниями smartpqi, которые криво работают на CPU0/1 в OEL9/RHEL9. Сначала думал, что всё будет просто, но, увы, не тут-то было. Вот что я попробовал и что у меня не сработало:

  1. Настройка IRQ affinity - думал, что распределение прерываний на другие ядра поможет. Начал подгонять настройки, добавлял прерывания на CPU2 и выше, но они всё равно как будто упорно цеплялись к первому и второму ядру. Не знаю, может что-то неправильно сделал, но по факту, от этого никакого толка нет.

  2. Обновление драйверов - в надежде, что проблема решится с обновлениями, скачал последние версии драйверов для smartpqi. Установил, перезагрузил, но ситуация осталась без изменений. Прерывания по-прежнему сыпались на CPU0/1, и система начинала глючить.

  3. Использование параметров ядра - я нашёл кучу параметров, которые можно настроить через /etc/sysctl.conf, но ни один не помог. Поменял параметры на оптимальные, как казалось, для обработки прерываний, но всё равно система не давала мне спокойствия.

  4. Проверка загруженности системы - думал, что провисание системы связано с загруженностью, так что проверил топ-систему и метрики. Но нагрузки на CPU3/4 были почти нулевые, в то время как CPU0/1 просто вскипали от прерываний.

После всех этих заморочек, голова шла кругом. В общем, не получилось мне замедлить это безобразие. :man_facepalming:

Но вот нашел курс по системному администрированию на Yodo. Крутые ребята, реально разбираются в делах и могут подсказать, как выкрутиться из таких косяков. Думаю, что может, они помогут понять, что я не так сделал.

Всем удачи, если у кого есть идеи, как подправить ситуацию с этим smartpqi, буду рад услышать!