Обнаружено сломанное оборудование PMU с использованием только программных событий
У меня есть две из четырех машин (dell r815), которые не показывают аппаратные счетчики процессора при запуске (из linux-tools-common на ubuntu или debian):
perf list
Я использовал strace и обнаружил, что проблема заключается в том, что /sys/devices/cpu отсутствует на двух машинах с проблемой. Я проследил это до ошибки в dmesg:
Performance Events: Broken PMU hardware detected, using software events only.
На машинах, которые работают это говорит
Performance Events: AMD PMU driver.
Мой вопрос: что я могу сделать, чтобы убедиться, что это не просто проблема программного обеспечения или конфигурации? Мне кажется, это может быть плохое оборудование.
1 ответ
Я обнаружил, что проблема заключалась в том, что версия микрокода на процессорах для затронутых машин была старше. Я попытался установить пакет amd64-microcode, который обновил микрокод, но только после того, как ошибка PMU уже обнаружилась в dmesg. Я использовал средство конфигурации загрузочного сервера Dell для обновления прошивки BIOS и системы, и это устранило проблему. Надеюсь, это будет полезно всем, кто сталкивается с той же проблемой.