CUDA Performance problems depending on a OS
У меня есть 2 машины, которые одинаково аппаратно. На них у меня есть 1 Debian и 1 пользовательская сборка с образом Linux для buildroot.
Проблема, с которой я сталкиваюсь, заключается в следующем:
Для моего приложения производительность машины Debian примерно в 2 раза выше, чем у машины с пользовательским образом сборки.
Я пытаюсь понять, что может вызвать эту разницу.
Версия cuda 7.5
Версии драйвера:
Debian: 361,28
Таможня: 367,27
Некоторая информация, которая может иметь отношение к теме:
Если я запускаю deviceQuery (из примеров cuda) на обеих машинах, результаты почти, но не совсем совпадают:
1-я разница в строке:
Это для Debian:
Общий объем глобальной памяти: 3069 МБ
И это для Custom:
Общий объем глобальной памяти: 3008 МБ
(Хотя я сомневаюсь, что эта разница может вызвать упомянутую разницу в производительности.)
Другое отличие:
Debian:
Ограничение времени выполнения на ядрах: Да
Таможня:
Ограничение времени выполнения на ядрах: нет
(В обеих системах есть X-сервер, но в Custom это - обычный X с twm)
Если я запускаю тестирование пропускной способности из образцов, результаты более / менее одинаковы для пропускной способности хост-устройства, 1 пропускной способности устройства и пропускной способности устройства-хоста, 1 устройства, но могут значительно отличаться для пропускной способности устройства к устройству, 1 устройство (ы)
Таким образом, для последней записи значения в Debian находятся в районе 100 КБ / с (хотя иногда они уменьшаются до 63 КБ)
Для Кастомных это последовательно на уровне 63к.
Я был бы рад, если бы вы могли помочь мне советом о том, что я должен продолжить расследование и в чем может быть проблема.
Спасибо!
UPD: я пытался запустить X-сервер в пользовательской системе, используя для этого nvidia. (запуск X с Intel не оказывает заметного влияния на perf). Это не полностью запускается, но и не падает.
Интересный факт - если я запускаю свое приложение, когда X находится в этом полузапущенном состоянии - производительность падает еще больше (более чем в 4 раза меньше, чем в Debian)
Upd2: я только что попробовал обновить CUDA 8 на пользовательской машине - не изменил описанную ситуацию.
Upd3: http://cuda-z.sourceforge.net/ Показывает 2- кратное или большее сокращение производительности в пользовательской системе для каждого типа операций, которые она может измерить. (А также почти в 2 раза на копии устройства на устройство)
1 ответ
Хорошо, что в итоге помогло обновить способ установки драйвера nvidia, чтобы получить полный набор утилит nvidia (изменение по умолчанию buildroot nvidia mk). И запуск приложения после запуска X-сервера. Хотя это остается тем же: ограничение времени выполнения для ядер: нет