Я только что потерпел неудачу при горячем подключении диска?

Question

Я только что потерпел неудачу при горячем подключении диска?

У меня есть небольшой домашний сервер, построенный на корпусе Lian Li PC-Q25 с задней панелью SATA, рекламирующей себя как "горячую" замену. Материнская плата - Asus P8H77-I. У меня есть 4 накопителя SATA, подключенных к задней панели - две пары, встроенные в массивы RAID1. Система работает на Centos 6.3 x86_64.

Один из дисков вышел из строя, поэтому я выполнил рекомендованную процедуру: синхронизировал, удалил его из массива, правильно выключил и вытащил. Не беда, я слышал, как диск вращался, и в журнале dmesg не было ошибок.

Теперь я предположил, что по стандарту SATA ступенчатые контакты в накопителе обеспечат безопасное подключение без внезапного скачка напряжения. Вставив диск, я мог бы замедлить движение других дисков и щелкнуть их головками в течение очень короткого момента.

Проверка журнала dmesg показала следующее:

ata1: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
ata3.00: exception Emask 0x10 SAct 0x3ff007ff SErr 0x4890000 action 0xe frozen
ata3.00: irq_stat 0x08400040, interface fatal error, connection status changed
ata3: SError: { PHYRdyChg 10B8B LinkSeq DevExch }
ata3.00: failed command: WRITE FPDMA QUEUED
ata3.00: cmd 61/80:00:3f:81:ca/00:00:00:00:00/40 tag 0 ncq 65536 out
         res 40/00:54:bf:81:ca/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }

(Последние сообщения ata3.00 повторяются около 20 раз с разными номерами, но с одинаковым текстом)

Последние строки:

ata3.00: status: { DRDY }
ata3: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata1.00: configured for UDMA/133
ata1: EH complete
ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: configured for UDMA/133
ata2: EH complete
ata3.00: configured for UDMA/133
ata3: EH complete

Также мой logwatch сообщил о следующих изменениях в данных SMART:

/dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
    Prefailure: Raw_Read_Error_Rate (1) changed to
          100,
    Prefailure: Reallocated_Sector_Ct (5) changed to
      200,
    Prefailure: Spin_Up_Time (3) changed to
      100,
    Usage: Seek_Error_Rate (7) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
    Usage: Calibration_Retry_Count (11) changed to
      100,
    Usage: Load_Retry_Count (223) changed to
      100,

Device: /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT], Self-Test Log error count increased from 0 to 1

На следующий день в журнале SMART все еще были подозрительные записи:

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-0:0:0:0 [SAT] :
    Usage: Seek_Error_Rate (7) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-1:0:0:0 [SAT] :
    Usage: Seek_Error_Rate (7) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
    Usage: Multi_Zone_Error_Rate (200) changed to
      200,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
    Usage: Throughput_Performance (2) changed to
      56,

 /dev/disk/by-path/pci-0000:00:1f.2-scsi-4:0:0:0 [SAT] :
    Prefailure: Raw_Read_Error_Rate (1) changed to
      116, 117,
    Usage: ECC_Uncorr_Error_Count (195) changed to
      116, 117,

Таким образом, очевидно, что SATA-сервер просто сразу же включил привод, что может вызвать падение напряжения на мгновение.

Возможно, моя ошибка заключалась в том, чтобы подключить все четыре диска к одной шине блока питания и ожидать, что блок питания (хотя Seasonic 800 Вт с хорошими характеристиками) справится с внезапным отключением питания.

Задняя панель SATA имеет два разъема Molex на задней панели для питания - я подключу их к отдельным рельсам блока питания, чтобы обеспечить более стабильную выходную мощность.

Есть ли способ предотвратить немедленное вращение накопителя, когда я вставляю его обратно в комплект накопителей?

Кроме того, возможно ли я просто повредить диски (это видно из этих сообщений журнала)?

Спасибо!

8

linux sata home-server hotswapping

Источник

Remolod Domelor 21 сен '13 в 11:29

1 ответ

Другие вопросы по тегам linux sata home-server hotswapping

Yann Sagon 17 окт '13 в 13:14 2013-10-17 13:14 · Answer 1 · 2013-10-17 13:14

Жесткий диск потребляет около 11 Вт, поэтому, если ваш блок питания 800 Вт, у вас не должно возникнуть никаких проблем.

Некоторые большие массивы жестких дисков могут последовательно включать жесткий диск, чтобы избежать возможных электрических проблем, но это зависит от контроллера.

Вы пытались перезагрузить сервер (холодная перезагрузка) все хорошо тогда? Как вы сказали, вы слышали, как другие толкаются вниз и щелкают головой. Это конечно не нормально. Возможно, задняя панель горячего подключения изготовлена плохо, и во время горячей замены возникло короткое замыкание.