Ошибки SSD SMART и странные ошибки dmesg, это умирающий диск?
Я начал замечать странные вещи в моем dmesg
лог и мой 4 месяца SSD. Например:
[ 9.647535] ata7.00: exception Emask 0x10 SAct 0x7ffffbff SErr 0x300000 action 0x6 frozen
[ 9.647542] ata7.00: irq_stat 0x08000000, interface fatal error
[ 9.647546] ata7: SError: { Dispar BadCRC }
[ 9.647551] ata7.00: failed command: READ FPDMA QUEUED
[ 9.647558] ata7.00: cmd 60/b0:00:18:51:0f/03:00:07:00:00/40 tag 0 ncq 483328 in
[ 9.647558] res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[ 9.647561] ata7.00: status: { DRDY }
[ 9.647564] ata7.00: failed command: READ FPDMA QUEUED
[ 9.647570] ata7.00: cmd 60/00:08:c8:54:0f/04:00:07:00:00/40 tag 1 ncq 524288 in
[ 9.647570] res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[ 9.647573] ata7.00: status: { DRDY }
Я также заметил, что мои значения SMART странные:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 16
199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 23
Плохой блок во время выполнения кажется устойчивым, но кажется, что ошибка CRD UDMA увеличивается после каждой перезагрузки (вероятно, из-за Dispar BadCRC
выше), что не приятно..
После онлайн-исследований я попытался заменить кабель SATA, но, похоже, это не помогло.
Когда система работает, я не могу заметить ничего особенного, все кажется работающим, но я не могу быть уверен, так как это системный диск и не записывается так много...
Я видел этот совет об отключении NCQ, но у меня есть два других диска, которые выигрывают от NCQ, и нет совета, как отключить его только для этого диска.
Это умирающий диск? Есть идеи, как выяснить причину?
Вот остальные странные строки dmesg: http://pastebin.com/HCxiPwkM
И вывод smartctl: http://pastebin.com/h4c4MkEb
РЕДАКТИРОВАТЬ:
Это также произошло, когда машина работала:
Jun 13 00:27:48 kernel: [21674.310312] ata7.00: exception Emask 0x10 SAct 0x400 SErr 0x100000 action 0x6 frozen
Jun 13 00:27:48 kernel: [21674.310317] ata7.00: irq_stat 0x08000000, interface fatal error
Jun 13 00:27:48 kernel: [21674.310320] ata7: SError: { Dispar }
Jun 13 00:27:48 kernel: [21674.310323] ata7.00: failed command: READ FPDMA QUEUED
Jun 13 00:27:48 kernel: [21674.310327] ata7.00: cmd 60/00:50:00:36:4f/01:00:00:00:00/40 tag 10 ncq 131072 in
Jun 13 00:27:48 kernel: [21674.310327] res 40/00:50:00:36:4f/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
Jun 13 00:27:48 kernel: [21674.310329] ata7.00: status: { DRDY }
Jun 13 00:27:48 kernel: [21674.310333] ata7: hard resetting link
Jun 13 00:27:49 kernel: [21674.802471] ata7: SATA link up 6.0 Gbps (SStatus 133 SControl 330)
Jun 13 00:27:49 kernel: [21674.843512] ata7.00: configured for UDMA/133
Jun 13 00:27:49 kernel: [21674.845404] ata7: EH complete
По этой ссылке причиной может быть БП..?
РЕДАКТИРОВАТЬ 2
Попробовал немного поменять вещи сегодня, все мои диски были на одном кабеле БП, сейчас их нет, но, похоже, это не помогает..
Runtime_Bad_Block 18
UDMA_CRC_Error_Count 25
1 ответ
Через несколько дней после перемещения всех моих дисков на внутренний контроллер SATA ошибки исчезли, а значения SMART не увеличились.
Теперь еще неизвестно, была ли это конкретная несовместимость между моим SSD и контроллером Marvell, или контроллер полностью умер; что, вероятно, то, что происходит.. но это тема для другого дня.