staging.inyokaproject.org

Festplatte defekt oder was?

Status: Ungelöst | Ubuntu-Version: Ubuntu 10.04 (Lucid Lynx)
Antworten |

prime1009

Avatar von prime1009

Anmeldungsdatum:
26. Februar 2011

Beiträge: Zähle...

Hi, leider bin ich noch nicht so fit in Ubuntu, so dass ich etwas Hilfe gebrauchen könnte.

Erst bekam ich folgende Meldung

WARNING:  Kernel Errors Present
             res 40/00:00:00:b2:4d/00:00:6e:00:00/40 Emask 0x1 (device error) ...:  2 Time(s)
             res 40/00:08:00:26:4e/00:00:6e:00:00/40 Emask 0x1 (device error) ...:  2 Time(s)
             res 41/40:00:00:12:62/00:00:5e:00:00/00 Emask 0x409 (media error) <F> ...:  6 Time(s)
             res 41/40:00:00:9f:2a/00:00:6b:00:00/00 Emask 0x409 (media error) <F> ...:  6 Time(s)

... (500 weiter Zeilen)

             res 41/40:00:fe:d9:57/00:00:5e:00:00/00 Emask 0x409 (media error) <F> ...:  6 Time(s)
             res 41/40:00:ff:f6:55/00:00:5e:00:00/00 Emask 0x409 (media error) <F> ...:  6 Time(s)
    ata2.00: error: { UNC } ...:  3055 Time(s)
    end_request: I/O error, dev sda, sector ...:  509 Time(s)
    sd 1:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocat ...:  509 Time(s)
    sd 1:0:0:0: [sda]  Sense Key : Medium Error [current] [descr ...:  509 Time(s)

die ich nicht interpretiren konnte.

Dann habe ich mal die Festplatten überprüfen lassen und bekomme dort folgende Error Meldungen:

SMART Error Log Version: 1
ATA Error Count: 5193 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 5193 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   2d+22:25:23.837  READ FPDMA QUEUED
  ec 00 00 00 00 00 a0 00   2d+22:25:23.836  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00   2d+22:25:23.836  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00   2d+22:25:23.828  IDENTIFY DEVICE
  2f 00 01 10 00 00 a0 00   2d+22:25:23.750  READ LOG EXT

Error 5192 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   2d+22:25:20.707  READ FPDMA QUEUED
  ec 00 00 00 00 00 a0 00   2d+22:25:20.706  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00   2d+22:25:20.706  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00   2d+22:25:20.697  IDENTIFY DEVICE
  2f 00 01 10 00 00 a0 00   2d+22:25:20.612  READ LOG EXT

Error 5191 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   2d+22:25:17.585  READ FPDMA QUEUED
  ec 00 00 00 00 00 a0 00   2d+22:25:17.584  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00   2d+22:25:17.584  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00   2d+22:25:17.575  IDENTIFY DEVICE
  2f 00 01 10 00 00 a0 00   2d+22:25:17.489  READ LOG EXT

Error 5190 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   2d+22:25:14.454  READ FPDMA QUEUED
  ec 00 00 00 00 00 a0 00   2d+22:25:14.453  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00   2d+22:25:14.453  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00   2d+22:25:14.448  IDENTIFY DEVICE
  2f 00 01 10 00 00 a0 00   2d+22:25:14.359  READ LOG EXT

Error 5189 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   2d+22:25:11.316  READ FPDMA QUEUED
  ec 00 00 00 00 00 a0 00   2d+22:25:11.315  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00   2d+22:25:11.314  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00   2d+22:25:11.285  IDENTIFY DEVICE
  2f 00 01 10 00 00 a0 00   2d+22:25:11.029  READ LOG EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      9157         -
# 2  Extended offline    Aborted by host               90%       118         -

Villeicht kann mir dazu jemand etwas sagen!

Ist die Platte hin?

Gruß und Dank Prime1009

Metalbuntu

Anmeldungsdatum:
17. August 2011

Beiträge: 110

Zeig uns mal die Ausgabe von:

1
sudo smartctl -a /dev/sXX | grep -i "hours"

Für "sXX" setzt du bitte deine entsprechende Festplatte ein...

Nach der zweiten Ausgabe von dir zu folgern, sind deine Platten aber schon recht "ausgelutscht", was die Fehleranzahl angeht:

Error 5193 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)

Knapp 10000 Stunden sind zwar noch recht wenig für Festplatten, aber die Fehleranfälligkeit steigt mit zunehmendem Alter.

Und btw: Kannst vllt bei den nächsten Code-Ausgaben den Startbefehl mit in den Codeblock setzen.

prime1009

(Themenstarter)
Avatar von prime1009

Anmeldungsdatum:
26. Februar 2011

Beiträge: 54

Hi, vielen Dank für die Antwort.

Hier das Ergebnis:

alle@Y409:~$ sudo smartctl -a /dev/sda | grep -i "hours"
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       9222
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
Error 5193 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5192 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5191 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5190 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5189 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
Nach der zweiten Ausgabe von dir zu folgern, sind deine Platten aber schon recht "ausgelutscht", was die Fehleranzahl angeht:

Wo kann ich die Fehleranzahl ablesen?

Der Server läuft 365/24

Metalbuntu

Anmeldungsdatum:
17. August 2011

Beiträge: 110

Dankeschön ☺

1
9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       9222

Die Zeile verrät mir, dass deine Platte knapp 10.000 Stunden auf dem Buckel hat...

Meine beiden in meinem Laptop haben jeweils 4000-6000 Stunden runter (die 4000er läuft seit 1 Jahr als Systemplatte jeden Tag einige Stunden).

Für einen Server der immer läuft hast du hoffentlich eine Serverfestplatte verwendet. Normale Dekstopplatten halten die Belastung nicht lange aus.

Wo kann ich die Fehleranzahl ablesen?

Hier:

Error 5193 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5192 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5191 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5190 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)
Error 5189 occurred at disk power-on lifetime: 9122 hours (380 days + 2 hours)

So wirklich helfen kann ich dir aber auch nicht. Beobachte mal weiter, leg immer schön Backups an, und stell vielleicht schonmal eine neue Platte bereit, falls die alte bald nichts mehr tut 😉

stfischr Team-Icon

Avatar von stfischr

Anmeldungsdatum:
1. März 2007

Beiträge: 19197

Hi.

Was gibt denn

sudo smartctl -A /dev/sda

Metalbuntu schrieb:

Für einen Server der immer läuft hast du hoffentlich eine Serverfestplatte verwendet. Normale Dekstopplatten halten die Belastung nicht lange aus.

Iwo das ist ein Gerücht. Hab hier gerade eine 0815 Desktopplatte mit 17000 Stunden liegen, funzt noch 1A.

prime1009

(Themenstarter)
Avatar von prime1009

Anmeldungsdatum:
26. Februar 2011

Beiträge: 54

Das sieht glaube ich volkommen ok aus.

alle@Y409:~$ sudo smartctl -A /dev/sda
smartctl 5.40 2010-07-12 r3124 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   114   084   006    Pre-fail  Always       -       75694090
  3 Spin_Up_Time            0x0023   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       106
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       382
  7 Seek_Error_Rate         0x002f   069   060   030    Pre-fail  Always       -       9476643
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       9228
 10 Spin_Retry_Count        0x0033   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       53
180 Unused_Rsvd_Blk_Cnt_Tot 0x002b   100   100   000    Pre-fail  Always       -       46
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       5588
188 Command_Timeout         0x0032   100   096   000    Old_age   Always       -       111
189 High_Fly_Writes         0x003a   079   079   000    Old_age   Always       -       21
190 Airflow_Temperature_Cel 0x0022   063   058   045    Old_age   Always       -       37 (Lifetime Min/Max 35/41)
194 Temperature_Celsius     0x0022   037   042   000    Old_age   Always       -       37 (0 21 0 0)
195 Hardware_ECC_Recovered  0x003a   036   015   000    Old_age   Always       -       75694090
196 Reallocated_Event_Count 0x0032   091   091   036    Old_age   Always       -       382
197 Current_Pending_Sector  0x0032   100   066   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0

stfischr Team-Icon

Avatar von stfischr

Anmeldungsdatum:
1. März 2007

Beiträge: 19197

prime1009 schrieb:

Das sieht glaube ich volkommen ok aus.

  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       382

Naja, es ist zwar gerade alles in Ordnung aber es gibt schon sehr viele defekte Sektoren, also lange macht es die Platte tatsächlich nicht mehr.

Antworten |