Nowe posty

xx Problem ze sterownikami. (5)
2024-04-13, 21:25:16
xx Instalacja xfce4 (2)
2024-04-13, 16:20:17
xx Serie kompilacji bez instalacji dla “emerge” w Gentoo (2)
2024-04-08, 18:40:04
xx Plasma 6 w Neonie ssie trochę mniej ... (17)
2024-04-05, 10:03:46
xx Problem z Linux Lite po instalacji (3)
2024-04-03, 14:23:40
xx Jak właczyć num locka przy starcie systemu debian 12? (12)
2024-04-02, 17:43:54
xx Brak dźwieku w systemie. (5)
2024-04-02, 16:13:41
xx Dystrybucja pod HP Omen (7)
2024-03-29, 11:33:05
xx [Poradnik] Wyszukiwanie Sterowników (2)
2024-03-27, 21:08:23
xx Ile pingwinów? (1)
2024-03-27, 08:59:24

Autor Wątek: Na tropie problemu - dysk  (Przeczytany 6955 razy)

kamzor

  • Gość
Na tropie problemu - dysk
« dnia: 2009-08-14, 19:00:10 »
Witam! Oto problem: przy włączaniu komputera, po komunikatach typu 'Starting..' wyskakują mi jeszcze jakieś dziwne komunikaty. Ubuntu w wersji desktopowej jak i serwerowej czasem po prostu traci stabilność albo nie chce się włączyć i wyskakują podobne komunikaty. Przeszukałem logi i znalazłem 2 miejsca które mnie intrygują:

W syslog:
Aug 13 19:39:15 stac kernel: [ 1329.608021] end_request: I/O error, dev fd0, sector 0
Aug 13 19:39:15 stac kernel: [ 1329.632042] end_request: I/O error, dev fd0, sector 0
W kern.log:
Aug 14 17:56:45 stac kernel: [   44.816027] ata5.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 14 17:56:45 stac kernel: [   44.816162] ata5.00: cmd c8/00:20:17:53:46/00:00:00:00:00/e0 tag 0 dma 16384 in
Aug 14 17:56:45 stac kernel: [   44.816163]          res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Aug 14 17:56:45 stac kernel: [   44.816418] ata5.00: status: { DRDY }
Aug 14 17:56:45 stac kernel: [   44.816506] ata5: soft resetting link
Aug 14 17:56:45 stac kernel: [   45.094378] ata5.00: configured for UDMA/133
Aug 14 17:56:45 stac kernel: [   45.094387] ata5: EH complete
Aug 14 17:56:45 stac kernel: [   45.136353] sd 4:0:0:0: [sda] 156301488 512-byte hardware sectors: (80.0 GB/74.5 GiB)
Aug 14 17:56:45 stac kernel: [   45.136373] sd 4:0:0:0: [sda] Write Protect is off
Aug 14 17:56:45 stac kernel: [   45.136375] sd 4:0:0:0: [sda] Mode Sense: 00 3a 00 00
Aug 14 17:56:45 stac kernel: [   45.136403] sd 4:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Posiadam drugi dysk tej samej firmy i na nim wszystko działa bezproblemowo. Sprawdziłem ten dysk narzędziem badblocks ale nie znalazło uszkodzeń. Dysk ma mieć przeznaczenie serwerowe dlatego nie może być wadliwy. Zanim jednak zrobię z niego podkładkę pod piwo chciałbym się upewnić czy jest to problem nieodwracalny. Co czynić?

  • Gość
Na tropie problemu - dysk
« Odpowiedź #1 dnia: 2009-08-14, 21:14:36 »
Pierwszy log dotyczy stacji dyskietek, pewnie akurat żadnej w niej nie było, więc nie powiódł się odczyt testowy, nie jest to nic groźnego.

Co do drugiego - info z końca (doesn't support DPO or FUA) dotyczy kontrolerów SCSI, a jak wcześniej Ci wyrzuciło w logu, masz ATA, więc nie ma się co dziwić :)

Możesz podać treść tych komunikatów?

kamzor

  • Gość
Na tropie problemu - dysk
« Odpowiedź #2 dnia: 2009-08-15, 02:02:38 »
Ciężko mi w tej chwili je podać gdyż widoczne są tylko przez chwile a sytuacja gdy system nie chce się przez nie uruchomić występuje raz na dłuższy czas.
Jednak jest to coś takiego jak 4 pierwsze wiersze drugiego loga bądź całość. Ciężko stwierdzić.. jak trzeba to wezmę aparat i fotkę trzasnę :)

W takim razie co dalej?

Offline Robert

  • Administrator
  • Guru
  • *****
  • Wiadomości: 2516
    • Zobacz profil
Na tropie problemu - dysk
« Odpowiedź #3 dnia: 2009-08-20, 13:33:34 »
Chyba będzie najlepiej,jak trzaśniesz fotkę :-)
Zanim popełnisz grafomaństwo: 1 | 2 | 3
Baza RPM Jak szukać informacji

alexs2

  • Gość
Na tropie problemu - dysk
« Odpowiedź #4 dnia: 2009-08-21, 10:22:10 »
Jest to problem ze sterownikiem do dysku, miałem go u sąsiada, który był drugą z dwóch osób, którym udało mi się zainstalować Linuksa. Niestety, był. Ale sprzęt był przedpotopowy, a sąsiad niepostępowy.
A przynajmniej po 2-godzinnych bojach udało mi się zainstalować mu Neostradę ADSL (jest to jedyny ciężki do zainstaowania rodzaj Internetu).

Rozwiązania problemu należy szukać w wyniki komendy :
$lsmod.
Komenda:
$lshw -class storage
albo graficzna
$hardinfo
powie Ci, na jakim driverze jedzie ten dysk.

Nie udało mi się rozwiązać tego problemu, ale wiem, że przy tym błędzie system i tak wystartuje, tylko odczeka swoje 3 minuty.

kamzor

  • Gość
Na tropie problemu - dysk
« Odpowiedź #5 dnia: 2009-08-21, 14:01:03 »
Cytat: alexs2
Nie udało mi się rozwiązać tego problemu, ale wiem, że przy tym błędzie system i tak wystartuje, tylko odczeka swoje 3 minuty.
Nawet po 20 minutach i 10 resetach nie chciał się w końcu włączyć.

Będę kminił  od poniedziałku bo zajęty jestem :) postaram się dowiedzieć czegoś więcej.

A co do dysku to dziwi mnie że tej samej firmy tylko o większej pamięci i cache działa bez problemu :)

alexs2

  • Gość
Na tropie problemu - dysk
« Odpowiedź #6 dnia: 2009-08-21, 15:59:44 »
Hmmm, możliwe, że startowałem to w recovery mode, a potem jak było ok to normalnie login user i startx.

kamzor

  • Gość
Na tropie problemu - dysk
« Odpowiedź #7 dnia: 2009-08-21, 18:22:32 »
A nie wiecie może czy jakieś uszkodzenia dyski mogą być niewykrywalne przez badblocks ?

wiewiorek

  • Gość
Na tropie problemu - dysk
« Odpowiedź #8 dnia: 2009-08-27, 01:16:56 »
Istnieje dość spore prawdopodobieństwo, że uszkodzenia się pojawiły, ale badblocks ich nie zraportuje, gdyż odpowiedni mechanizm dysku sam zwalcza ten problem.

Mechanizm ten się nazywają S.M.A.R.T, a najfajniejszy pakiet do odczytu i zabawy SMART-a nazywa się smartmontools.

Do odczytywania służy polecenie smartctl, odczytanie wszyskiego:
smartctl -a /dev/hda
Interesujące nas rzeczy do atrybuty:

sudo smartctl  -A /dev/hda
smartctl version 5.38 [i486-slackware-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   233   232   063    Pre-fail  Always       -       4098
  4 Start_Stop_Count        0x0032   253   253   000    Old_age   Always       -       1300
  5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       0
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   252   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   253   239   187    Pre-fail  Always       -       45844
  9 Power_On_Minutes        0x0032   204   204   000    Old_age   Always       -       676h+49m
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   250   250   000    Old_age   Always       -       1426
192 Power-Off_Retract_Count 0x0032   253   253   000    Old_age   Always       -       194
193 Load_Cycle_Count        0x0032   252   252   000    Old_age   Always       -       4177
194 Unknown_Attribute       0x0032   253   253   000    Old_age   Always       -       0
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       5
196 Reallocated_Event_Count 0x0008   253   253   000    Old_age   Offline      -       0
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       0
198 Offline_Uncorrectable   0x0008   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0008   199   198   000    Old_age   Offline      -       1
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   252   000    Old_age   Always       -       0
202 TA_Increase_Count       0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       0
204 Shock_Count_Write_Opern 0x000a   253   252   000    Old_age   Always       -       0
205 Shock_Rate_Write_Opern  0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   205   187   000    Old_age   Offline      -       0
 99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
Ten dysk ma 0 wymienionych bad sectorów (Reallocated_Event_Count), 0 oczekujących na wymianę (Current_Pending_Sector), oraz 0 nienaprawialnych (Offline_Uncorrectable).
Oprócz badów są tutaj też inne ciekawe wartości, mogące świadczyć o podupadającej kondycji dysku.

Inną interesującą rzeczą jest log błędów, które wyniknęły podczas pracy:
smartctl  -l error /dev/hda 

smartctl version 5.38 [i486-slackware-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
Warning: ATA error count 1423 inconsistent with error log pointer 5

ATA Error Count: 1423 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1423 occurred at disk power-on lifetime: 15994 hours (666 days + 10 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 05 01 00 00 a0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  a1 00 05 01 00 00 a0 08  29d+06:22:37.968  IDENTIFY PACKET DEVICE
  ea 00 00 00 00 00 a0 08  29d+06:21:22.336  FLUSH CACHE EXIT
  35 00 08 3f 00 00 e0 08  29d+06:21:18.496  WRITE DMA EXT
  35 00 08 37 10 ac e0 08  29d+06:21:18.496  WRITE DMA EXT
  35 00 08 37 10 ac e0 08  29d+06:21:18.496  WRITE DMA EXT

Error 1422 occurred at disk power-on lifetime: 15994 hours (666 days + 10 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 05 01 00 00 a0  Error: ABRT
....
Błędów sporo (1423), ale nie miałem czasu robić dochodzenia. Ponieważ problem wywołała komenda "IDENTIFY PACKET DEVICE", intuicja mówi mi że to jakaś głupota związana z płytą główną i transmisją po ATA.

Oprócz tego smartctl umożliwia wykonanie kilku rodzaju self-testów dysku, odsyłam do manuala.