Debian smider hdd ud ad raid ved hård belastning
Fra december og frem til i dag har min lille Atom bandit med følgende specifikationer:
- Gigabyte GA-D510UD bundkort
- 2x2GB ram
- 2x SAMSUNG HE103UJ i software RAID1 (systemdiske)
- 2x WDC WD20EARS-00MVWB0 (ikke i RAID) (datadiske)
- Debian Sqeeze med alle de seneste opdateringer
Info om RAID´et:
root@atom:~# mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Aug 10 11:19:58 2011
Raid Level : raid1
Array Size : 976758841 (931.51 GiB 1000.20 GB)
Used Dev Size : 976758841 (931.51 GiB 1000.20 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Thu Apr 12 20:03:03 2012
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : atom:0 (local to host atom)
UUID : f3fec4da:95ee0888:5077386f:964a615b
Events : 308976
Number Major Minor RaidDevice State
3 8 0 0 active sync /dev/sda
2 8 16 1 active sync /dev/sdb
Har computeren smidt de ene Samsung harddisk ud af RAID´et 3 - 4 gange i den tidsperiode. Den smider harddisken ud, når der er belastning på på RAID´et. Fx ved filoverførelse (>60 - 70 MB/s) over længere tid, eller hvis jeg sletter en hel masse på en gang. Sidste gang var i påsken, hvor jeg slette omkring 100000 små filer (5 - 50KB størrelse).
Computeren kan sagtens køre efter den har smidt harddisken ud ad RAID´et, så den køre bare med en af Samsung harddiskene. Efter computere har smidt harddisken, kan jeg ikke finde den via fdisk eller via "hddtemp /dev/sdx".
For at jeg kan få disken tilbage igen, skal jeg slukke computere helt, og så starte den op igen. Så kan jeg finde disken igen, og tilføje den igen vha. kommandoen: "mdadm --manage /dev/md0 --add /dev/sdx" . Nogle gange skulle jeg lukke den ned en ekstra gang og starte den op igen, før den kan få den tilføjet til RAID´et igen. En normal genstart hjælpe ikke.
Er det pga. Gigabyte-bundkortet at den ikke kan håndtere, når RAID´et bliver belastet meget. Jeg synes ikke, at jeg kan se noget i "htop", når jeg belaster RAID´et mege, at computeren bruger mange ressourcer (cpu og ram mæssigt) på at køre RAID´et ?
Eller kunne det være sata-controlleren på bundkortet, der ikke kan følge med?
Det er lidt træls, at den smider en af diskene, når RAID´et bliver overbelastet. For det tager jo lidt tid at genbygge RAID´et, hvor jeg ikke kan bruge den så meget, pga. belastningen på diskene.
- Gigabyte GA-D510UD bundkort
- 2x2GB ram
- 2x SAMSUNG HE103UJ i software RAID1 (systemdiske)
- 2x WDC WD20EARS-00MVWB0 (ikke i RAID) (datadiske)
- Debian Sqeeze med alle de seneste opdateringer
Info om RAID´et:
root@atom:~# mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Aug 10 11:19:58 2011
Raid Level : raid1
Array Size : 976758841 (931.51 GiB 1000.20 GB)
Used Dev Size : 976758841 (931.51 GiB 1000.20 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Thu Apr 12 20:03:03 2012
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : atom:0 (local to host atom)
UUID : f3fec4da:95ee0888:5077386f:964a615b
Events : 308976
Number Major Minor RaidDevice State
3 8 0 0 active sync /dev/sda
2 8 16 1 active sync /dev/sdb
Har computeren smidt de ene Samsung harddisk ud af RAID´et 3 - 4 gange i den tidsperiode. Den smider harddisken ud, når der er belastning på på RAID´et. Fx ved filoverførelse (>60 - 70 MB/s) over længere tid, eller hvis jeg sletter en hel masse på en gang. Sidste gang var i påsken, hvor jeg slette omkring 100000 små filer (5 - 50KB størrelse).
Computeren kan sagtens køre efter den har smidt harddisken ud ad RAID´et, så den køre bare med en af Samsung harddiskene. Efter computere har smidt harddisken, kan jeg ikke finde den via fdisk eller via "hddtemp /dev/sdx".
For at jeg kan få disken tilbage igen, skal jeg slukke computere helt, og så starte den op igen. Så kan jeg finde disken igen, og tilføje den igen vha. kommandoen: "mdadm --manage /dev/md0 --add /dev/sdx" . Nogle gange skulle jeg lukke den ned en ekstra gang og starte den op igen, før den kan få den tilføjet til RAID´et igen. En normal genstart hjælpe ikke.
Er det pga. Gigabyte-bundkortet at den ikke kan håndtere, når RAID´et bliver belastet meget. Jeg synes ikke, at jeg kan se noget i "htop", når jeg belaster RAID´et mege, at computeren bruger mange ressourcer (cpu og ram mæssigt) på at køre RAID´et ?
Eller kunne det være sata-controlleren på bundkortet, der ikke kan følge med?
Det er lidt træls, at den smider en af diskene, når RAID´et bliver overbelastet. For det tager jo lidt tid at genbygge RAID´et, hvor jeg ikke kan bruge den så meget, pga. belastningen på diskene.
Kommentarer9
logs ?
hvis det er samme disk der falder ud har du forsøgt at stess teste disken individuelt.
Jeg må indrømme jeg ikke har meget erfaring med swraid men umidbart ville jeg gætte på at enten disk eller sata firmware gør noget mærkeligt som debian reagere på ved at erklære disk for død.
Jeg fandt dette i
Apr 5 14:00:37 atom kernel: [101046.278235] sd 4:0:0:0: [sdc] Unhandled error code
Apr 5 14:00:37 atom kernel: [101046.278240] sd 4:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 5 14:00:37 atom kernel: [101046.278247] sd 4:0:0:0: [sdc] CDB: Write(10): 2a 00 69 80 2e 4f 00 00 38 00
Apr 5 14:00:37 atom kernel: [101046.278263] end_request: I/O error, dev sdc, sector 1770008143
Efter ca. 10000linjer med den samme meddelse hvor sektor-værdien og de fire tal i write(10)-linjen skifter værdi, og efter de 10000linjer kommer den her:
Apr 5 14:00:46 atom kernel: [101054.252046] RAID1 conf printout:
Apr 5 14:00:46 atom kernel: [101054.252053] --- wd:1 rd:2
Apr 5 14:00:46 atom kernel: [101054.252059] disk 0, wo:1, o:0, dev:sdc1
Apr 5 14:00:46 atom kernel: [101054.252064] disk 1, wo:0, o:1, dev:sdd
Apr 5 14:00:46 atom kernel: [101054.268523] RAID1 conf printout:
Apr 5 14:00:46 atom kernel: [101054.268528] --- wd:1 rd:2
Apr 5 14:00:46 atom kernel: [101054.268534] disk 1, wo:0, o:1, dev:sdd
Apr 5 15:22:34 atom kernel: [105963.712570] device eth0 left promiscuous mode
Apr 5 15:22:38 atom kernel: [105967.020718] fuse exit
Også var der også lige disse linjer:
r 7 11:04:36 atom kernel: [ 96.223900] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.223906] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224274] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224279] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224443] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224449] mdadm: sending ioctl 1261 to a partition!
Jeg kan prøve at søge videre (hvis I vil vide noget mere), når jeg kommer hjem, da jeg pt. sidder på en langsom 3G-forbindelse, eller om der er andre log-filer, jeg skulle kigge i.
Det er forskelligt hvilken harddisk, at den taber. Så vidt jeg husker, så købte jeg de to harddiske samtidig.
Findes der et eller andet program (som kan køres via terminalen), hvor jeg evt. kunne se en SMART-status på harddisken, så jeg evt. kunne se, om det var nogle "bad sectors" på harddiskene?
Ang. SMART så kig på
http://www.cyberciti.biz/tips/linux-find-out-if-harddisk-failing.html
Har desværre ingen ideér til hvad der er galt, andet end det du selv er inde på. (Bios opdatering, defekte diske, kernel fejl)
#3
Tak for linktet, jeg
Tak for linktet, jeg prøver lige at kigge på det.
Så prøver jeg lige at finde ud af, hvad der kunne være galt
Lignede fejl, har dog ikke
#5
Lige ved at kigge siden
Lige ved at kigge siden igennem kan jeg se, at nogle af de samme fejlmeddelser i kern.log er identiske med de fejl, jeg får.
Desuden kan jeg se, at det er en fejl i kernel 2.6.32-2.6.38
Lige pt køre jeg med 2.6.32-5-bigmem kernen, så jeg skal nok opgradere den til højere end 2.6.38 for at slippe af med fejlen.
#3
Angående smartctl, så
Angående smartctl, så findes der også en gui, som gør det lidt lettere at bruge første gang:
http://unixfoo.blogspot.fr/2009/03/gsmartcontrol-gui-for-smartctl.html
#7Tak for tippet, men jeg
Tak for tippet, men jeg bruger computeren som server, så derfor har den ikke noget grafisk på den.
Jeg har oplevet at en