• Opret dig
  • Glemt adgangskode

User account menu

  • Artikler
  • Forside
  • Forum
  • Nyheder
  • Log ind
Hjem
LinuxIN.dk

Snak med

Opret dig!

Af hoppendekanin | 12.04.2012 20:28

Debian smider hdd ud ad raid ved hård belastning

Software
Fra december og frem til i dag har min lille Atom bandit med følgende specifikationer:
- Gigabyte GA-D510UD bundkort
- 2x2GB ram
- 2x SAMSUNG HE103UJ i software RAID1 (systemdiske)
- 2x WDC WD20EARS-00MVWB0 (ikke i RAID) (datadiske)
- Debian Sqeeze med alle de seneste opdateringer

Info om RAID´et:

root@atom:~# mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Creation Time : Wed Aug 10 11:19:58 2011
Raid Level : raid1
Array Size : 976758841 (931.51 GiB 1000.20 GB)
Used Dev Size : 976758841 (931.51 GiB 1000.20 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent

Update Time : Thu Apr 12 20:03:03 2012
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0

Name : atom:0 (local to host atom)
UUID : f3fec4da:95ee0888:5077386f:964a615b
Events : 308976

Number Major Minor RaidDevice State
3 8 0 0 active sync /dev/sda
2 8 16 1 active sync /dev/sdb

Har computeren smidt de ene Samsung harddisk ud af RAID´et 3 - 4 gange i den tidsperiode. Den smider harddisken ud, når der er belastning på på RAID´et. Fx ved filoverførelse (>60 - 70 MB/s) over længere tid, eller hvis jeg sletter en hel masse på en gang. Sidste gang var i påsken, hvor jeg slette omkring 100000 små filer (5 - 50KB størrelse).
Computeren kan sagtens køre efter den har smidt harddisken ud ad RAID´et, så den køre bare med en af Samsung harddiskene. Efter computere har smidt harddisken, kan jeg ikke finde den via fdisk eller via "hddtemp /dev/sdx".

For at jeg kan få disken tilbage igen, skal jeg slukke computere helt, og så starte den op igen. Så kan jeg finde disken igen, og tilføje den igen vha. kommandoen: "mdadm --manage /dev/md0 --add /dev/sdx" . Nogle gange skulle jeg lukke den ned en ekstra gang og starte den op igen, før den kan få den tilføjet til RAID´et igen. En normal genstart hjælpe ikke.

Er det pga. Gigabyte-bundkortet at den ikke kan håndtere, når RAID´et bliver belastet meget. Jeg synes ikke, at jeg kan se noget i "htop", når jeg belaster RAID´et mege, at computeren bruger mange ressourcer (cpu og ram mæssigt) på at køre RAID´et ?
Eller kunne det være sata-controlleren på bundkortet, der ikke kan følge med?

Det er lidt træls, at den smider en af diskene, når RAID´et bliver overbelastet. For det tager jo lidt tid at genbygge RAID´et, hvor jeg ikke kan bruge den så meget, pga. belastningen på diskene.
  • Log ind eller opret dig for at tilføje kommentarer

Kommentarer9

# 1

13 år 2 måneder siden

Permalink

Indsendt af dudsen den 12. april 2012 kl. 20:57

Permalink

logs ?

Smider den noget i logs om at et device er unavailable.

hvis det er samme disk der falder ud har du forsøgt at stess teste disken individuelt.

Jeg må indrømme jeg ikke har meget erfaring med swraid men umidbart ville jeg gætte på at enten disk eller sata firmware gør noget mærkeligt som debian reagere på ved at erklære disk for død.



  • Log ind eller opret dig for at tilføje kommentarer

# 2

13 år 2 måneder siden

Permalink

Indsendt af hoppendekanin den 12. april 2012 kl. 21:21

Permalink

Jeg fandt dette i

Jeg fandt dette i kern.log:
Apr 5 14:00:37 atom kernel: [101046.278235] sd 4:0:0:0: [sdc] Unhandled error code
Apr 5 14:00:37 atom kernel: [101046.278240] sd 4:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 5 14:00:37 atom kernel: [101046.278247] sd 4:0:0:0: [sdc] CDB: Write(10): 2a 00 69 80 2e 4f 00 00 38 00
Apr 5 14:00:37 atom kernel: [101046.278263] end_request: I/O error, dev sdc, sector 1770008143

Efter ca. 10000linjer med den samme meddelse hvor sektor-værdien og de fire tal i write(10)-linjen skifter værdi, og efter de 10000linjer kommer den her:

Apr 5 14:00:46 atom kernel: [101054.252046] RAID1 conf printout:
Apr 5 14:00:46 atom kernel: [101054.252053] --- wd:1 rd:2
Apr 5 14:00:46 atom kernel: [101054.252059] disk 0, wo:1, o:0, dev:sdc1
Apr 5 14:00:46 atom kernel: [101054.252064] disk 1, wo:0, o:1, dev:sdd
Apr 5 14:00:46 atom kernel: [101054.268523] RAID1 conf printout:
Apr 5 14:00:46 atom kernel: [101054.268528] --- wd:1 rd:2
Apr 5 14:00:46 atom kernel: [101054.268534] disk 1, wo:0, o:1, dev:sdd
Apr 5 15:22:34 atom kernel: [105963.712570] device eth0 left promiscuous mode
Apr 5 15:22:38 atom kernel: [105967.020718] fuse exit

Også var der også lige disse linjer:
r 7 11:04:36 atom kernel: [ 96.223900] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.223906] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224274] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224279] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224443] mdadm: sending ioctl 1261 to a partition!
Apr 7 11:04:36 atom kernel: [ 96.224449] mdadm: sending ioctl 1261 to a partition!

Jeg kan prøve at søge videre (hvis I vil vide noget mere), når jeg kommer hjem, da jeg pt. sidder på en langsom 3G-forbindelse, eller om der er andre log-filer, jeg skulle kigge i.

Det er forskelligt hvilken harddisk, at den taber. Så vidt jeg husker, så købte jeg de to harddiske samtidig.

Findes der et eller andet program (som kan køres via terminalen), hvor jeg evt. kunne se en SMART-status på harddisken, så jeg evt. kunne se, om det var nogle "bad sectors" på harddiskene?
  • Log ind eller opret dig for at tilføje kommentarer

# 3

13 år 2 måneder siden

Permalink

Indsendt af lbm den 12. april 2012 kl. 23:05

Permalink

Ang. SMART så kig på

Ang. SMART så kig på smartctl, har dog ingen erfaringer.
http://www.cyberciti.biz/tips/linux-find-out-if-harddisk-failing.html

Har desværre ingen ideér til hvad der er galt, andet end det du selv er inde på. (Bios opdatering, defekte diske, kernel fejl)
  • Log ind eller opret dig for at tilføje kommentarer

# 4

13 år 2 måneder siden

Permalink

Indsendt af hoppendekanin den 13. april 2012 kl. 08:21

Permalink

#3
Tak for linktet, jeg

#3
Tak for linktet, jeg prøver lige at kigge på det.

Så prøver jeg lige at finde ud af, hvad der kunne være galt
  • Log ind eller opret dig for at tilføje kommentarer

# 5

13 år 2 måneder siden

Permalink

Indsendt af kenzu den 13. april 2012 kl. 08:36

Permalink

Lignede fejl, har dog ikke

Lignede fejl, har dog ikke læst det hele igennem http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=625922
  • Log ind eller opret dig for at tilføje kommentarer

# 6

13 år 2 måneder siden

Permalink

Indsendt af hoppendekanin den 13. april 2012 kl. 23:28

Permalink

#5
Lige ved at kigge siden

#5
Lige ved at kigge siden igennem kan jeg se, at nogle af de samme fejlmeddelser i kern.log er identiske med de fejl, jeg får.
Desuden kan jeg se, at det er en fejl i kernel 2.6.32-2.6.38

Lige pt køre jeg med 2.6.32-5-bigmem kernen, så jeg skal nok opgradere den til højere end 2.6.38 for at slippe af med fejlen.
  • Log ind eller opret dig for at tilføje kommentarer

# 7

13 år 2 måneder siden

Permalink

Indsendt af phomes den 14. april 2012 kl. 00:58

Permalink

#3
Angående smartctl, så

#3
Angående smartctl, så findes der også en gui, som gør det lidt lettere at bruge første gang:
http://unixfoo.blogspot.fr/2009/03/gsmartcontrol-gui-for-smartctl.html
  • Log ind eller opret dig for at tilføje kommentarer

# 8

13 år 2 måneder siden

Permalink

Indsendt af hoppendekanin den 14. april 2012 kl. 14:45

Permalink

#7Tak for tippet, men jeg

#7
Tak for tippet, men jeg bruger computeren som server, så derfor har den ikke noget grafisk på den.
  • Log ind eller opret dig for at tilføje kommentarer

# 9

13 år 2 måneder siden

Permalink

Indsendt af dusted den 17. april 2012 kl. 10:54

Permalink

Jeg har oplevet at en

Jeg har oplevet at en bestemt disk blev smidt af to gange, selvom den efter hver gang bestod en extended selftest og badblocks, smart viste intet, årsagen var en løs forbindelse, problemet blev løst ved at trække disken ud og sætte den ind igen (backplane).
  • Log ind eller opret dig for at tilføje kommentarer

Svar søges

den er sjov 0
llumos Unix-operativsystem, 0
Den er go 0
14. februar = I Love Free Software Day 0
Lokal fil-deling - for de dovne. 0

Seneste aktivitet

"Intet realistisk alternativ" - mig i r*ven 17
Open source events i danmark? 3
Virtuel maskine? 4
Gode anmeldelser Zorin OS 17.3 8
Open Source-eksperimentet 5
En snak om Linux-kompatibel software 7
Nulstilling af adgangskode 6
PCLinuxOS 27
Ingen Mint 5
Linux App Store Flathub når 3 milliarder downloads 2
Digitaliseringsministeriet sætter gang i pilotprojekt om digital suverænitet 3
Mest sikker webbrowser 5
Firefox 2
Privatbeskeder 7
Backup/synkronisering? 3
BigLinux 5
Chatgpt satire 1
Læsning af databasefil i Firefox 2
Vanilla OS 15
Pepsi Challenge 4

© 2025 Linuxin og de respektive skribenter

Oprettet og drevet af nørder siden 2004 !