ustabil server
Håber på nogle kloge hoveder kan hjælpe
Har for nyligt købt ny server/nas
den volder dog lidt problemer
Hardware
Motherboard: Asrock C2750D4I (Firmware 0.14.0 Bios 1.80)
Ram: Kingston HyperX blu DDR3-1600 DC - 16GB (2x8G none ecc)
PSU: 300W Gold (included with Fractal-Design-Array-R2-Mini-ITX)
Kingston SSDNow V300 SSD - 60GB (on intel controller)
Western Digital WD Red - 4TB (on marvell controller)
Bruger følgende software
Os: Debian testing (stable har ikke netkort driver)
Samba
NFS
Delunge Torrent server
Serviio DLNA server
Den køre stabilt så lægen den er idle
når jeg starter delunge eller bruger samba crasher den kort tid efter.
ca 1-15min konsikvent
får denne fejl i syslog
Mar 19 19:46:40 store kernel: [ 4489.921925] ------------[ cut here ]------------
Mar 19 19:46:40 store kernel: [ 4489.921944] WARNING: CPU: 6 PID: 0 at net/sched/sch_generic.c:264 dev_watchdog+0x226/0x230()
Mar 19 19:46:40 store kernel: [ 4489.921947] NETDEV WATCHDOG: eth0 (igb): transmit queue 0 timed out
Mar 19 19:46:40 store kernel: [ 4489.921949] Modules linked in: igb(O) nfsd auth_rpcgss oid_registry nfs_acl nfs lockd fscache sunrpc nct6775 hwmon_vid joydev hid_generic usbhid hid coretemp iTCO_wdt kvm iTCO_vendor_support crct10dif_pclmul crc32_pclmul crc32c_intel ghash_clmulni_intel snd_pcm aesni_intel snd_timer aes_x86_64 snd lrw gf128mul soundcore glue_helper ast ablk_helper cryptd evdev lpc_ich pcspkr ttm mfd_core i2c_i801 drm_kms_helper drm i2c_ismt shpchp ipmi_si ipmi_msghandler tpm_tis tpm button processor thermal_sys ext4 crc16 mbcache jbd2 sg sd_mod crc_t10dif crct10dif_common ehci_pci ehci_hcd usbcore usb_common ahci libahci i2c_algo_bit i2c_core dca libata ptp pps_core scsi_mod [last unloaded: igb]
Mar 19 19:46:40 store kernel: [ 4489.922024] CPU: 6 PID: 0 Comm: swapper/6 Tainted: G O 3.14.0-rc7-freex #1
Mar 19 19:46:40 store kernel: [ 4489.922026] Hardware name: To Be Filled By O.E.M. To Be Filled By O.E.M./C2750D4I, BIOS P1.80 01/14/2014
Mar 19 19:46:40 store kernel: [ 4489.922028] 0000000000000009 ffffffff814acc2e ffff88047fd83e20 ffffffff8105eed2
Mar 19 19:46:40 store kernel: [ 4489.922034] 0000000000000000 ffff88047fd83e70 0000000000000010 0000000000000006
Mar 19 19:46:40 store kernel: [ 4489.922038] ffff880467d2c000 ffffffff8105ef37 ffffffff817472a0 ffff880400000030
Mar 19 19:46:40 store kernel: [ 4489.922042] Call Trace:
Mar 19 19:46:40 store kernel: [ 4489.922044] [] ? dump_stack+0x41/0x51
Mar 19 19:46:40 store kernel: [ 4489.922056] [] ? warn_slowpath_common+0x72/0x90
Mar 19 19:46:40 store kernel: [ 4489.922059] [] ? warn_slowpath_fmt+0x47/0x50
Mar 19 19:46:40 store kernel: [ 4489.922064] [] ? dev_watchdog+0x226/0x230
Mar 19 19:46:40 store kernel: [ 4489.922067] [] ? dev_graft_qdisc+0x70/0x70
Mar 19 19:46:40 store kernel: [ 4489.922071] [] ? call_timer_fn+0x2c/0x100
Mar 19 19:46:40 store kernel: [ 4489.922075] [] ? dev_graft_qdisc+0x70/0x70
Mar 19 19:46:40 store kernel: [ 4489.922079] [] ? run_timer_softirq+0x1f9/0x2b0
Mar 19 19:46:40 store kernel: [ 4489.922083] [] ? __do_softirq+0xfa/0x2a0
Mar 19 19:46:40 store kernel: [ 4489.922087] [] ? irq_exit+0x95/0xa0
Mar 19 19:46:40 store kernel: [ 4489.922091] [] ? smp_apic_timer_interrupt+0x3b/0x50
Mar 19 19:46:40 store kernel: [ 4489.922095] [] ? apic_timer_interrupt+0x6d/0x80
Mar 19 19:46:40 store kernel: [ 4489.922097] [] ? cpuidle_enter_state+0x4d/0xc0
Mar 19 19:46:40 store kernel: [ 4489.922106] [] ? cpuidle_idle_call+0xa9/0x1d0
Mar 19 19:46:40 store kernel: [ 4489.922111] [] ? arch_cpu_idle+0x5/0x30
Mar 19 19:46:40 store kernel: [ 4489.922116] [] ? cpu_startup_entry+0x95/0x230
Mar 19 19:46:40 store kernel: [ 4489.922119] ---[ end trace 4f40e87b2b5695e5 ]---
eneste jeg kan gøre er ctrl + alt + del fra consol for at genstarte
den giver også nogle af disse i dens indbygget IPMI
System Reconfigured,OEM System Boot Event,Undetermined System Hardware Failure,Entry Added to Auxiliary Log,PEF Action - Asserted
Jeg har efterhånden prøvet en hel del.
8 timers ram test (ingen fejl)
2 timers cpuburn test. (den bliver lidt varm 60 grader men crasher ikke)
Updateret nic driver (igb til nyeste)
flyttet data disk fra marvell controller til intel
disabled AES-NI
disabled intel speed step
opdateret kerne til mange forskellige version pt 3.14 rc7
før fik jeg mange random fejl (panic, cpu not syncronized, double fault etc.)
nu får jeg kun overstående
håber nogen kan pege mig i den rigtige retning.
Har for nyligt købt ny server/nas
den volder dog lidt problemer
Hardware
Motherboard: Asrock C2750D4I (Firmware 0.14.0 Bios 1.80)
Ram: Kingston HyperX blu DDR3-1600 DC - 16GB (2x8G none ecc)
PSU: 300W Gold (included with Fractal-Design-Array-R2-Mini-ITX)
Kingston SSDNow V300 SSD - 60GB (on intel controller)
Western Digital WD Red - 4TB (on marvell controller)
Bruger følgende software
Os: Debian testing (stable har ikke netkort driver)
Samba
NFS
Delunge Torrent server
Serviio DLNA server
Den køre stabilt så lægen den er idle
når jeg starter delunge eller bruger samba crasher den kort tid efter.
ca 1-15min konsikvent
får denne fejl i syslog
Mar 19 19:46:40 store kernel: [ 4489.921925] ------------[ cut here ]------------
Mar 19 19:46:40 store kernel: [ 4489.921944] WARNING: CPU: 6 PID: 0 at net/sched/sch_generic.c:264 dev_watchdog+0x226/0x230()
Mar 19 19:46:40 store kernel: [ 4489.921947] NETDEV WATCHDOG: eth0 (igb): transmit queue 0 timed out
Mar 19 19:46:40 store kernel: [ 4489.921949] Modules linked in: igb(O) nfsd auth_rpcgss oid_registry nfs_acl nfs lockd fscache sunrpc nct6775 hwmon_vid joydev hid_generic usbhid hid coretemp iTCO_wdt kvm iTCO_vendor_support crct10dif_pclmul crc32_pclmul crc32c_intel ghash_clmulni_intel snd_pcm aesni_intel snd_timer aes_x86_64 snd lrw gf128mul soundcore glue_helper ast ablk_helper cryptd evdev lpc_ich pcspkr ttm mfd_core i2c_i801 drm_kms_helper drm i2c_ismt shpchp ipmi_si ipmi_msghandler tpm_tis tpm button processor thermal_sys ext4 crc16 mbcache jbd2 sg sd_mod crc_t10dif crct10dif_common ehci_pci ehci_hcd usbcore usb_common ahci libahci i2c_algo_bit i2c_core dca libata ptp pps_core scsi_mod [last unloaded: igb]
Mar 19 19:46:40 store kernel: [ 4489.922024] CPU: 6 PID: 0 Comm: swapper/6 Tainted: G O 3.14.0-rc7-freex #1
Mar 19 19:46:40 store kernel: [ 4489.922026] Hardware name: To Be Filled By O.E.M. To Be Filled By O.E.M./C2750D4I, BIOS P1.80 01/14/2014
Mar 19 19:46:40 store kernel: [ 4489.922028] 0000000000000009 ffffffff814acc2e ffff88047fd83e20 ffffffff8105eed2
Mar 19 19:46:40 store kernel: [ 4489.922034] 0000000000000000 ffff88047fd83e70 0000000000000010 0000000000000006
Mar 19 19:46:40 store kernel: [ 4489.922038] ffff880467d2c000 ffffffff8105ef37 ffffffff817472a0 ffff880400000030
Mar 19 19:46:40 store kernel: [ 4489.922042] Call Trace:
Mar 19 19:46:40 store kernel: [ 4489.922044] [] ? dump_stack+0x41/0x51
Mar 19 19:46:40 store kernel: [ 4489.922056] [] ? warn_slowpath_common+0x72/0x90
Mar 19 19:46:40 store kernel: [ 4489.922059] [] ? warn_slowpath_fmt+0x47/0x50
Mar 19 19:46:40 store kernel: [ 4489.922064] [] ? dev_watchdog+0x226/0x230
Mar 19 19:46:40 store kernel: [ 4489.922067] [] ? dev_graft_qdisc+0x70/0x70
Mar 19 19:46:40 store kernel: [ 4489.922071] [] ? call_timer_fn+0x2c/0x100
Mar 19 19:46:40 store kernel: [ 4489.922075] [] ? dev_graft_qdisc+0x70/0x70
Mar 19 19:46:40 store kernel: [ 4489.922079] [] ? run_timer_softirq+0x1f9/0x2b0
Mar 19 19:46:40 store kernel: [ 4489.922083] [] ? __do_softirq+0xfa/0x2a0
Mar 19 19:46:40 store kernel: [ 4489.922087] [] ? irq_exit+0x95/0xa0
Mar 19 19:46:40 store kernel: [ 4489.922091] [] ? smp_apic_timer_interrupt+0x3b/0x50
Mar 19 19:46:40 store kernel: [ 4489.922095] [] ? apic_timer_interrupt+0x6d/0x80
Mar 19 19:46:40 store kernel: [ 4489.922097] [] ? cpuidle_enter_state+0x4d/0xc0
Mar 19 19:46:40 store kernel: [ 4489.922106] [] ? cpuidle_idle_call+0xa9/0x1d0
Mar 19 19:46:40 store kernel: [ 4489.922111] [] ? arch_cpu_idle+0x5/0x30
Mar 19 19:46:40 store kernel: [ 4489.922116] [] ? cpu_startup_entry+0x95/0x230
Mar 19 19:46:40 store kernel: [ 4489.922119] ---[ end trace 4f40e87b2b5695e5 ]---
eneste jeg kan gøre er ctrl + alt + del fra consol for at genstarte
den giver også nogle af disse i dens indbygget IPMI
System Reconfigured,OEM System Boot Event,Undetermined System Hardware Failure,Entry Added to Auxiliary Log,PEF Action - Asserted
Jeg har efterhånden prøvet en hel del.
8 timers ram test (ingen fejl)
2 timers cpuburn test. (den bliver lidt varm 60 grader men crasher ikke)
Updateret nic driver (igb til nyeste)
flyttet data disk fra marvell controller til intel
disabled AES-NI
disabled intel speed step
opdateret kerne til mange forskellige version pt 3.14 rc7
før fik jeg mange random fejl (panic, cpu not syncronized, double fault etc.)
nu får jeg kun overstående
håber nogen kan pege mig i den rigtige retning.
Kommentarer4
Ser ud til at andre også
http://web.archiveorange.com/archive/v/wmeLDn0Ji9vK4jWz5M3m
Jeg er også ret sikker på
Efter kernel updates ser jeg kun igb relaterede fejl og ikke de før random panics.
Jeg prøvede at deaktivere den indbygget bonding funktion og deaktivere eth1 i bios
Det gør at den køre noget længere inden crash.
kørte 2 timer inden crash imod de før 5-15 min
#1
Jeg havde godt nok se den tråd, der er også lignende med realtek netkort.
Men jeg kan ikke finde nogen løsning nogen steder desværre.
varme
#3Temp er der styr påcpu
Temp er der styr på
cpu og mb ligger pænt omkring 40-50 grader ifg IPMI
Jeg har prøvet at disable så meget offload som muligt
det giver desværre stadig samme resultat
ethtool --offload eth0 rx off
ethtool --offload eth0 tx off
ethtool --offload eth0 sg off
ethtool --offload eth0 tso off
ethtool --offload eth0 ufo off
ethtool --offload eth0 gso off
ethtool --offload eth0 gro off
ethtool --offload eth0 lro off
ethtool --offload eth0 rxvlan off
ethtool --offload eth0 txvlan off
ethtool --offload eth0 rxhash off