Vor mehr als 2 Jahren war hier das letzte Bilderrätsel.
Da wird es mal wieder zeit.
Also:
Ein erfahrener Admin wird es sofort erkennen....
Nicht den erweiterten Teil anklicken sondern überlegen, was den Load verursacht haben könnte.
Im erweiterten Teil gibt es ein zweites Bild mit der Auflösung.
@Planetenleser: der Anreißer ist hier funktionell notwendig, da andererseits die Lösung ja sofort sichtbar wäre.
Ich habe mal die zwei seperaten Images kombiniert, weil es dann noch deutlicher wird.
Der Server hat eine neue Festplatte bekommen. Das Softraid wurde rebuilded, deshalb die anhaltenden Schreib-Lese Operationen.
Die sda war alt und müde, sie warf im 2-5 Tage Rhythmus Fehler und hat immer 30 Sekunden gebraucht, wenn man sie mit smartctl befragt hat.
Nachdem Hetzner von mir informiert wurde, kam recht schnell die Frage nach einem Terminwunsch.
"jederzeit" antwortete ich, dachte aber nicht, dass es SO schnell ging.
(deshalb der Ausfall von 10:30 bis 11:40)
Naja besser zu schnell als zu spät.
[Sun Dec 20 11:54:12 2015] RAID1 conf printout:
[Sun Dec 20 11:54:12 2015] --- wd:1 rd:2
[Sun Dec 20 11:54:12 2015] disk 0, wo:0, o:1, dev:sdb2
[Sun Dec 20 11:54:12 2015] disk 1, wo:1, o:1, dev:sda2
[Sun Dec 20 11:54:12 2015] md: recovery of RAID array md1
[Sun Dec 20 11:54:12 2015] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
[Sun Dec 20 11:54:12 2015] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[Sun Dec 20 11:54:12 2015] md: using 128k window, over a total of 2929739071k.
[Sun Dec 20 11:54:22 2015] md: bind<sda1>
[Sun Dec 20 11:54:22 2015] RAID1 conf printout:
[Sun Dec 20 11:54:22 2015] --- wd:1 rd:2
[Sun Dec 20 11:54:22 2015] disk 0, wo:0, o:1, dev:sdb1
[Sun Dec 20 11:54:22 2015] disk 1, wo:1, o:1, dev:sda1
[Sun Dec 20 11:54:22 2015] md: delaying recovery of md0 until md1 has finished (they share one or more physical units)
[Sun Dec 20 17:01:12 2015] perf interrupt took too long (2502 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
[Mon Dec 21 02:15:13 2015] md: md1: recovery done.
[Mon Dec 21 02:15:13 2015] md: recovery of RAID array md0
[Mon Dec 21 02:15:13 2015] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
[Mon Dec 21 02:15:13 2015] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[Mon Dec 21 02:15:13 2015] md: using 128k window, over a total of 524276k.
[Mon Dec 21 02:15:13 2015] RAID1 conf printout:
[Mon Dec 21 02:15:13 2015] --- wd:2 rd:2
[Mon Dec 21 02:15:13 2015] disk 0, wo:0, o:1, dev:sdb2
[Mon Dec 21 02:15:13 2015] disk 1, wo:0, o:1, dev:sda2
[Mon Dec 21 02:15:19 2015] md: md0: recovery done.
Hetzner hat übrigens in seinem Wiki einen schönen Artikel, der notwendigen Massnahmen beschreibt, wie das System wieder zum laufen gebracht wird.
Mir war das Script sgdisk noch nicht bekannt. Kein Wunder, mein letzter Harddisk Wechsel war auch schon ein paar Jahre her und da gab es GPT noch nicht.
Warum ich die sda Platte tauschen ließ?
Die Harddisk sdb benötigt für den Health check nur 0.45 Sekunden.
Die Harddisk sda benötigt für den Health Check lange 27.7 Sekunden
Andere Ausgaben wie z.B. -a sind ebenfalls genauso langsam.
In dmesg fand ich beispielsweise:
[Thu Dec 10 19:34:34 2015] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[Thu Dec 10 19:34:34 2015] ata1.00: failed command: SMART
[Thu Dec 10 19:34:34 2015] ata1.00: cmd b0/d0:01:00:4f:c2/00:00:00:00:00/00 tag 27 pio 512 in
res 40/00:ff:00:00:00/00:00:00:00:00/40 Emask 0x4 (timeout)
[Thu Dec 10 19:34:34 2015] ata1.00: status: { DRDY }
[Thu Dec 10 19:34:34 2015] ata1: hard resetting link
[Thu Dec 10 19:34:40 2015] ata1: link is slow to respond, please be patient (ready=0)
[Thu Dec 10 19:34:41 2015] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[Thu Dec 10 19:34:41 2015] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20140424/psargs-359)
[Thu Dec 10 19:34:41 2015] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff88041e856ec8), AE_NOT_FOUND (20140424/psparse-536)
[Thu Dec 10 19:34:41 2015] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20140424/psargs-359)
[Thu Dec 10 19:34:41 2015] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff88041e856ec8), AE_NOT_FOUND (20140424/psparse-536)
[Thu Dec 10 19:34:41 2015] ata1.00: configured for UDMA/133
[Thu Dec 10 19:34:41 2015] ata1: EH complete
[Sat Dec 12 14:12:24 2015] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[Sat Dec 12 14:12:24 2015] ata1.00: failed command: SMART
[Sat Dec 12 14:12:24 2015] ata1.00: cmd b0/d0:01:00:4f:c2/00:00:00:00:00/00 tag 20 pio 512 in
res 40/00:01:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[Sat Dec 12 14:12:24 2015] ata1.00: status: { DRDY }
[Sat Dec 12 14:12:24 2015] ata1: hard resetting link
[Sat Dec 12 14:12:29 2015] ata1: link is slow to respond, please be patient (ready=0)
[Sat Dec 12 14:12:30 2015] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[Sat Dec 12 14:12:30 2015] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20140424/psargs-359)
[Sat Dec 12 14:12:30 2015] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff88041e856ec8), AE_NOT_FOUND (20140424/psparse-536)
[Sat Dec 12 14:12:30 2015] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20140424/psargs-359)
[Sat Dec 12 14:12:30 2015] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff88041e856ec8), AE_NOT_FOUND (20140424/psparse-536)
[Sat Dec 12 14:12:30 2015] ata1.00: configured for UDMA/133
[Sat Dec 12 14:12:30 2015] ata1: EH complete
[Tue Dec 15 02:47:10 2015] md: data-check of RAID array md0
[Tue Dec 15 02:47:10 2015] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
[Tue Dec 15 02:47:10 2015] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[Tue Dec 15 02:47:10 2015] md: using 128k window, over a total of 524276k.
[Tue Dec 15 02:47:10 2015] md: delaying data-check of md1 until md0 has finished (they share one or more physical units)
[Tue Dec 15 02:47:53 2015] md: md0: data-check done.
[Tue Dec 15 02:47:53 2015] md: data-check of RAID array md1
[Tue Dec 15 02:47:53 2015] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
[Tue Dec 15 02:47:53 2015] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[Tue Dec 15 02:47:53 2015] md: using 128k window, over a total of 2929739071k.
[Tue Dec 15 13:23:58 2015] md: md1: data-check done.
Wo ist dann nun das Rätsel?
Ich gebe zu, der Titel ist nicht so doll. Ich wollte nur nicht zum x-ten mal Plattentausch nehmen Das Rätsel habe ich mir so gedacht. Nicht den erweiterten Teil anklicken und darauf kommen, was den Load verursacht hat. sollte ich wohl noch mal nachtragen