Mit Überwachungstools ist die Linuxfamilie reichlich gesegnet.
Seit mehreren Jahren setze ich collectd ein. Dieser Daemon schreibt fortwährend Perfomancedaten im rrd Format auf die Platte und ist netzfähig.
Das umwerfende an collectd ist seine einfache Konfiguration.
Das meiner Meinung nach am einfachsten zu verwendende grafische Interface ist CGP (Collectd Grafik Panel)
Auf Buster musste ich ein wenig fummeln, bis es wieder lief.
Es war zu lange her, dass ich damit was zu tun hatte, weil es einfach lief 
Lange Rede kurzer Sinn:
Damit die Grafiken dargestellt werden können, muss Open_basedir angepasst werden:
|
/var/lib/collectd/rrd:/usr/bin: |
Mit dem Plugin Processes habe ich ein wenig rumgespielt, dabei ist mir eine fehlende Grafik im CGP aufgefallen.
Im Apache error.log fand ich:
ERROR: No DS called 'value' in '/var/lib/collectd/rrd/domain.de/processes-pg_autovacuum/io_ops.rrd'
Ich habe es so gelöst.
in CGP/inc/types.db
Added
io_ops read:DERIVE:0:U, write:DERIVE:0:U
und in
CGP/plugin/processes.json
Added
"ps_io_ops": {
"title": "IO Operations ({{PI}}) on {{HOST}}",
"vertical": "Ops per second",
"type": "io",
"legend": {
"read": {
"name": "Read",
"color": "0000ff"
},
"write": {
"name": "Write",
"color": "00b000"
}
},
Warum blogge darüber nach ca. 6 Jahren Einsatz erst jetzt? Damit ich beim nächsten Mal wenigstens schon mal einen Eintrag habe 
Im Ernst, gerade heute hatte ich mich gewundert, warum der Server so einen stark erhöhten Load hat, wo er doch meist nur vor sich rum dümpelt. Ich gebe zu, ich hatte erst wieder einen ungebetenen Gast in Verdacht und fahndete nach einen nicht vorhandenen Geist. Doch dann fiel mir ein, dass Softraid alle 4 Wochen Sonntags immer einen Check durchführte....
Bingo! # dmesg -T |grep md:
[Mon Jan 20 03:42:11 2020] md: data-check of RAID array md0
[Mon Jan 20 03:42:11 2020] md: delaying data-check of md1 until md0 has finished (they share one or more physical units)
[Mon Jan 20 03:42:15 2020] md: md0: data-check done.
[Mon Jan 20 03:42:16 2020] md: data-check of RAID array md1
Schön, das war also geklärt 
(Wenn der Check fertig ist, momentan ist er bei:
cat /proc/mdstat |grep check
[===================>.] check = 99.6% (2919523968/2929609152) finish=7.4min speed=22487K/sec
Achso, also gleich fertig, dann warte ich noch die paar Minuten und schreibe gleich weiter 
# dmesg -T |grep md:
[Mon Jan 20 03:42:11 2020] md: data-check of RAID array md0
[Mon Jan 20 03:42:11 2020] md: delaying data-check of md1 until md0 has finished (they share one or more physical units)
[Mon Jan 20 03:42:15 2020] md: md0: data-check done.
[Mon Jan 20 03:42:16 2020] md: data-check of RAID array md1
[Mon Jan 20 19:25:31 2020] md: md1: data-check done.
Der Check hat also knapp 16 Stunden gedauert und mich dadurch mit vielen (ca. 50 email vom Monitoring System) genervt.
Zu den Benachrichtitungen schreibe nochmal einen Extra Artikel, momentan ist das nämlich nicht mit Collectd realisiert. Dabei sollte ich gleich diesen vorhersehbaren Load Anstieg berücksichtigen und die Schwellwerte in der Zeit anpassen.
Zum Abschluß heute noch einen Screenshot der Load Grafik, die sich sehr gut mit dem dmesg Eintrag deckt.
Ich habe die Kombi png / Canvas eingestellt, dadurch kann ich in der Detailansicht sehr fein zoomen.
Ps: Bei Buster ist der Cronjob anders eingestellt, nämlich immer am 20. des Monats
42 3 20 * * root if [ -x /usr/share/mdadm/checkarray ]; then /usr/share/mdadm/checkarray --cron --all --idle --quiet; fi
Beim Durchsehen der Statistiken ist mir besonders beim Disk Traffic aufgefallen, dass ich mir die Bösewicht Sucherei wirklich hätte schenken können, dieses Bild ist eher unüblich für malware.
Update 02.03.2020
Anstatt die inctypesdb zu editieren einfach das Original von collectd verwenden.
Das behebt auch die anderen leeren Grafiken bei disk und smart 
cd CGP
cp /usr/share/collectd/types.db inc/types.db
Update: 04.03.2020
Die DF Anzeige war mir viel zu unübersichtlich und 10fach gemoppelt.
Ich habe nun die folgenden Plugin Parameter und bin damit zufrieden.
# ignore rootfs; else, the root file-system would appear twice, causing
# one of the updates to fail and spam the log
# FSType rootfs
FSType "ext3"
FSType "ext4"
MountPoint "/boot"
MountPoint "/home"
MountPoint "/var"
MountPoint "/tmp"
MountPoint "/home/cloud"
IgnoreSelected false
ReportInodes True
# ValuesAbsolute true
# ValuesPercentage false
</Plugin>
Update: 07.03.2020
Im erweiterten Eintrag wird das konfigurieren der Notifications besprochen.
Continue reading "Den Überblick behalten: collectd (update)" »