[SAGE-MUC] Erfahrungsaustausch Monitoring unter UNIX/Linux

Hermann Biller syb at syb.de
Mi Mai 26 22:09:03 CEST 2010


Hallo zusammen,

ich antworte hier einmal stellvertretend. Die Frage wozu das Monitoring 
gebraucht wird, war nicht ganz unpassend. Deshalb hier etwas genaueres:

Unser Monitoring ist fuer ca. 150 Linux/Solaris-Server und Linux 
Workstations der Pharma Forschung. Wir haben eine ziemlich breite 
Palette. Beowulf Cluster, Chemische Analyse Workstations, Oracle 
Cluster, OCFS und Redhat Cluster Filesystem... um ein paar zu nennen. 
Wir haben kaum wirklich hohe Verfuegbarkeit. Es ist eher die 
Komplexizitaet, um alle wissenschaftlichen Applikation miteinander 
laufen zu lassen. Performance ist ein wichtiger Faktor. Ausserdem werden 
die Applikation von allen Niederlassungen rund um die Welt genutzt. Hier 
noch einige Details, was wir wofuer einsetzen:

Spong:
- Ist im Einsatz fuer Ueberwachung und Alarming. z.B. es schickt einen 
zeitversetzen Alarm per SMS. Nach 20 min Verzoegerung, hat sich in der 
Regel alles wieder ergeben, was durch kurzfristige Netzprobleme oder 
kurzfristig hohen load verursacht wurde. Testet server und clientseitig.
- Die Syslog Analyse funktioniert mit perl regexp.
- Die Darstellung ist sehr kompakt und meiner Meinung nach 
uebersichtlich. Ich mach mal 'nen screenshot.
- Mit selbstgeschriebenen perl modulen ueberwachen wir auch die 
Verfuegbarkeit von wissenschaftlichen Applikationen und lassen damit die 
Application Manager alarmieren.

Ganglia:
- Graphische Darstellung von Performance und Verfuegbarkeit: 
Funktioniert bestens mit allen Arten von Clustern (wir haben beowulf und 
high availability cluster) . Nutzt MRTG (RRD database)
- Die Grafische Darstellung unterstuetzt auch bei der root cause 
analysys. Wir haben immer wieder crashes, da ein grosser Teil der 
Software von den Forschen selbstentwickelt ist und Linux nicht ganz so 
stabil ist, wie Solaris oder IRIX.

SAR:
kennt Ihr wirklich sar nicht? Dann gebt bitte mal sar auf eurem 
UNIX/Linux ein. Wir verwenden es fuer hartnaeckige Probleme ueber lange 
Zeitraeume um den jeweiligen Zustand der  Systemumgebung zu untersuchen.

Alles sind ziemlich einfache tools. (Was mir persoenlich auch 
sympathisch ist.)

Gruss, Hermann

Am 23.05.2010 22:14, schrieb Sascha Haupt:
>    
>> Hallo zusammen,
>>
>> ich bin gerade dabei zu sehen, was es im Monitoring-Bereich gibt. Wir
>> verwenden momentan folgendes Konzept:
>> 1. Spong: 100% perl basiertes Monitoring mit einem sehr komprimierten
>> HTML-Ampeldarstellung. Bis zu 200 Systeme ganz ok.
>> 2. Ganglia fuer Management Grafiken B-). rrd-basiert. D.h. alte Daten
>> werden nivelliert aufgrund der Mittelwert Bildung
>> 3. SAR output alle 10 min fuer 2 Jahre oder laenger aufbewahrt, um
>> wiederkehrende Muster zu erkennen. (Ein Format, das man vermutlich auch
>> noch in 2 Jahren lesen kann B-) )
>>
>> Im Prinzip bin ich sehr zufrieden. Allerdings ist die Zusammensetzung
>> ziemlich antik. Das Problem der Löhnware war bisher, dass der Aufwand
>> sehr hoch ist und die Darstellung nicht sehr uebersichtlich ist..
>> (Aufwand fuer die Initialkonfiguration oder fuer die Erstellung eigener
>> neuer Module)
>>
>> Gruss, Hermann
>>
>> --
>> ------------------------------------------------------------------------------
>> Privat / private
>> Hermann Biller
>> Schuhmacherstr. 32, D-79418 Schliengen
>> Tel.: +497635822263, +41798285488
>>      
>
> Wo liegt denn der Focus des Monitorings? Mehr auf Verfügbarkeit und
> Alarmierung bei Ausfällen, oder eher auf der Erfassung von
> Performance-Daten oder ähnlichem?
>
> Die oben genannten Lösungen kenne ich nicht. Ich lese aber daraus, dass es
> eher in Richtung Performance-Daten geht. Ein mögliches Monitoring Tool
> dazu wäre Munin. Damit kann man recht einfach Performance-Daten erfassen
> und diese in Round-Robin Datenbanken speichern. Munin zeichnet dazu auch
> automatisch schöne Graphen und das ganze funktioniert auch über das
> Netzwerk. Es werden viele Plugins für verschiedene Messdaten mitgeliefert
> (z.B. Netzwerk-IO, Plattenfehler, etc.) oder man kann diese auch sehr
> leicht selber skripten (Programmiersprache ist dabei vollkommen frei
> wählbar).
> Ob Munin auch Alarmierungen kann weis ich auswendig nicht. Das müsste man
> mal nachschauen.
>
> Ansonsten gibt es noch die Klassiker: Zabbix, Nagios, Multi Router Traffic
> Grapher (MRTG) und Zenoss. Die Systeme haben wohl alle so Ihre Vor- und
> Nachteile. Ich denke da hilft nur ausprobieren und entscheiden was einem
> selbst am besten gefällt.
>
> Alle genannten Systeme sind btw. OpenSource.
>
> Gruß
>
> Sascha
>
>
> _______________________________________________
> SAGE-MUC mailing list
> SAGE-MUC at guug.de
> http://lists.guug.de/mailman/listinfo/sage-muc
>
>
>    


-- 
------------------------------------------------------------------------------
Privat / private
Hermann Biller
Schuhmacherstr. 32, D-79418 Schliengen
Tel.: +497635822263, +41798285488
------------------------------------------------------------------------------