[SAGE-MUC] Erfahrungsaustausch Monitoring unter UNIX/Linux
Hermann Biller
syb at syb.de
Mi Mai 26 22:09:03 CEST 2010
Hallo zusammen,
ich antworte hier einmal stellvertretend. Die Frage wozu das Monitoring
gebraucht wird, war nicht ganz unpassend. Deshalb hier etwas genaueres:
Unser Monitoring ist fuer ca. 150 Linux/Solaris-Server und Linux
Workstations der Pharma Forschung. Wir haben eine ziemlich breite
Palette. Beowulf Cluster, Chemische Analyse Workstations, Oracle
Cluster, OCFS und Redhat Cluster Filesystem... um ein paar zu nennen.
Wir haben kaum wirklich hohe Verfuegbarkeit. Es ist eher die
Komplexizitaet, um alle wissenschaftlichen Applikation miteinander
laufen zu lassen. Performance ist ein wichtiger Faktor. Ausserdem werden
die Applikation von allen Niederlassungen rund um die Welt genutzt. Hier
noch einige Details, was wir wofuer einsetzen:
Spong:
- Ist im Einsatz fuer Ueberwachung und Alarming. z.B. es schickt einen
zeitversetzen Alarm per SMS. Nach 20 min Verzoegerung, hat sich in der
Regel alles wieder ergeben, was durch kurzfristige Netzprobleme oder
kurzfristig hohen load verursacht wurde. Testet server und clientseitig.
- Die Syslog Analyse funktioniert mit perl regexp.
- Die Darstellung ist sehr kompakt und meiner Meinung nach
uebersichtlich. Ich mach mal 'nen screenshot.
- Mit selbstgeschriebenen perl modulen ueberwachen wir auch die
Verfuegbarkeit von wissenschaftlichen Applikationen und lassen damit die
Application Manager alarmieren.
Ganglia:
- Graphische Darstellung von Performance und Verfuegbarkeit:
Funktioniert bestens mit allen Arten von Clustern (wir haben beowulf und
high availability cluster) . Nutzt MRTG (RRD database)
- Die Grafische Darstellung unterstuetzt auch bei der root cause
analysys. Wir haben immer wieder crashes, da ein grosser Teil der
Software von den Forschen selbstentwickelt ist und Linux nicht ganz so
stabil ist, wie Solaris oder IRIX.
SAR:
kennt Ihr wirklich sar nicht? Dann gebt bitte mal sar auf eurem
UNIX/Linux ein. Wir verwenden es fuer hartnaeckige Probleme ueber lange
Zeitraeume um den jeweiligen Zustand der Systemumgebung zu untersuchen.
Alles sind ziemlich einfache tools. (Was mir persoenlich auch
sympathisch ist.)
Gruss, Hermann
Am 23.05.2010 22:14, schrieb Sascha Haupt:
>
>> Hallo zusammen,
>>
>> ich bin gerade dabei zu sehen, was es im Monitoring-Bereich gibt. Wir
>> verwenden momentan folgendes Konzept:
>> 1. Spong: 100% perl basiertes Monitoring mit einem sehr komprimierten
>> HTML-Ampeldarstellung. Bis zu 200 Systeme ganz ok.
>> 2. Ganglia fuer Management Grafiken B-). rrd-basiert. D.h. alte Daten
>> werden nivelliert aufgrund der Mittelwert Bildung
>> 3. SAR output alle 10 min fuer 2 Jahre oder laenger aufbewahrt, um
>> wiederkehrende Muster zu erkennen. (Ein Format, das man vermutlich auch
>> noch in 2 Jahren lesen kann B-) )
>>
>> Im Prinzip bin ich sehr zufrieden. Allerdings ist die Zusammensetzung
>> ziemlich antik. Das Problem der Löhnware war bisher, dass der Aufwand
>> sehr hoch ist und die Darstellung nicht sehr uebersichtlich ist..
>> (Aufwand fuer die Initialkonfiguration oder fuer die Erstellung eigener
>> neuer Module)
>>
>> Gruss, Hermann
>>
>> --
>> ------------------------------------------------------------------------------
>> Privat / private
>> Hermann Biller
>> Schuhmacherstr. 32, D-79418 Schliengen
>> Tel.: +497635822263, +41798285488
>>
>
> Wo liegt denn der Focus des Monitorings? Mehr auf Verfügbarkeit und
> Alarmierung bei Ausfällen, oder eher auf der Erfassung von
> Performance-Daten oder ähnlichem?
>
> Die oben genannten Lösungen kenne ich nicht. Ich lese aber daraus, dass es
> eher in Richtung Performance-Daten geht. Ein mögliches Monitoring Tool
> dazu wäre Munin. Damit kann man recht einfach Performance-Daten erfassen
> und diese in Round-Robin Datenbanken speichern. Munin zeichnet dazu auch
> automatisch schöne Graphen und das ganze funktioniert auch über das
> Netzwerk. Es werden viele Plugins für verschiedene Messdaten mitgeliefert
> (z.B. Netzwerk-IO, Plattenfehler, etc.) oder man kann diese auch sehr
> leicht selber skripten (Programmiersprache ist dabei vollkommen frei
> wählbar).
> Ob Munin auch Alarmierungen kann weis ich auswendig nicht. Das müsste man
> mal nachschauen.
>
> Ansonsten gibt es noch die Klassiker: Zabbix, Nagios, Multi Router Traffic
> Grapher (MRTG) und Zenoss. Die Systeme haben wohl alle so Ihre Vor- und
> Nachteile. Ich denke da hilft nur ausprobieren und entscheiden was einem
> selbst am besten gefällt.
>
> Alle genannten Systeme sind btw. OpenSource.
>
> Gruß
>
> Sascha
>
>
> _______________________________________________
> SAGE-MUC mailing list
> SAGE-MUC at guug.de
> http://lists.guug.de/mailman/listinfo/sage-muc
>
>
>
--
------------------------------------------------------------------------------
Privat / private
Hermann Biller
Schuhmacherstr. 32, D-79418 Schliengen
Tel.: +497635822263, +41798285488
------------------------------------------------------------------------------