Neuer Best Practice Guide von CCSS zeigt, wie man sein Budget schonen kann. Denn Ausfälle sind teurer, Schäden in Millionenhöhe nicht ausgeschlossen.



CCSS, Software Entwickler für IBM i und Power Systems, veröffentlicht einen neuen Best Practice Guide für System Manager. Dieser Guide ist der neueste aus einer Folge von Guides, die von CCSS geschrieben wurden, um Schlüsselthemen und signifikante Herausforderungen im Bereich Systems Management hervorzuheben. Behandelt werden Job Monitoring und wie IT Manager durch den Einsatz effektiver Lösungen und mittels proaktivem Ansatz erheblich dazu beitragen können, das Budget Ihrer Abteilung zu schonen.
Jobs, die in einer Endschlosschleife stecken („loopen“), die inaktiv werden oder einen hohen CPU-Verbrauch beanspruchen, sind allesamt problematisch für IT-Manager. Diese Übeltäter bergen das Potenzial in sich, finanzielle Konsequenzen erdrutschartig auszulösen, die sich auch in den sechs- bis siebenstelligen Euro-Bereich ausweiten können, je nach Bedeutung der Jobs und der Zeit, die verstreicht, bis die Fehlfunktion entdeckt wird. Ungelöste und unkontrollierte Probleme mit Jobs können das Alltagsgeschäft der Endanwender beeinflussen, verlangsamen oder gar zum Stillstand bringen. Wenn solche Fehler auftreten, erfordern sie zusätzliche Aufwendungen, um die schädlichen Auswirkungen in Grenzen zu halten und Downtimes oder sogar damit verbundene Strafgebühren zu vermeiden.
Plötzliche Änderungen in Performance oder Status eines Jobs sind Warnsignale dafür, dass die Funktion des Jobs gestört ist. Dies kann zu schädlichen Auswirkungen führen, wenn nicht frühzeitig eingegriffen wird, oder vom System Manager ausgedehnte Ursachenforschung erfordern. Im Best Practice Guide wird ein Beispiel erörtert, in dem ein anhaltend hoher CPU-Verbrauch auf einem System festgestellt wird, auf dem mehrere QZDASOINIT-Jobs mehr CPU beanspruchen, als sie sollten. In diesem Fall sieht sich der IT Manager der Aufgabe gestellt, den oder die verursachenden Jobs zu identifizieren, wobei sich viele dann auch noch denselben Namen teilen. Zwischenzeitlich führen die Systemeinbußen auch beim Endanwender zu fünfzigprozentigen Leistungsabfällen, die unter finanziellem Aspekt schon als „halbe Downtime“ gewertet werden kann. Kosten entstehen durch zusätzlichen Aufwand zur Schadensbehebung, aber auch durch die verminderte Leistungskapazität der Systeme. Summiert man alle Kosten gleichartiger Fälle in einem Netzwerk, dann erhält man den Betrag, der für das Fehlen einer professionellen Job MonitoringLösung zu veranschlagen wäre.
Ray Wright, CEO von CCSS sagt: „Solche „rogue jobs“ sind ein Problem, dem nahezu jeder IT Manager in seiner Karriere schon einmal begegnet ist. Im Systems Management dient ein effektives Job Monitoring dazu, die Sichtbarkeit derartiger Störungen zu erhöhen und die Zeit zu reduzieren, die für die Behebung des Problems erforderlich ist. Dieser proaktive Ansatz zielt nicht nur auf die Wurzel, sondern verhindert auch alle anderen möglichen Probleme, die durch solche Situationen hervorgerufen werden können. Unser Best Practice Guide geht von einem ganzheitlichen Ansatz aus und widmet sich detailliert den verschiedenen Problemtypen mit ihren Konsequenzen und den dazugehörigen Lösungsmöglichkeiten.“


Der Guide gibt Hilfestellung beim Einsatz der richtigen Überwachungsparameter, unter Berücksichtigung verschiedener Aspekte wie Job-Performance-Werte oder Jobstatus. Er zeigt, wie Manager nicht nur kritische Jobs identifizieren können, sondern hilft auch den Ursachen auf den Grund zu gehen. Er verweist auch auf Fälle, in denen Ursachen schwieriger zu identifizieren sind oder sogar fehlerhafte Rückschlüsse gezogen werden, beides Fälle, in denen IT Manager in aller Regel sehr dankbar für die richtigen Hinweise sind. Als Beispiel nehmen wir an, dass die Anwender beim Helpdesk mangelnde Performance reklamieren. Vermutet wird als Ursache ein Programm, das auf ein Objekt zugreifen möchte, das gerade von einem anderen Job benutzt wird. Der Anwender glaubt noch an eine Verzögerung, während in Wirklichkeit die Anwendung durch eine Objektsperre blockiert ist. Es kann schwierig sein, solche durch Objektsperren erzeugte Probleme ohne Monitoring zu diagnostizieren.


QSystem Monitor liefert neben dem Messwert „Average lock wait time per transaction for interactive users“ zahlreiche weitere Einblicke und Kennzahlen für den Gesundheitszustand der Systeme. Die Performance Monitoring und Reporting Lösung von CCSS hilft IT Managern, rechtzeitig in kritischen Situationen gewarnt zu sein und proaktiv das Budget für den IT-Betrieb effizient zu nutzen.


CCSS : IBM i, System i, iSeries, AS/400 Real-time Performance System Monitoring, Automation and Message Management