11. 11. 2016 Susanne Greiner Real User Experience Monitoring

Wie Anomaly Detection die Alarmqualität verbessern kann

Alarme und Monitoring gehören einfach zusammen. Immer wenn ein Algorithmus oder Grenzwert verwendet wird, um zu kontrollieren ob der derzeitige Wert eines aufgezeichneten KPIs einen Alarm generieren sollte oder nicht, gibt es vier verschiedene Ergebnisse: Treffer, Verpasser, falscher Alarm und korrekte Ablehnung.

Normalerweise werden Alarme basierend auf Erfahrung und historischer Aktivität der zu messenden Größe generiert, basiert auf Zeiträumen, in denen kein Alarm ausgelöst hätte werden sollen (Standardaktivität, siehe Bild 1).
Alles unterhalb eines Grenzwertes wird dann als akzeptable Standardaktivität angesehen und sobald einer oder mehrere Werte über dem Threshold liegen, wird ein Alarm ausgelöst. Diese Art Grenzwert-basierter Alarmgenerierung ist robust gegenüber vielen Outliern und mag in Settings, wo sich der Mittelwert der Standardaktivität nicht dynamisch ändert, ausreichen (ansonsten muss auch der Grenzwert dynamisch angepasst werden). Signale können nun aber auch Anomalien enthalten, die sich ganz anders als traditionelle (mehr oder weniger extreme) Outlier äußern und trotzdem für eine zeitnahe Problemanalyse nützlich sind. Z.B. eine Veränderung der unterliegenden Wahrscheinlichkeitsverteilung oder Ähnliches (Bild 2, rot markierte Fläche) kann ein erstes Anzeichen für Instabilitäten sein und rechtzeitige Gegenmaßnahmen können helfen, ein wirkliches Problem gar nicht erst entstehen zu lassen.

Sich mit fortschrittlicheren Alarmmechanismen zu beschäftigen ist also durchaus sinnvoll. Hierbei sollten jene nicht als Ersatz für bereits gut funktionierende Strategien gedacht sein, sondern als Ergänzung. Man ist auf diese Weise einerseits in der Lage zwischen verschiedenen Arten von Anomalien zu unterscheiden, andererseits lassen sich auch Anomalien detektieren, die sonst nicht gefunden werden konnten. Dies bringt insbesondere das Monitoring via KPIs von immer komplexeren Netzwerken voran. Würth Phoenix S.r.l. beschäftigt sich momentan intensiv mit diesem Thema, um seinen Kunden wie bisher eine ausgezeichnete Alarmqualität beim Monitoring zu garantieren.

Zum Beispiel Methoden die das Gesamtsignal in mehrere Komponenten zerlegen (siehe oben) scheinen sich besonders zu bewähren. Bei dieser Vorgehensweise wird das Signal in einen Trend, in eine periodische Komponente und das Restsignal zerlegt. Das Restsignal ist für die genauere Analyse besonders relevant.

Wie kann so eine kompliziertere Analyse helfen noch bessere Alarme zu erzeugen?
Der Nutzen liegt auf der Hand. Einerseits wenn ein Monitoringsystem bei einem neuen Kunden eingerichtet wird: Während traditionelle Methoden auf eine gewisse Vorlaufzeit und historische Daten für korrektes Baselining angewiesen sind, kann ein automatisiertes Verfahren beinahe sofort eingesetzt werden (auch wenn sich die Qualität selbstverständlich auch hier mit historischen Daten zunehmend verbessert).
Sehr interessant ist insbesondere die Kombination traditioneller und neuer Methoden. Wenn Anomaly Detection z.B. hilft aus einer Flut von potentiellen, traditionell ermittelten Alarmen, die vermutlich relevantesten herauszusortieren und somit falsche Alarme zu vermeiden, ist das ein großer Schritt in eine zukunftsträchtige Richtung.

Susanne Greiner

Hi there! My name is Susanne and I joined Würth-Phoenix early in 2015. Ever since I can remember computers and the perfection that can be reached by them have been very fascinating for me. I built my first personal PC using components from about 20 broken ones at the age of 11 and fell in love with open source, visualization and data analysis shortly afterwards. I hold a master in experimental physics (University of Erlangen, Germany) and a PhD in computer science (Universtiy of Trento, Italy) my main interests are machine learning, visualization techniques, statistics and optimization. As long as an algorithm of mine runs at night and I get new interesting results the morning after I am able to sleep well. Beside computers I also like music, inline skating, and skiing.

Author

Susanne Greiner

Latest posts by Susanne Greiner

26. 11. 2018 ITOA, NetEye

How to Drop a Tag in InfluxDB

21. 09. 2018 NetEye, Service Management

HackTheAlps Challenge with Würth Phoenix

04. 04. 2018 Anomaly Detection, Events, ITOA, NetEye

Würth Phoenix @ GrafanaConEu 2018

27. 03. 2018 Anomaly Detection, ITOA, NetEye, Visual Synthetic Monitoring

Multi-Level Dashboarding with Grafana – Use Case: NetEye ITOA | Alyvix

13. 11. 2017 Events, NetEye

Deep Learning – a Recent Trend and Its Potential

See All

Wie Anomaly Detection die Alarmqualität verbessern kann

Susanne Greiner

Author

Susanne Greiner

Latest posts by Susanne Greiner

Leave a Reply Cancel reply

Search by technology

Contact

Subscribe to blog

Categories

Recent posts

Archive

Wie Anomaly Detection die Alarmqualität verbessern kann

Susanne Greiner

Author

Susanne Greiner

Latest posts by Susanne Greiner

Related Content

Metrics on NetEye Monitoring

Experiences with Netflow and Machine Learning in Elastic

How to Drop a Tag in InfluxDB

Manage the Performance of your MSSQL Databases

Next Level Performance Monitoring – Part II: The Role of Machine Learning and Anomaly Detection

Leave a Reply Cancel reply

Search by technology

Contact

Subscribe to blog

Categories

Recent posts

Archive