Symbolic Data Representation of Multi-Variate Machine Measurement Data to Identify Quasi-Linguistic Patterns with Machine Learning

Titel in Übersetzung: Symbolisierte Datenrepräsentation in Kombination mit maschinellem Lernen zur Identifizierung von quasi-linguistischen Mustern in multivariaten Maschinendaten

Philip Nuser

Publikation: Thesis / Studienabschlussarbeiten und HabilitationsschriftenMasterarbeit

25 Downloads (Pure)

Abstract

Diese Masterarbeit untersucht die Erkennung von Anomalien in multivariaten Zeitreihen-Daten mit Sprachmodellen aus der Computerlinguistik. Die Grundlage bildet die Umwandlung der numerischen Maschinendaten in tokenisierte Daten, ähnlich zu Text. Der Prozess der Tokenisierung wird durch Diskretisierung der Daten und Zuweisung eindeutiger Token zu den diskreten Werten realisiert. Die so erhaltenen symbolischen Zeitreihen wurden dann mit zwei unterschiedlichen Ansätzen auf Anomalien untersucht.
Der erste Ansatz basiert auf N-Gramm Sprachmodellen. Ein N-Gramm ist eine Sequenz von Wörtern der Länge n. Die Anzahl der N-Gramme im Datensatz wird berechnet und mit einem statistischen Maß zur Beurteilung der Relevanz von Termen in einem Textkörper, dem Tf-idf-Maß, gewichtet. Dieses Maß dient als Grundlage zur Erkennung von Anomalien. Die Idee dahinter ist, dass N-Gramme, welche selten im gesamten Textkorpus vorkommen, auf außergewöhnliches Verhalten hindeuten.
Der zweite vorgestellte Ansatz nutzt maschinelles Lernen für die Erkennung von Anomalien im tokenisierten Datensatz. Dafür wurde ein Transformer-Modell programmiert, welches normalerweise zur Sprachmodellierung benutzt wird. Das Modell erhält eine Symbolsequenz, in der zufällige Einträge durch einen Masken-Token ersetzt werden, und versucht, die originalle numerische Sequenz wiederherzustellen. Weicht die Rekonstruktion stark vom Original ab, sind Anomalien im Datensatz zu erwarten. Beide Methoden wurden erfolgreich an einem Datensatz, der von Sensoren einer Maschine zur Verbesserung der Bodenbeschaffenheit für Gebäudefundamente stammt, angewandt. Die Auswertung der Ergebnisse hat gezeigt, dass eine Anomalieerkennung mit den entwickelten Ansätzen möglich ist und rechtfertigt besonders die Weiterentwicklung des künstlichen neuronalen Modells.
Titel in ÜbersetzungSymbolisierte Datenrepräsentation in Kombination mit maschinellem Lernen zur Identifizierung von quasi-linguistischen Mustern in multivariaten Maschinendaten
OriginalspracheEnglisch
QualifikationDipl.-Ing.
Gradverleihende Hochschule
  • Montanuniversität
Betreuer/-in / Berater/-in
  • O'Leary, Paul, Betreuer (intern)
Datum der Bewilligung15 Dez. 2023
DOIs
PublikationsstatusVeröffentlicht - 2023

Bibliographische Notiz

nicht gesperrt

Schlagwörter

  • Anomalieerkennung
  • multivariat
  • Zeitreihe
  • Maschinendaten
  • maschinelles Lernen
  • künstliche Intelligenz
  • unbeaufsichtigtes Lernen
  • linguistische Methoden
  • neuronales Netzwerk
  • Transformer
  • Attention
  • Self-Attention
  • großes Sprachmodell
  • Tokenisierung
  • Diskretisierung
  • Statistik
  • maskiertes Sprachmodell
  • BERT
  • symbolische Daten
  • n-Gramm
  • Bag-of-words
  • Bag-of-ngrams
  • term frequency-inverse document frequency
  • TF-IDF

Dieses zitieren