Artikel

Prognosen im Zeitalter des Internet of Things

von Galit Shmueli, National Tsing Hua University

Prognosen zukünftiger Zeitreihenwerte sind eine häufig genutzte Datenanalysemethode für geschäftliche und industrielle Zwecke. In vielen Unternehmensabteilungen werden beispielsweise Vorhersagen für die Verkaufszahlen des jeweils nächsten Quartals, für die monatliche Nachfrage oder auch für die verfügbaren Kapazitäten aufgestellt, um auf dieser Basis Pläne auszuarbeiten und die betrieblichen Abläufe bewerten zu können. Im Zeitalter von Big Data hat sich der Anwendungsbereich der Prognostik nun erweitert, was sowohl neue Herausforderungen als auch neue Chancen mit sich bringt.

Im Kontext von Zeitreihen ist mit „Big Data“ eine große Sammlung von Zeitreihen gemeint. Solch große Zeitreihendatensätze kommen beispielsweise zustande, wenn die Daten Tausender Luftqualitäts- oder Energieeffizienzmessgeräte erfasst werden. Mittlerweile gibt es bereits zahlreiche riesige Datenbestände dieser Art, da Unternehmen mit performanten Datenerfassungssystemen sowie kostengünstigen, kapazitätsstarken Speichermöglichkeiten arbeiten und von einer blitzschnellen Datenübertragung profitieren. Ein alltägliches Beispiel eines Datenerfassungssystems sind Smartphones, die jeden Tag Daten zu unserem Verhalten sammeln, oder aber auch das Internet der Dinge, sprich Computergeräte, die überall im Alltag integriert und mit dem Internet verbunden sind – so etwa Smart-Home-Geräte (z. B. Smart-Temperaturregler, -Kaffeemaschinen oder Roboterstaubsauger), Smart-Wearables (z. B. Fitnesstracker, Laufschuhe), Spielzeuge, Umweltsensoren wie etwa Luftqualitätsmesser, Verkehrssensoren usw. Einige Unternehmen speichern auch Zeitreihendaten von Sensoren, die Daten zur Temperatur oder Luftfeuchtigkeit, zur Windgeschwindigkeit für Luftturbinen oder zu Objektbewegungen und Ausfällen im Fertigungsprozess aufzeichnen.

Im Vergleich zur Zeitreihenanalyse, bei der relevante Muster in einer Zeitreihe identifiziert und Hypothesen zu den Parametern getestet werden, geht es bei der Zeitreihenprognostik darum, Vorhersagen für zukünftige Zeiträume zu erstellen. Es ist dafür also eine andere Art der Modellierung erforderlich. Obwohl zwar einige Prognosealgorithmen wie ARIMA sowohl für die Analyse als auch für die Prognostik verwendet werden können, werden sie doch auf unterschiedliche Weise angewandt und evaluiert. Zudem müssen im Rahmen von Prognosen auch praktische Belange bedacht werden, etwa ob die Daten zur Zeit der Bereitstellung zur Verfügung stehen, wie schnell die Bereitstellung erfolgt, wie viel davon automatisiert ist und wie die Prognosen im Endeffekt genutzt werden sollen (da die Vorhersagen üblicherweise eine Aktion auslösen werden).

Auch wenn das verfügbare Volumen an Zeitreihendaten weiter steigt, wird oft doch nur ein kleiner Teil dieser Datensätze benötigt, um die gewünschten Werte vorherzusagen oder nützliche Muster zu erkennen. Dabei stellen viele neue Quellen von „Big Data“-Zeitreihen heute mit größerer Häufigkeit neue Daten bereit. Statt nur quartalsweise, monatlich oder wöchentlich sind viele neue Reihen nun im Minuten- oder sogar im Sekundentakt verfügbar. Für die Prognose oder die Erkennung von Mustern sind jedoch wie erwähnt häufig nur relativ wenige dieser Daten erforderlich. Möchte man beispielsweise die Sensordaten in einem Herstellungsprozess analysieren, um betriebliche Fehlfunktionen vorherzusehen, würde man sich wahrscheinlich zunächst nur eine Stichprobe ansehen und mit verschiedenen Zeiträumen experimentieren (Minute, Stunde, Tag usw.), in denen die Daten erhoben werden.

Darüber hinaus hat die Allgegenwärtigkeit von IoT-Geräten dazu geführt, dass nun in vielen Bereichen riesige Mengen an Zeitreihen erfasst werden können. Prognosen sind hier extrem nützlich für die Planung, Evaluierung und Durchführung.

Im Laufe der vergangenen 15 Jahre, in denen ich in den USA, Indien, Taiwan und online Prognostik unterrichtet habe, konnte ich aus erster Hand miterleben, wie neue Arten von Zeitreihendaten entstanden und Unternehmen Prognosen für neuartige Zwecke erstellten. Im Rahmen ihrer Studien arbeiten meine Studenten mit einem Unternehmen an echten geschäftlichen Problemen – wobei von internationalen Großunternehmen bis hin zu Start-ups, von der Servicebranche bis zur Sharing Economy alles vertreten ist. Während unsere früheren Projekte eher die Prognose monatlicher oder vierteljährlicher Vertriebsdaten umfasste, hat sich der Fokus in den letzten Jahren auf Sammlungen großer Zeitreihendaten mit größerer Erhebungshäufigkeit, hohen Aktualisierungsraten und/oder neuen Datentypen verschoben. Beispiele sind etwa die Prognose von:

• der Belegung der Filialen einer Restaurantkette am jeweils nächsten Tag,

• dem täglichen Traffic auf Facebook-Fanseiten,

• der Kundennachfrage nach Hunderten verschiedener personalisierter Getränkeverpackungen,

• der monatlichen Nachfrage nach Hunderten von unterschiedlichen Fahrzeugteilen,

• der täglichen Anzahl an Problemberichten von Nutzern einer Online-Schulungsplattform,

• der stündlichen Verfügbarkeit aller Parkplätze eines taiwanesischen Unternehmens,

• der Nutzung/Kundenanzahl von Flughäfen, Flügen, Sharing-Economy-Taxis und -Fahrrädern.

Diese Verschiebung hinsichtlich der Datentypen und -volumen ist auch im Rahmen der M-Competition zu beobachten, einem Zeitreihenprognosewettbewerb, der 1982 zum ersten Mal veranstaltet wurde (ins Leben gerufen wurde er vom Prognoseforscher Spyros Makridakis zur Evaluierung und zum Vergleich der Genauigkeit verschiedener Prognosemethoden). Während bei dem Wettbewerb aus dem Jahre 1993 nur 29 Monatsreihen evaluiert wurden, waren es bei dem Event von 2020 bereits 100.000 hierarchische tägliche Zeitreihen von Walmart – von der SKU-Ebene aufwärts.

Wie werden Prognosealgorithmen bei diesen Anwendungsfällen genutzt? Statt dass eine einzelne oder eine Handvoll von Zeitreihen evaluiert und Prognosen nur ein einziges Mal erstellt werden, benötigen wir heute Prognosealgorithmen, die kontinuierlich (zur schnellen Aktualisierung der Vorhersagen) und auf effiziente Weise große Sammlungen an Zeitreihendaten verarbeiten können. Schnelle, flexible Algorithmen (z. B. exponentielle Glättungsmethoden und lineare Regressionsmodelle) sind dabei besonders nützlich. Darüber hinaus benötigt man für eine effiziente Verarbeitung eine Software, die leistungsfähig genug ist, um mehrere Prognosealgorithmen auf mehreren Zeitreihen anzuwenden und diesen Prozess zudem zu automatisieren, sodass er nach der Erfassung neuer Daten leicht wiederholt werden kann. JMP bietet entsprechende Funktionen an: Es werden viele verschiedene exponentielle Glättungsalgorithmen auf große Sammlungen von Zeitreihen angewendet, wobei für jede Zeitreihe das „beste“ Modell gewählt wird.

Die Prognoseberechnung ist heute im geschäftlichen sowie im industriellen Bereich kaum mehr wegzudenken – vom Start-up bis zum Großunternehmen und in allen Produkt- und Dienstleistungsbranchen verlässt man sich auf Vorhersagen. Darüber hinaus hat die Allgegenwärtigkeit von IoT-Geräten dazu geführt, dass nun in vielen Bereichen riesige Mengen an Zeitreihen erfasst werden können. Prognosen sind hier extrem nützlich für die Planung, Evaluierung und Durchführung. Effektive Big-Data-Prognosen sind jedoch nur dann möglich, wenn Vorhersagen schnell, für große Zeitreihensammlungen und auf kontinuierlicher Basis erstellt werden können. Zeitreihen enthalten heute gegebenenfalls noch zusätzliche Informationen, wie etwa Querschnitts- oder hierarchische Informationen. Die Methoden für die Erstellung und Evaluierung von Prognosen für solche Systeme sind das Forschungsobjekt von Prognosestudien.