Automatisierung zeitaufwendiger Prozesse 🔗

Dennis Hinnenkamp

🔗 Automatisierung zeitaufwendiger Prozesse

chembid ist die weltweit größte Suchmaschine für die chemische Industrie.

Seit 2017 können Chemikalieneinkäufer und -experten auf chembid.com alle im Internet verfügbaren Informationen zu Produktangeboten in Sekundenschnelle suchen und entsprechend ihrer Anforderungen miteinander vergleichen. Neben Einkäufern profitieren auch Hersteller und Händler von der Plattform, indem sie ihre Chemikalien auf chembid zentral anbieten und so erfolgreich neue Kunden für sich gewinnen können.

Mehr als 6 Millionen chemische Angebote von über 80.000 Lieferanten sind über die chembid Suchmaschine zugänglich. Um das passende Angebote oder den passenden Anbieter zu finden, können Anwender mittels intelligenter und branchenspezifischer Filter- und Suchfunktionen nach ihren Bedürfnissen selektieren.

📍 Headquarter: Oldenburg
🚀 Founded: 2016
🏢 Industry: Chemieindustrie

💪 Die Herausforderung

Millionen an chemischen Produktdaten sind über die Zusammenführung einer großen Anzahl unterschiedlicher Quellen digital verfügbar. Neben der reinen Anzahl an Datenquellen stellt dabei auch die Bandbreite an benötigten Datenpunkten eine extreme Herausforderung dar.

Als Suchmaschine und damit zentrale Anlaufstelle für den Erhalt und die händlerübergreifende Vergleichbarkeit von Produktinformationen ist chembid darauf spezialisiert, diese Masse an unstrukturierten Daten zu strukturieren und zu standardisieren. Die unterschiedlichsten Formate und Darstellungen gilt es so zu vereinheitlichen, dass über die Suchfunktionen stets die benötigten Chemikalien gefunden werden können – händlerübergreifend und miteinander vergleichbar.

"Die Datenwelt in der Chemie ist meist unstrukturiert, wenig standardisiert und daher digital aufwendig zu bearbeiten. chembid's Kernkompetenz sind Technologien und Werkzeuge, um Daten zu chemischen Produkten für digitale Dienste nutzbar zu machen. Die chembid Suchmaschine ist so ein Dienst."
Stefan Schweikart
CEO

Das Ziel des Projekts lag darin, chembid dabei zu unterstützen die bis dato teilweise individuelle Erstellung von Datenpipelines weitestgehend zu automatisieren und effiziente QA-Tools für die Weiterverarbeitung der Daten zu implementieren.

🪚 Die Umsetzung

Zu Beginn des Projekts sprachen wir gemeinsam mit Stefan (CEO) und Achim (CTO) von chembid über die Anforderungen und Zielsetzungen zur automatisierten Verarbeitung der vorhandenen Datenmengen. Im gemeinsamen Austausch entwickelten wir ein Bild über die zukünftige Toollandschaft und skizzierten Lösungswege, wie der Modern Data Stack für die Strukturierung nicht standardisierter Rohdaten eingesetzt werden kann

“Wir wollten gemeinsam herausfinden, ob der Modern Data Stack seine Stärken auch im Bereich der Produktstammdaten-Verarbeitung ausspielen kann. Dabei war eine sehr angenehme und agile Arbeitsweise der sikwel-Kollegen ein wichtiger Faktor in der Zusammenarbeit”, so Achim Mahnke (CTO).  

Um die Vollständigkeit und Vergleichbarkeit der Daten mittels moderner Datenarchitektur zu gewährleisten, startete die operative Umsetzung des Projekts mit dem Aufbau einer modernen Cloud-Infrastruktur, basierend auf folgendem Tech-Stack:

⚙️ Der Tech Stack

Zu Beginn werden die Informationen aus den verschiedensten Produktdatenblättern mitsamt  unterschiedlicher Dateiformate mit Hilfe von Airbyte in das neue Cloud Data Warehouse (snowflake) geladen.

Nach Zentralisierung der Daten im Cloud Data Warehouse, wurden die relevanten Rohdaten entsprechend der skizzierten Modellierungsvorlagen und -logiken vollautomatisch transformiert. Ein hierfür individuell entwickelter Generator wird zukünftig die Transformationsschritte entsprechend der definierten Businesslogik programmatisch erstellen. Dadurch wird es möglich sein, Datenpipelines für neue Quellen deutlich schneller als bisher zu testen und zu deployen. Dabei spielte die Möglichkeit, dbt-Transformationen in CI/CD-Prozesse einzubetten eine entscheidende Rolle.

  • Zeiteinsparung

    Die Zeitspanne von dem Moment der Identifizierung und Anbindung neuer Datenquellen bis zur Fertigstellung einer automatisierten Datenpipeline für diese Quellen ist deutlich verkürzt worden.

  • Automatisierung

    Von der Extraktion der Daten aus den vorhandenen Quellsystemen bis zur Anwendung in der Suchmaschine sind alle Workflows vollständig automatisiert. Dadurch können Datendienste und Nutzer der chemid-B2B-Suchmaschine auf einen jederzeit aktuellen Katalog chemischer Produktdaten zugreifen.

  • Wartbarkeit

    Durch den flexiblen Aufbau der Modellierungsvorlagen lassen sich notwendige Anpassungen an zentraler Stelle vornehmen und automatisiert in alle entwickelten Modelle übertragen. No Cut and Paste!

  • Erweiterbarkeit

    Der Generatoransatz erlaubt es, neue Modellvorlagen zu testen und in kürzester Zeit für alle bereits vorhandenen Pipelines auszurollen.

  • Skalierbarkeit

    Wachsen die Anforderungen, wächst die Infrastruktur mit. Unabhängig von der Anzahl der Quellsysteme ist chembid dafür gewappnet, auch in Zukunft dank flexibler Dateninfrastruktur dem Wachstum zu folgen.

Company Data Platform

🚀 Das Ergebnis

Zielsetzung war die Automatisierung stark manueller Prozesse zur Vereinheitlichung und Vergleichbarkeit von Daten. Bereits nach wenigen Wochen konnten wir Ergebnisse erzielen, die das Wachstum von chembid fortan erfolgreich unterstützen:

sikwel hat durch agiles Vorgehen, individuelle Schulung und äußerst professionelle Implementierung chembid einen “Jumpstart” in der Automatisierung von Datenpipelines ermöglicht. Erst dadurch war es so schnell möglich, eine produktive Basis für die skalierbare Entwicklung von ETL-Strecken zu legen.
Achim Mahnke
CTO
Twitter
LinkedIn
XING
Pocket
Analytics
Torben Jaacks

5 Schritte für ein erfolgreiches BI-Projekt ⚙️

Mit Hilfe von Reverse ETL gelingt es Unternehmen, automatisierte und intelligente Entscheidungen zu treffen. Von unserem Analytics Engineer Jan-Henrik erfährst du, wie Reverse ETL funktioniert, welche Vorteile es bringt und wie auch du von Reverse ETL profitieren kannst.

Read More
Data Infrastructure
Jan-Henrik Funke

Umgekehrte Datenintegration mit Reverse ETL 🚀

Mit Hilfe von Reverse ETL gelingt es Unternehmen, automatisierte und intelligente Entscheidungen zu treffen. Von unserem Analytics Engineer Jan-Henrik erfährst du, wie Reverse ETL funktioniert, welche Vorteile es bringt und wie auch du von Reverse ETL profitieren kannst.

Read More
Data Infrastructure
Dennis Hinnenkamp

Dein Weg zum Cloud Data Warehouse ☁️

Ein Cloud Data Warehouse spielt eine entscheidende Rolle auf deinem Weg zu schnellen, besseren Entscheidungen. Unser Technical Lead Dennis erklärt in unserem Blogeintrag, was dahinter steckt und welche Vorteile du mit dem Wechsel in die Cloud nutzen kannst.

Read More

Du hast eine Frage?

Torben ist unser Experte für die Konzeption von nachhaltigen Datenstrategien. Als CEO von siːkwəl und ehemaliger Chief Strategic Officer eines erfolgreichen E-Commerce-Unternehmens beantwortet er gerne deine Fragen, wie man konkrete Use Cases identifiziert und es schafft, dass Datenlösungen echten Business Impact haben.