10

10 Knime-Tipps, die ich gerne von Anfang an gewusst hätte

Hast Du eine ETL-Denkblockade oder verursachen die Daten Fehler im ETL-Prozess? Zehn Tipps, um mit Knime jedes Daten-Problem zu lösen.

Tipps rund um Knime, um ETL zu vereinfachen

Knime – DAS Schweizer-Taschenmeser für ETL

Seit 2018 arbeite ich fast täglich mit Knime. Unterstütze andere „Knimer“ bei Problemen oder Fragen mit Tipps, Tricks und Lösungen.

Als Mitglied des „Community Hacking Teams“ (bestehend aus 25 UAT-Testern für neue Releases) und als einer der Top Poster findest Du hier meine zehn Tipps zur Nutzung von Knime. Diese beweisen sich immer wieder als Hilfestellung bei Daten-Problemen.

Top Tipp #1

Traue niemals blind den Daten

Top Tip #5

Row Index „ist King“

Top Tipp #8

Denke an das Unsichtbare

Tipp #1

Traue niemals blind den Daten

oder mache Dich immer vertaut mit ihnen!

Menschen machen Fehler, viele Fehler. Der GroupBy Node hilft Dir, Dich mit den Daten vertraut zu machen. Und prüfe unbedingt auf fehlende oder duplizierte Daten!

Tipp #2

Prüfe Ergebnisse doppelt

ETL-Automationen und die Einfachheit von Knime vermitteln eine trügerische Sicherheit. Analysiere eine Stichprobe, um das Ergebnis doppelt zu prüfen oder versuche über eine andere Methode, das Ergebnis zu reproduzieren.

Tipp #3

Reduziere Daten

oder fokussiere auf das Notwendige

Überspitzt formuliert „Die beste Tabelle, ist keine Tabelle“ … will heißen, arbeite nur mit den notwendigen Daten. Nutze die Column Splitter und Appender Nodes bzw. Row Splitter und Concatenate.

Randnotiz … lies Tipp #5 „Row Index ist King„!

Tipp #4

Restrukturiere Daten

Schrecke nicht davor zurück, Tabellen aufzubrechen. Nutze den Unpivot Node, um eine neue Perspektive zu gewinnen.

Tipp #5

Row Index ist King

Extrahiere ihn mittels „TRUE => $$ROWINDEX$$“ via Rule Engine, um trotz Separation und Transformation, die Daten wieder zusammenzufügen.

Tipp #6

Nimm Abstand

Frage dich „würde es auch anders herum funktionieren“ oder „wenn es funktionieren soll, wie müssen die Daten aussehen“.

Wird unkonventionelles Denken zur Gewohnheit oder gar zum Muskelgedächtnis, ist nur Deine Vorstellungskraft die Grenze. Knime gestattet unendliche Möglichkeiten, nutze sie!

Scheitert alles, die Knime Community ist für Dich da. Allein das Niederschreiben einer Herausforderung fokussiert deine Gedanken und bringt oft Klarheit und neue Ideen.

Tipp #7

Muster überall

RegEx & XPath, obwohl komplex, sind Deine Freunde!

Anstatt alle Daten auf einmal zu extrahieren, separiere zuerst XML Child-Nodes. Nutze RegEx, um das, was Du nicht willst, zu entfernen und um die Daten-Extrahierung schrittweise zu vereinfachen.

Wenn die Extraktion der Daten schwer ist, erinnere Dich an Tipp #3 „vereinfache“ und Tipp #6 „Nimm Abstand“.

Schau Dir diesen Knime Forum Post und diesen Knime Workflow an. Sie zeigen deutlich wie wichtig Vereinfachung und XPath sind.

Tipp #8

Denke an das Unsichtbare

Schlägt die Verarbeitung von Daten fehl, können unsichtbare Steuerzeichen, auch non-printing characters (NPC) genannt, die Ursache sein.

Nutze den String Cleaner Node oder die Knime Component von takbbString Emoji and Character Class Filter„.

Alternativ, nutze RegEx, um reguläre Zeichen zu entfernen. Prüfe dann den String in einem Editor, ich nutze etwa Sublime, auf unerwünschte Zeichen (Tipp #7).

Tipp #9

Kombiniere un-kombinierbares

Um Fragen zu finden, an die bisher nicht gedacht wurde, kombiniere Daten neu. Auch, wenn es nur zum Üben ist.

Denn Einblicke entstehen erst, wenn Verknüpfungen gezogen werden.

Hier noch eine interessante Lektüre: „Will they blend?„. Das eBook von Knime bietet viele Ideen.

Tipp #10

Gib nie auf!

Wissen und Erkentnisse kommen aus Verknüpfungen von Daten. Weisheit aus der Knüpfung von Ernkentnissen.

Aber nur Können kann alles zutage fördern!

Mike Wiegand

Projekt Manager bei Tech Mahindra für BASF – LinkedIn / XING

Online Projekt Manager, Experte in ETL-/ Daten- und Prozessautomatisierung mit Knime, Konversion- & SEO Optimierung

+49(0)170 – 325 713 9
info@atmedia-marketing.com

Kontakt

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.