Tipps rund um Knime, um ETL zu vereinfachen
Knime – DAS Schweizer-Taschenmeser für ETL
Seit 2018 arbeite ich fast täglich mit Knime. Unterstütze andere „Knimer“ bei Problemen oder Fragen mit Tipps, Tricks und Lösungen.
Als Mitglied des „Community Hacking Teams“ (bestehend aus 25 UAT-Testern für neue Releases) und als einer der Top Poster findest Du hier meine zehn Tipps zur Nutzung von Knime. Diese beweisen sich immer wieder als Hilfestellung bei Daten-Problemen.
Tipp #1
Traue niemals blind den Daten
oder mache Dich immer vertaut mit ihnen!
Tipp #3
Reduziere Daten
oder fokussiere auf das Notwendige
Überspitzt formuliert „Die beste Tabelle, ist keine Tabelle“ … will heißen, arbeite nur mit den notwendigen Daten. Nutze die Column Splitter und Appender Nodes bzw. Row Splitter und Concatenate.
Randnotiz … lies Tipp #5 „Row Index ist King„!
Tipp #4
Restrukturiere Daten
Tipp #5
Row Index ist King
Extrahiere ihn mittels „TRUE => $$ROWINDEX$$“ via Rule Engine, um trotz Separation und Transformation, die Daten wieder zusammenzufügen.
Tipp #6
Nimm Abstand
Wird unkonventionelles Denken zur Gewohnheit oder gar zum Muskelgedächtnis, ist nur Deine Vorstellungskraft die Grenze. Knime gestattet unendliche Möglichkeiten, nutze sie!
Scheitert alles, die Knime Community ist für Dich da. Allein das Niederschreiben einer Herausforderung fokussiert deine Gedanken und bringt oft Klarheit und neue Ideen.
Tipp #7
Muster überall
RegEx & XPath, obwohl komplex, sind Deine Freunde!
Anstatt alle Daten auf einmal zu extrahieren, separiere zuerst XML Child-Nodes. Nutze RegEx, um das, was Du nicht willst, zu entfernen und um die Daten-Extrahierung schrittweise zu vereinfachen.
Wenn die Extraktion der Daten schwer ist, erinnere Dich an Tipp #3 „vereinfache“ und Tipp #6 „Nimm Abstand“.
Schau Dir diesen Knime Forum Post und diesen Knime Workflow an. Sie zeigen deutlich wie wichtig Vereinfachung und XPath sind.
Tipp #8
Denke an das Unsichtbare
Schlägt die Verarbeitung von Daten fehl, können unsichtbare Steuerzeichen, auch non-printing characters (NPC) genannt, die Ursache sein.
Nutze den String Cleaner Node oder die Knime Component von takbb „String Emoji and Character Class Filter„.
Alternativ, nutze RegEx, um reguläre Zeichen zu entfernen. Prüfe dann den String in einem Editor, ich nutze etwa Sublime, auf unerwünschte Zeichen (Tipp #7).
Tipp #9
Kombiniere un-kombinierbares
Denn Einblicke entstehen erst, wenn Verknüpfungen gezogen werden.
Hier noch eine interessante Lektüre: „Will they blend?„. Das eBook von Knime bietet viele Ideen.