Automatisierung von OpenRefine

Hallo, eine schöne Idee, dieses Forum einzurichten! :rocket: :partying_face:

Also was kann ich hier einbringen? Ich arbeite in meinen Metadaten-Projekten oft mit der Software OpenRefine. Die Software bringt keine integrierte Funktion mit, die erstellten Transformationsregeln automatisiert regelmäßig auf neuen Daten anzuwenden. Es gibt aber Zusatzsoftware, mit der das möglich ist. Die letzten Jahre habe ich viel experimentiert und nutze aktuell für meine Projekte einen selbstgeschriebenen Client namens orcli: GitHub - opencultureconsulting/orcli: OpenRefine command-line interface written in Bash (💎+🤖). Supports batch processing (import, transform, export).

Vielleicht ist die Software auch für andere interessant. Über Feedback würde ich mich freuen und wenn es nicht zu wild wird, kann ich auch Featurewünsche aufnehmen.

7 „Gefällt mir“

Seit Jahren erzähle ich immer gerne von deinem Tool ohne es leider bis jetzt noch jemals selbst ausprobiert zu haben, obwohl ich viel in OpenRefine arbeite, habe ich mit Automatisierung noch gar nichts recht umgesetzt. Dabei gebe es da soviel schöne Möglichkeiten.

Ob du vlt. einmal dein Skript - wiewohl es echt vorbildlich dokumentiert ist - einmal in einem Online-Workshop präsentieren möchtest? :slight_smile:

1 „Gefällt mir“

Ja, das kann ich gerne im neuen Jahr machen. Vorab hier ein kleiner Terminal-Screencast:

demo

Du meinst wahrscheinlich das alte Tool openrefine-client, das auf Python 2 basiert und nicht mehr weiterentwickelt wird. orcli habe ich erst dieses Jahr veröffentlicht. Es fehlen noch ein paar Funktionen im Vergleich zum vorigen Tool, aber ich setze es für meine Projekte bereits erfolgreich ein.

7 „Gefällt mir“

Wunderbar, danke @felixlohmeier!

Meiner Meinung nach erfüllt dieses Tool eine große Lücke von OpenRefine. Ich arbeite daran, mehr Reproduzierbarkeit in OpenRefine selbst einzubauen. Hoffentlich wird das die Entwicklung und Benutzung von Tools wie orcli vereinfachen. Bisher habe ich hauptsächlich die Fehlermeldung verbessert (in der apply-operations Schnittstelle), hoffe aber viel mehr zu tun. Ich melde mich bei dir später, wenn ich mehr zu teilen habe.

4 „Gefällt mir“

Hallo Felix, Christian und Antonin,

herzlich willkommen im Forum! Schön, dass ihr hier seid.
Wir haben jetzt eine Kategorie für OpenRefine, daher habe ich dieses Thema (aka Thread) von Software & Tools in die neue Kategorie verschoben.

2 „Gefällt mir“

Hallo, das Thema Automatisierung treibt mich auch um. Ich arbeite mit Jupyter Notebooks und habe mir jüngst mit dem Jupyter Kernelgateway meine erste lokale API gebaut, um dezimale Kooridinaten automatisiert in DMS-Koordinaten umzuwandeln. Mein Ziel ist ein im Notebook leicht pflegbarer API-Zoo für verschiedene Aufgaben, die ich über Add columns by fetching URL... aus OpenRefine ansprechen kann.

4 „Gefällt mir“

Hallo @felixlohmeier,
dein Tool wird seid etwas über einem Jahr produktiv bei der Erstellung der Dokumentation im Linked Data Service eingesetzt :wink:

Anwendung (grob):
CSV im Repo → Open Refine → Daten werden manuell geupdatet und eingecheckt → automatisiertes Filtern und Anwenden eines RDF Skeleton + Export nach RDF → [weitere Tool Chain …]

Läuft gut, nur ab und zu „verschluckt“ sich Open Refine und man muss den Projekt Ordner löschen. Kommt aber selten vor und nur wenn ich am Workflow neues ausprobiere.

3 „Gefällt mir“