Eine kurze praktische Frage: Mit welchem Hilfsmittel geht ihr Datenmappings an? Immer noch klassisch (Excel-)-Tabellen oder nutzt ihr etwas anderes?
Ich sitze gerade an einem Crosswalk-Mapping über verschiedene Datenformate und mit Excel wird es schnell unübersichtlich, wenn neben dem eigentlichen Feldmapping noch Bemerkungen dazukommen.
Hallo!
Das ist ein schönes Thema! Das interessiert mich auch.
Wir haben für Mappings viele große Excelttabellen und Tabellen in Wikis, daneben könnte man die STA Plattform auch als eine Dokumentation für Mappings verstehen.
Ich habe angefangen ein Mapping als SHACL Shapes zu dokumentieren. Da es aber leider noch keinen praktikablen open source shape editor gibt, ist das Ganze aber auch entsprechend fummelig im Hintergrund. Da es aber dann in einer guten maschinenlesbaren Form vorliegt, kann man daraus dann auch eine menschenlesbare Doku daraus erzeugen und ist da ziemlich flexibel darin.
Naja, SHACL oder auch Shex Shapes machen aber eher im RDF Bereich Sinn, daher ist das nicht für alle Mappings sinnvoll.
Das Thema scheint auch noch andere zu interessieren. Aus der section-metadaten-Mailing Liste:
Dear working group members,
I got a request by Nick Juty (The University of Manchester) if we could
share a FAIR-IMPACT survey https://fair-impact.eu/collecting-ways-doing-mappings-webform with the
title: Collecting the ways of doing mappings [1]. This is an
opportunity for you to add your thoughts on the mapping of Europe at a
European level. You need an FAIR-IMPACT account to fill out the survey.
Here are some information about the target groups and what they meant by
mappings:
Who is the audience of this survey: This survey is intended to gather
information from those researchers who produce mappings and also who
only use mappings.
*What do we mean by mapping? *By mappings (and crosswalks) we mean a
process of establishing connections or relationships between different
elements involving identifying similarities, correspondences and
alignments between them. With diverse approaches to mapping, we aim to
collect information on creation, documentation, encoding, publishing,
and reuse. This survey targets individuals involved in producing,
consuming, storing, or sharing mappings, aiming to identify common
steps, practices, and tools in the mapping process. Your input is
crucial to our understanding and improvement.
Ich bin in dem Thema nicht so drin, frage mich aber immer mal wieder, wenn es aufkommt: Wäre es nicht sinnvoll, Mappings direkt in Form einer Transformation von dem einen Format/Datenmodell in das andere zu dokumentieren, etwa mit Software & Tools > Catmandu oder Software & Tools > Metafacture ? Dann wäre es zum einen eindeutig und direkt nutzbar und zum anderen ist die Konfiguration der Transformation in Metafix oder Catmandu Fix ja – je nach Komplexität vor allem des Ausgangsformat – mit etwas Übung nicht unbedingt schlechter lesbar als eine Tabelle.
Das ufert meist leider sehr schnell aus, da die Transformationsregeln doch hauptsächlich für die Maschinenlesbarkeit gemacht sind. Ich wäre durchaus dafür, dass man etwas findet, was sowohl menschen- als auch maschienenlesbar ist, um doppelte Arbeit zu vermeiden. Aber der Anspruch an eine menschenlesbare Version ist durchaus etwas höher.
Unsere Transformationsregeln von PICA nach RDF mit Metamorph umfassen an die tausend Zeilen und sind über mehrere Dateien verteilt.
Ja, klar, Metamorph ist ja auch alles andere als menschenlesbar, weshalb wir viel Aufwand in die Entwicklung von Metafix gesteckt haben (das mit dem nächsten Release Teil von Metafacture-Core sein wird). Wie auch immer, ich denke, dass bei solch umfangreichen und teils komplexen Mappings Übersichtlichkeit und Lesbarkeit ohnehin schwierig werden – auch mit Tabellen.
Umso hilfreicher kann ein Mapping sein, dass du direkt ausführen und mit dem du rumspielen kannst. Wenn du das Mapping z.B. beispielhaft mit Metafix im Metafacture Playground umgesetzt hast, dann kann mensch sich direkt neben den Transformationsregeln auch Beispiel-Input- und -Output-Dateien anschauen und ggf. die Input-Dateien und Transformation selbst anpassen. Allerdings hat der Playground auch seine Grenzen und erlaubt kein Verteilen über mehrere Dateien, was etwa häufig bei der Einbindung von Mappings kontrollierter Werte nötig wird. [Edit zur Korrektur:@dr0i hat mich gerade im Gespräch darauf hingewiesen, dass man schon Mapping-Dateien kontrollierter Werte (z.B. solche wie hier) im Web ablegen und dann im Metafacture Playground in einem Workflow einbinden kann.]
@frecha die Frage ist halt was möchtest du genau mappen und wie komplex ist das Ganze sein? Wenn es um Mappings von Entitäten geht ist kann Cocoda sehr hilfreich sein. Es bietet eine in meinen Augen schöne und übersichtliche Art und Weise um diese Mappings herzustellen und Sie auch für Maschinen nachnutzbar zu machen. Aber da kann dir @nichtich noch deutlicher besser helfen als ich das könnte. Er hat das Ganze nämlich mitentwickelt.
Der Standard in dem Ontologie/RDF Bereich für Enititätenmapping wird aller Voraussicht nach SSSOM werden. Es ist super simpel umzusetzen und durch seinen Tabellenstruktur leicht für die Menschen nachvollziehbar. Es wird im Rahmen vom Base4NFDI Basisdienst Terminology Services 4 NFDI (TS4NFDI) auch in Cocoda integriert werden.