Bibliothekarische Metadaten von der Nachnutzung her denken

awinkler · 10. November 2024 um 20:30

Ich öffne diesen Thread auf Basis dieses Fediverse-Posts und auf Anregung von @acka47 und @nichtich .

Ich versuche aktuell etwas genauer auf die Nachnutzbarkeit von GLAM-Daten zu schauen. Ausgangsthese/-beobachtung ist, dass Daten zwar zunehmend verfügbar sind, doch nicht immer in einer Weise, dass sie gerne nachgenutzt werden können/wollen (bislang habe ich hierzu nur ein paar Folien unter Collections as data. Potenziale und Herausforderungen der Nutzung offener Kulturerbedaten). Bibliotheksdaten werden von Bibliotheksmenschen für Bibliotheksmenschen gemacht. Wenn nun jemand diese Daten z.B. als Forschungsdaten nachnutzen will, dann stolpert man immer wieder über Hürden.

Das fängt schon beim Zugriff an, weil die Schnittstellen nicht immer optimal beworben und dokumentiert sind. Da tut sich gerade in den letzten Jahren einiges, was sehr gut ist (ich nenne hier nur mal die Angebote des DNBLab).

Bibliothekarische Metadaten zu parsen ist ebenfalls kein Spaß. Die Interpretation der Feldnummern in Pica oder MARC ist für Außenstehende nicht trivial. Man findet ggf. die MARC-Felddoku der LOC und wird nostalgisch, die Beschreibung der Felder erschließt sich aber auch nicht immer zwingend sofort. Die K10plus-Formatdokumentation ist für Pica nützlich, aber etwas versteckt (ich wüsste nicht, wie ich mich systematisch zu ihr durchklicken könnte).

Ein konkretes Beispiel zur Demonstration: Ich rufe in der DNB einen Datensatz auf: https://d-nb.info/1075880920/about/marcxml und möchte MARC-Feld 337 verstehen:

<datafield tag="337" ind1=" " ind2=" ">
      <subfield code="a">ohne Hilfsmittel zu benutzen</subfield>
      <subfield code="b">n</subfield>
      <subfield code="2">rdamedia</subfield>
</datafield>

337$a ist laut LOC „Media type term“. Wenn ich nun mit „ohne Hilfsmittel zu benutzen“ als Medientyp" nicht so viel anfangen kann, suche ich auf der DNB-Seite nach Erläuterungen und komme auf DNB - MARC 21 . Dort gibt’s den Link zu einer Excel-Datei (passwortgeschützt) mit > 1400 Zeilen. Da werde ich dann auf Arbeitshilfen - rda-info - Deutsche Nationalbibliothek - Wiki verwiesen - die Wiki-Seite ist aber nicht mehr aktuell und bietet mir auf Anhieb auch keine Erläuterung. Unter „Publikationstypen“ ist eine PDF verlinkt, in der ich dann ein paarmal „ohne Hilfsmittel zu benutzen“ für versch. Medientypen finde und mir ungefähr einen Reim darauf machen kann, was dahintersteckt. Die PDF ist aber natürlich auch von der Erschließung her gedacht.

Wenn ich dasselbe Spielchen ausgehend vom GVK machen möchte (https://unapi.k10plus.de/?id=gvk:ppn:834422018&format=marcxml), muss ich gefühlt schon etwas länger googlen und suchen, um auf dieses JSON-Schema zu kommen. Systematisch von der GVK-Seite aus komme ich da irgendwie gar nicht hin.

Wenn ich nun bei einer kleineren GBV-Bibliothek anfangen würde, wäre ich noch einen Schritt weiter weg von der gewünschten Information und die Chance, über die entscheidenen Hinweise zu stolpern, schwänden zusätzlich.

Der Weg zur effektiven Datennutzung ist also mitunter lang und steinig und ich frage mich, was bibliotheksseitig getan werden könnte, um Nachnutzenden da etwas unter die Arme zu greifen.

Das zum Hintergrund. Im Mastodon-Thread kam die Frage:

Was hättest du denn gerne? a) in Bezug auf PICA und die Einführung? b) für MARC?

Vielleicht klarere Pfade zu relevanten Informationsressourcen, die im Idealfall auch ohne ausgeprägte Domänenexpertise verständlich sein sollten. Die meisten Informationen sind theoretisch da, in der Praxis ranzukommen und sie dann auch nutzen zu können, bleibt aber eine Herausforderung. Die Perspektive ist, wie gesagt, immer die der nicht-bibliothekarischen Nachnutzung.

pkiraly · 12. November 2024 um 08:23

Sorry, my comment is in English. These are the questions I am also interested and I try to give an answer with QA Catalogue tool (GitHub - pkiraly/qa-catalogue: QA catalogue – a metadata quality assessment tool for library catalogue records (MARC, PICA)) - not yet with good enough results. This part of the DNB record looks like in the tool:

I am working of helper functionalities how can one extract data from catalogue and turn bibliographical data into a simplified CSV, that could be more familiar for digital humanities researchers. (The JSON schema you mentioned was also derived from this tool.)
In DARIAH we have a team called "Bibliographical Data Working Group (https://www.dariah.eu/activities/working-groups/bibliographical-data-bibliodata/), where we are discussing the big picture: how to reuse bibliographical data to answer historical questions. FInally I suggest you two great article to describe similar problems as yours:

Karen Coyle. 2011. MARC21 as Data: A Start. Code4Lib Journal, Issue 14, 2011-07-25. The Code4Lib Journal – MARC21 as Data: A Start
Jason Thomale. 2010. Interpreting MARC: Where’s the Bibliographic Data? Code4Lib Journal, Issue 11, 2010-09-21 The Code4Lib Journal – Interpreting MARC: Where’s the Bibliographic Data?

awinkler · 12. November 2024 um 11:19

Thanks for your helpful reply! I welcome your efforts, these tools are definitely necessary. However, I have two doubts:

Will people actually understand what media type „ohne Hilfsmittel zu benutzen“ is? So here additional information is needed. That’s, of course, also the case when it comes to ontological intricacies.
I’m slightly uncomfortable with the additional layer of uncertainty introduced by the conversion into human readable csv or json. Mapping is interpretation (and has to be documented). So do I want to rely in my research on a mapping that I can’t be sure to what extend I can trust in my specific use case? Wouldn’t it be better to be enabled to work with the actual sources? Not sure if I misunderstand the community’s skills but I think that neither the parsing of XML nor the MARC data model pose unsurmountable obstacles. From personal experience, I’d rather think it’s lack of available information that complicates things.

I’m also very curious to learn mor about the Working Group I’ll watch out for news on it.

vform · 13. November 2024 um 13:08

Eine Tick Off-Topic vielleicht, aber in Bezug auf diesen Thread fand ich mindestens Punkt 2 interessant bei BIBFRAME dilemmas for libraries: Challenges and opportunities

nichtich · 17. November 2024 um 20:17

Ja, bibliothekarische Metadaten sind komplex und ihre Dokumentation meist nur aus Sicht der professionellen Erschließung gedacht. Zwei Strategien zur Verbesserung an denen ich beteiligt bin:

Unter format.gbv.de versuche ich die Dokumentation von Metadatenformat und Anwendungsprofilen zu verbessern und auf weitere Quellen zu verweisen. Das lässt sich sicher verbessern. Feedback hierzu ist immer willkommen!
Das Schema-Format Avram ermöglicht Formate wie MARC genauer zu beschreiben, so könnte für 337$a eine Liste von möglichen Werten mit Erklärungen hinterlegt werden.