Anreicherung von hbz-Verbunddaten (lobid-resources) mit Culturegraph

Wir haben die Zahl der lobid-resources-Titel mit RVK-Notationen von 1,5 Millionen auf sieben Millionen erhöht, indem wir die Culturegraph-Aggregationen genutzt haben.

Details zur Umsetzung und dem Ergebnis sowie eine kurze Diskussion zum Für und Wider von Provenienzangaben bei Anreicherungen finden sich im Blogbeitrag:

2 Likes

Das ist wirklich super und macht vieles einfacher und schneller!
Ich hätte noch eine Frage dazu: es gibt auch immer ungültige RVKs, entweder Fehler bei der Eingabe oder durch Änderungen in der RVK, die nicht in den Verbunddaten nachgezogen worden sind. Sind die übernommenen RVKs gegen die RVK-API geschickt worden?

Herzlich willkommen, @FrauHollunder, und danke für die Nachfrage.

Soweit ich weiß, haben wir die Notationen nicht auf Gültigkeit geprüft. Ich weiß nicht, ob eine solche Prüfung nicht schon bei Culturegraph stattfindet, gehe aber nicht davon aus. @TobiasNx und @dr0i wissen da sicher mehr, sind aber gerade nicht da.

Vielleicht hast du ja eine regelmäßig auftauchende invalide RVk-Notation, so dass du es mal testen magst? → https://lobid.org/resources/search?q=subject.notation:"{rvk-notation}", z.B. subject.notation:„AN 75900“

Auf jeden Fall sollte sich so ein Check gut beim Aufbau der tsv-Datei für den Lookup ergänzen lassen.

In Culturegraph machen wir eine solche Prüfung leider nicht, obwohl es natürlich eigentlich sinnvoll wäre. Vermutlich wäre die API auch überfordert, wenn wir für alle RVK-Notationen aus den ca. 24 Mio. Werkbündeln eine Abfrage starten. Für die Übernahme in unsere eigenen DNB-Datensätze werden wir das dann aber auf jeden Fall einplanen.

1 Like

Hi Stefan, schön, dass du dich einschaltest und herzlich willkommen im Forum!

Hört sich so an, als sollten wir darüber nachdenken, die ungültigen Notationen in eine Liste schreiben, die auch gemeinsam gepflegt werden könnte und – zumindest teilweise – anstatt der RVK-API für einen Check benutzt werden kann.

Könnte man die Abfrage eigentlich auch mit Regex machen?
Ich teste zur Zeit über einen Abzug der RVK, den ich als Tabelle hinterlegt habe und ich teste nur ein Set der vorkommenden RVKs und nicht alle einzelnen Werte.