RVK-Anreicherung von hbz-Verbunddaten (lobid-resources) mit Culturegraph

Wir haben die Zahl der lobid-resources-Titel mit RVK-Notationen von 1,5 Millionen auf sieben Millionen erhöht, indem wir die Culturegraph-Aggregationen genutzt haben.

Details zur Umsetzung und dem Ergebnis sowie eine kurze Diskussion zum Für und Wider von Provenienzangaben bei Anreicherungen finden sich im Blogbeitrag:

2 „Gefällt mir“

Das ist wirklich super und macht vieles einfacher und schneller!
Ich hätte noch eine Frage dazu: es gibt auch immer ungültige RVKs, entweder Fehler bei der Eingabe oder durch Änderungen in der RVK, die nicht in den Verbunddaten nachgezogen worden sind. Sind die übernommenen RVKs gegen die RVK-API geschickt worden?

Herzlich willkommen, @FrauHollunder, und danke für die Nachfrage.

Soweit ich weiß, haben wir die Notationen nicht auf Gültigkeit geprüft. Ich weiß nicht, ob eine solche Prüfung nicht schon bei Culturegraph stattfindet, gehe aber nicht davon aus. @TobiasNx und @dr0i wissen da sicher mehr, sind aber gerade nicht da.

Vielleicht hast du ja eine regelmäßig auftauchende invalide RVk-Notation, so dass du es mal testen magst? → https://lobid.org/resources/search?q=subject.notation:"{rvk-notation}", z.B. subject.notation:„AN 75900“

Auf jeden Fall sollte sich so ein Check gut beim Aufbau der tsv-Datei für den Lookup ergänzen lassen.

In Culturegraph machen wir eine solche Prüfung leider nicht, obwohl es natürlich eigentlich sinnvoll wäre. Vermutlich wäre die API auch überfordert, wenn wir für alle RVK-Notationen aus den ca. 24 Mio. Werkbündeln eine Abfrage starten. Für die Übernahme in unsere eigenen DNB-Datensätze werden wir das dann aber auf jeden Fall einplanen.

2 „Gefällt mir“

Hi Stefan, schön, dass du dich einschaltest und herzlich willkommen im Forum!

Hört sich so an, als sollten wir darüber nachdenken, die ungültigen Notationen in eine Liste schreiben, die auch gemeinsam gepflegt werden könnte und – zumindest teilweise – anstatt der RVK-API für einen Check benutzt werden kann.

Könnte man die Abfrage eigentlich auch mit Regex machen?
Ich teste zur Zeit über einen Abzug der RVK, den ich als Tabelle hinterlegt habe und ich teste nur ein Set der vorkommenden RVKs und nicht alle einzelnen Werte.

@FrauHollunder meinst du so? (um die Regexe benutzen zu können müssen die Anführungszeichen weg und die Leerzeichen escaped werden mit dem Backslash). Richtige Regexe gehen da aber nicht, nur Wildcard.

Noch ein Hinweis zu ungültigen Notationen. Ich lade regelmäßig die RVK-Online als xml-Datei herunter, isoliere die Feingruppen und lasse diese Liste gegen die Feingruppen aus den RVK-Signaturen laufen, die von unseren Institutsbibliotheken vergeben werden. Richtige RVK-Signaturen werden dabei als TRUE falsche RVK-Signaturen als FALSE gekennzeichnet. Es gibt 3 Gruppen von RVK-Signaturen, die als FALSE gekennzeichnet werden: 1) Wirkliche Falscheingaben, 2) Notationen, die erst aufgrund eine RVK-Anweisung durch Notationssynthese entstehen (z.B. die detaillierte Anweisung bei AE 11000 - AE 48676), 3) Notationen, die in der aktuellen RVK-Online nicht mehr verwendet werden, aber gemäß älteren RVK-Ausgaben korrekt waren. Problem bei der 3. Gruppe ist, dass es Bestände gibt, die noch nach diesen Notationen aufgestellt und/oder recherchierbar sind, auch wenn es diese Notation in der aktuellen RVK-Version nicht mehr gibt. Sollte man diese Notationen als ungültig erklären. Ebenso erscheinen synthetisierte Notationen zunächst falsch, sind bei näherer Betrachtung jedoch richtig. Für den beschriebenen Abgleich wäre es hilfreich, wenn nicht mehr gültige RVK-Notationen in der RVK blieben, aber einen Tag (evtl. innerhalb der Benennung) erhielten (z.B. wird seit … nicht mehr verwendet).

4 „Gefällt mir“

Hi Kai,
das ist ein guter Hinweis, dass man vorallem die veralteten noch oft brauchen kann. Allerdings sind die zur Datenanreicherung auf Verbundebene dann so nützlich wie im Katalog einer Bib, die sie noch zur Aufstellung nutzt? Oder eher schädlich, weil sich jemand versehentlich dranhängt mit seiner Signatur?

Was genau meinst Du mit detailierten Anweisungen bei AE 11000 - AE 48676?

Es gibt zb noch so Sachen wie BB 7000, wo man selbst Notationen „erfindet“ für seinen Bestand. Da ist es aber auch mit der Übernahme nicht so einfach und die Grundnotation (BB 7000) wäre auf Verbundebene zur Nachnutzung da vermutlich am sinnvollsten.

Danke für den Hinweis, aber das wäre mir zu viel Tipparbeit. Dann lieber das geharvestete prüfen auf fehlerhafte Notationen.

Hallo @FrauHollunder, mit den detaillierten Anweisungen bei AE 11000 - AE 48676 meine ich:

Bemerkung: Zur Grundsignatur bis einschl. 1999 wird das Erscheinungsjahr des ersterschienenen Bandes minus 1000 hinzuaddiert. Bei systematisch angelegten Enzyklopädien wird zusätzlich 500 addiert. CSN nur, wo zur weiteren Individualisierung nötig.Bei in den Jahren 2000 ff. erschienenen Werken wird das Erscheinungsjahr minus 2000 hinzuaddiert. Beispiel: Eine Enzyklopädie in englischer Sprache, Erscheinungsjahr 1965, erhält die Signatur AE 16965 (Grundsignatur 16000, plus 1965 (ohne die erste Ziffer) = 16965). Enzyklopädische Jahrbücher erhalten die jeweilige Grundsignatur plus 1500. Weiteres Beispiel: Eine Enzyklopädie in englischer Sprache, Erscheinungsjahr 2001, erhält die Signatur AE 16001 (Grundsignatur 16000, plus 1 (ohne die erste Ziffer) = 16001).

Die Notationen, die aus dieser Anweisung entstehen, z.B. AE 16965 sind ja in der RVK-Online nicht zu finden und sehen zunächst falsch aus.

Das stimmt, diese Bereiche sind schwerer auf Ihre Richtigkeit zu überprüfen!

Hi Kai,
wo finde ich denn die RVK als XML?
Beste Grüße
Tobias

Hallo @TobiasNx
https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online/rvk-download

1 „Gefällt mir“

FYI: Die RVK-Anreicherung wird jetzt monatlich automatisch aktualisiert Enrich with RVK based on Culturegraph · Issue #1058 · hbz/lobid-resources · GitHub.

1 „Gefällt mir“