Übernahme Verschlagwortungen in hbz

FrauHollunder · 10. Februar 2025 um 10:45

Die RVK-Anreicherung über den Culturegraph ist ja sehr super! Könnte man das auch mit Schlagwörtern machen, die aus der GND stammen?
Es würde helfen, die Abdeckung bei Suchen über Filter für den Inhalt signifikant zu verbessern.
(Es gab dazu auch ein zammad-Ticket #239999)

TobiasNx · 10. Februar 2025 um 11:26

Hi, danke für die Anfrage.

Ich gebe mal meinen Senf dazu: Ich bin da eigentlich nicht für.

Die RVK Anreicherung war etwas, dass von mehreren Bibliotheken für die Nachnutzung von lobid gewünscht war. Der Umstand war zudem, dass im Verbundkatalog schon sehr viel Datensätze keine RVK hatten.

Eigenlich bildet lobid-resources den Verbundkatalog ab. Natürlich gibt es einige Anreicherungen und Bereinigungen, aber mit Blick auf die Verbunddaten und Inhaltserschließung würde ich behaupten, dass eine Culturegraph-Anreicherung die Daten zu sehr verfälscht. Zwar nicht inhaltlich, so doch mit Bezug auf den Verbundkatalog. Man kann nicht eindeutig identifizieren, woher die Verschlagwortung kommt, dadurch geht der Bezug zum Verbundkatalog verloren.

In meinem Kopf schwebt eher die Idee von einem neuen lobid-Dienst lobid subject, der eine JSON-API für die Culturegraph Aggregations anbietet und so die verschiedenen Inhaltserschließungen verknüpft mit den IDs der Ressourcen in den Verbünden bereitstellen würde.

acka47 · 10. Februar 2025 um 11:48

Danke für die Anfrage, @FrauHollunder, und deine Rückmeldung, @TobiasNx . Schön, dass wir dieses Forum nutzen können, um gemeinsam und offen die Optionen zu diskutieren, Vor- und Nachteile abzuwägen und am Ende zu einer informierten und fundierten Entshceidung zu kommen.

Das ist ja jetzt analog, oder nicht? Es kommt eine Anfrage und es gibt sehr viele Datensätze, die keinerlei Inhaltserschließung haben (14 Millionen, das ist knapp die Hälfte der Verbundtitel.).

Wir haben eine möglichst genaue Abbildung des hbz-Verbundkatalogs nie als ein Ziel von lobid-resources definiert und waren immer bereits, davon abzuweichen, wenn es der Verbesserung des Angebots dient. (Deshalb machen wir das ja schon LOUD-basiert und orientieren uns an MARC21 nur insofern das die Ausgangsdaten sind.) Ich sehe jetzt auch nicht direkt, warum wir nach einer Abbildung des VK streben sollten. Vielleicht kannst du das noch konkretisieren?

Das kann ich hingegen direkt nachvollziehen. Ich könnte mir schon vorstellen, dass es manche stören würde, wenn wir GND-Verschlagwortung aus CG anreichern, ohne in irgendeiner Form deren Provenienz anzugeben. Genausogut könnte ich mir aber auch vorstellen, dass sich alle lobid-resources-Nutzer:innen gleichermaßen über die Anreicherung freuen und eine Provenienzangabe nicht nötig ist. (Bei der RVK haben wir ja auch darauf verzichtet, siehe RVK-Anreicherung mit Hilfe von Culturegraph | lobid.org .) Deshalb würde ich gerne nichts im Vorhinein ausschließen und gerne hier diskutieren.

Das könnte eine Lösung sein, wenn wir nicht einfach lobid-resources anreichern. Allerdings wäre das weniger komfortabel für Nachnutzer:innen, weil sie bei Bedarf selbst die Integration in lobid-Daten leisten müssten. Lasst uns deshalb erstmal schauen, ob nicht die einfache Lösung gangbar und sogar erwünscht ist.

TobiasNx · 10. Februar 2025 um 11:55

Einen Punkt hab ich noch vergessen. Die CG Anreicherung von der RVK drückt die Performance

acka47 · 10. Februar 2025 um 12:01

Ja, das könnte ein Dealbreaker sein. Falls hier herauskommt, dass ir die GND-Anreicherung analog zur RVK umzusetzen, müssten wir als nächstes testen, ob damit die Alma-zu-lobid-Datentransformation noch im zeitlichen Rahmen bliebe.

dr0i · 10. Februar 2025 um 12:33

Technische Herausforderungen sind doch dafür da, gelöst zu werden.

FrauHollunder · 10. Februar 2025 um 13:41

Letzlich würden die Anreicherungen in lobid aber nicht im Verbund landen?
Und ich denke nicht, dass wir, wenn wir die unverknüpfen Titel mit inhaltlicher Erschließung anreichern würden irgendwas schlechtes aus bibliothekarischer Sicht passieren würde (zum Performance-Problem kann ich nix sagen - da kenn ich mich nicht aus).
Aus meiner Sicht ist eines der frustrierensten Zustände in Deutschland die vorhandenen guten Erschließungsdaten, die aber nicht z.B. im eigenen Verbund zur Verfügung stehen.

acka47 · 10. Februar 2025 um 14:31

Ich verstehe nicht ganz: Was meinst du hier mit „unverknüpfte Titel“?

FrauHollunder · 10. Februar 2025 um 14:38

ohne Verknüpfungen zur GND beim Schlagwort meinte ich

s_grund · 11. Februar 2025 um 10:20

Erste Erfahrungen mit der Übernahme von Schlagwörtern aus der Culturegraph-Bündelung haben einige Verbünde schon gewonnen, auch wir in der DNB haben Anfang des Jahres, wenn auch noch vorsichtig, damit begonnen. Das Problem ist in manchen Fällen, dass wir in Culturegraph primär eine Werkbündelung haben, Schlagwörter aber eben in manchen Fällen manifestationsbezogen sind und dann nicht unbedingt für alle Mitglieder des Werkbündels passen. Ergebnisse einer Manifestationsbündelung könnten wir in Culturegraph allerdings auch zur Verfügung stellen. Die „low hanging fruits“ bei den Übernahmemöglichkeiten aus Culturegraph sind auf jeden Fall die GND-Verknüpfungen zu Personen, das ist einfacher umzusetzen.

Andrea Diedrich hat hier im Forum im Culturegraph-Bereich Culturegraph - metadaten.community ja bereits auf den Workshop (und auf die Doku dazu) verwiesen, den wir letztes Jahr auf Inititative der Verbünde durchgeführt haben. Ich denke, dass wir alle bei der Schlagwort-Übernahme auf die gleichen Fallstricke stoßen, daher ist ein Austausch hier sicher lohnenswert.

FrauHollunder · 12. Februar 2025 um 18:08

Könnte man dann nicht erstmal Probedaten ziehen und schauen, was so die Probleme wären?
Bei den Berichten des Treffens fehlt mir so ein bisschen für mein besseres Verständnis die genauen Umstände der Probleme und der Lösungen.
Man sollte auch immer sehen, dass eine schlechte Erschließungsquote auch ein ernsthaftes Problem darstellt. Die Quote wird oft als Argument herangezogen, warum zb Suchoberflächen nicht in die Richtung Inhaltserschließung verbessert werden.

acka47 · 13. Februar 2025 um 09:35

Wir sollten das einfach mal für ein Testset implementieren, uns das dann anschauen und sehen, wie wir weiter vorgehen. Ich habe dafür schonmal ein Ticket gemacht: Set up GND subject enrichment on test system · Issue #2150 · hbz/lobid-resources · GitHub

Wir besprechen demnächst hbz-intern, wann wir mit einer Umsetzung beginnen können.

TobiasNx · 13. Februar 2025 um 09:59

Eine weitere Frage wäre, meint 689 → GND oder 6XX mit GND?

s_grund · 13. Februar 2025 um 11:18

689 enthält Schlagwortfolgen nach RSWK, die anderen 6XX Einzelschlagwörter, u.U. gedoppelt aus den Schlagwortfolgen. 689 sollte auf jeden Fall GND-Verknüpfungen enthalten (außer zB beim Zeitschlagwort), 6XX in vielen Fällen auch, dann mit $2 „gnd“ und der GND-IDN in $0, eingeleitet durch das ISIL der GND „(DE-588)“

Infos zum Zusammenspiel von 689 und den restlichen 6XX-Feldern sind bei der AG KVA zu finden: Feld 6XX - Subject Access Fields. Eine genauere Beschreibung von 689 gibt es im DNB-Wiki: Anwenderebene Titeldaten Feld 689 - marc21_anwenderebene - Deutsche Nationalbibliothek - Wiki

TobiasNx · 13. Februar 2025 um 12:54

Die Unterscheidung von 689 und 6XX, bis auf den Aspekt der Dopplung war mir bekannt.

Ich war selbst zu unkonkret mit meiner Nachfrage: Ich wollte eher fragen, ob besonders mit dem Blick auf Lobid, die initiale Anforderung von @FrauHollunder : „Könnte man das auch mit Schlagwörtern machen, die aus der GND stammen?“ sich darauf bezieht, die Schlagwortfolgen zu übernehmen, oder alle 6XX mit GND Nachweis.

TobiasNx · 14. Februar 2025 um 10:26

Und kann mir jemand die Ordnung der Culturegraph Aggregations für 689 erklären?

Es gibt z.B.
mehrere 689 Ind1 0 Ind2 0 etc. woran kann ich merken, welche zusammen gehören. Ich vermute, dass die bestehende Reihenfolge der Quelldatensätze bestehen bleibt und dass irgend eine Form der Verweise zwischen den Datenelementen gibt

TobiasNx · 18. Februar 2025 um 17:18

Magst du mir ein paar passende Datensätze anbieten

FrauHollunder · 18. Februar 2025 um 17:40

Ich hab leider keine Testdaten und könnte erst frühestens nächste Woche welche haben.