Wie in Übernahme Verschlagwortungen in hbz - #19 von acka47 angekündigt, wollen wir dieses Jahr daran arbeiten, über Culturegraph Verschlagwortung aus dem BVB und der DNB in den hbz-Verbundkatalog (Alma Netzwerkzone) einzuspielen. Wir möchten die Daten aus der Culturegraph-Aggregatdatei gewinnen und dann in Alma einspielen. Fest steht:
Wir werden uns zunächst auf die RSWK-Schlagwortketten in Feld 689 fokussieren.
Das Verfahren müsste 1.) einmal im großen Stil durchgeführt und 2.) regelmäßig für die zwischenzeitlich ergänzten Titel wiederholt werden.
Viele Fragen sind noch offen, u.a.:
Wie identifizieren wir die hbz-Titel, die überhaupt angereichert werden sollen? (Sinnvoll wäre es wahrscheinlich, mit denen zu beginnen, die bisher gar keine Angaben in Feld 689 haben.
Wie stellen wir sicher, dass zur Not die Ergebnisse einer Anreicherung korrigiert werden können, wenn Fehler auffallen, etwa wie die von @s_grund in Übernahme Verschlagwortungen in hbz - #10 von s_grund genannten? Oder, falls das nicht geht: Wie stellen wir sicher, dass die Anreicherung so sorgfältig getestet wurde, dass sie produktiv in die NZ eingespielt werden kann?
Es haben ja andere schon tiefergehende Erfahrungen mit dieser Thematik gemacht. Ich würde mich über Hinweise auf Implementierungen und/oder Projektberichte freuen, von denen wir lernen können. Gut fänd ich auch ein Online-Treffen der Culturegraph-Arbeitsgruppe.
Wir in der DNB haben ja jetzt seit einem Jahr ein täglich laufendes Verfahren, das zurzeit Schlagwortfolgen, Formschlagwörter, DDC-Notationen und DDC-Sachgruppen nur aus anderen DNB-Ausgaben überträgt. Wir richten uns u.a. nach folgenden Vorgaben:
Es werden Datensätze von Printpublikationen angereichert, die noch im Bearbeitungsprozess sind und als nächstes von der Inhaltserschließung bearbeitet werden sowie Netzpublikationen in Bündeln, in denen an diesem Tag ein aktualisierter Datensatz vorkommt. Eine Retrobearbeitung haben wir noch nicht durchgeführt.
Wir übernehmen keine Daten aus Datensätzen, die noch nicht vollständig erschlossen sind.
Es werden nur Schlagwortfolgen oder DDC-Notationen ergänzt, wenn noch keine vorhanden sind.
Es existiert eine Ausschlussliste für Formschlagwörter (manifestationsbezogene, andere fehleranfällige).
Es werden keine doppelten Inhalte übernommen, stattdessen wird ggf. die qualitativ bessere Herkunftskennzeichnung eingesetzt.
Die DDC-Notation muss inhaltlich zur DNB-Sachgruppe passen
Beschränkung der Maximalgröße verwendeter Bündel wg. Laufzeit und Fehleranfälligkeit
Aktuell übernehmen wir nur aus Werkbündeln, in Zukunft wollen wir Daten auch aus Manifestationsbündeln übernehmen.
Es werden einige Publikationsgruppen nicht angereichert. Das sind z. B. mehrbändige Werke und ihre unselbstständigen Bände, Zeitschriften und gezählte Reihen, Musiktonträger, Musiknoten, die DDC-Sachgruppe 7XX (Künste und Unterhaltung).
Es werden keine Daten aus CG übernommen, die wir als maschinell erstellt erkennen können.
Die Planung für dieses Jahr sieht vor, dass wir daran arbeiten, die Anreicherungen auch auf Inhalte von Verbunddatensätzen auszuweiten und weitere Elemente wie z.B. die RVK dazuzunehmen.
Ein Treffen der Arbeitsgruppe finden wir auch eine gute Idee.
Es geht bei der Kennzeichnung darum, dass die Anreicherungen später noch erkennbar sind und ggf. auch rückgängig gemacht werden können. Außerdem wollen wir Inhalte, die aus Culturegraph-Anreicherungen kommen, nicht nochmal als Ergebnis der Bündelung ausgeben. Da die Datensätze ja im Format MARC 21 in Culturegraph ankommen, ist die Kennzeichnung im MARC-Feld 883 vorgesehen. Ich habe hier mal die relevante Passage kopiert:
Die Ausschlussliste für die Formschlagwörter ist nicht online verfügbar, könnte aber von uns zur Verfügung gestellt werden.
Die maschinellen Inhalte in verschiedenen Feldern haben auch immer ein Referenzfeld 883, das über die gleiche Referenz ([Zahl]\p) zuzuordnen ist. Im Feld 883 bedeutet Indikator 1=0 dann, dass der Inhalt maschinell erstellt wurde. Mit welchem Prozess kann in 883 $a hinterlegt werden. Bei Anreicherungen aus Culturegraph ist Indikator1=leer, da es eine Mischung aus intellektueller und maschineller Bearbeitung ist. Bei uns kommen vor allem maschinell erstellte DDC-Kurznotationen, Sachgruppen und GND-Schlagwörter vor. Ich habe auch noch keine maschinell erstellten Schlagwortfolgen gesehen.