Übergeordnungen in Suchergebnis mit einbeziehen

ralph.borowski · 10. Juli 2025 um 15:23

Lieber Adrian, liebe Community,

danke für die Einladung ins Forum. Wir nutzen die Daten aus lobid um den Katalog von arthistoricum.net zu befüllen. Dort binden wir z.B. die Bestände der KuBi Köln ein, die wir mit folgender Abfrage für die Verarbeitung herunterzuladen:

https://lobid.org/resources/search?q=hasItem.heldBy.isil%3ADE-38-428+OR+hasItem.heldBy.isil%3ADE-38-445+OR+hasItem.heldBy.isil%3ADE-Kn3&format=jsonl

Dabei bekommen wir auch Bände, die zu übergeordneten Reihen gehören, wie z.B. https://lobid.org/resources/99375087625306441?format=json

Im Feld isPartof.0.hasSuperordinate.id steht dann die Referenz auf die übergeordnete Reihe, in diesem Falle https://lobid.org/resources/HT021778805#

Leider befindet sich dieser übergeordnete Eintrag nicht immer auch im Suchergebnis. Laut meiner kurzen Datenabfrage betrifft das im Moment 39.648 Serien-Datensätze, die uns im Suchergebnis fehlen.

Hast du/habt ihr eine Idee, wie wir diese Datensätze ressourcenschonend im lobid abfragen können?

Der naive Ansatz wäre 39.648 Anfragen an den Server zu stellen und die fehlenden Datensätze einzeln zu beschaffen. Alternativ könnte man auch eine Bibliothek in der man die Reihen vermutet, wie die USB (DE-38), abfragen und den Filter so setzen, dass nur Serien abgerufen werden. Dabei kommen natürlich zahlreiche für uns uninteressante Datensätze mit, die im Nachhinein rausgefiltert werden müssten.

Siehst du/sehr ihr noch eine einfachere Möglichkeit?

Viele Grüße

Ralph

acka47 · 11. Juli 2025 um 06:37

Herzlich willkommen im metadaten.community-Forum, Ralph, und danke für deine Anfrage!

Sehr schön. Wie ich unter arthistoricum.net: Datenquellen sehe ist lobid eine von vielen Quellen für arthistoricum.net. Aus reiner Neugierde: habt ihr irgendwo euer Tooling und eure Workflows für das Harvesten, Transformieren und Indexieren beschrieben?

Ich sehe momentan keine einfachere Möglichkeit. Sowas ginge gut mit einem SPARQL-Endpoint, den wir aber nicht anbieten (siehe auch SPARQL-Endpoints). Ich denke aber, dass die vierzigtausend zusätzlichen Abfragen kein Problem für die API sind. Wenn ihr euch an das Rate Limiting haltet, habt ihr die Daten in weniger als sieben Minuten geholt. Wie häufig holt ihr denn die Daten ab?

Unter Umständen sollten wir darüber nachdenken, bei der Transformation von MARC zum lobid-JSON-LD eine inCollection-Angabe für Arthistoricum zu ergänzen. Dann könntet ihr euch die gesamten Daten mit einer einfachen Query holen. @TobiasNx, wäre das leicht umsetzbar, so eine Angabe für alle Bestände von DE-38-428, DE-38-445 und DE-Kn3 plus die in isPartof.hasSuperordinate.id verlinkten Ressourcen zu ergänzen oder ist es auch beim ETL problematisch, die Überordnungen mit zu berücksichtigen?

TobiasNx · 11. Juli 2025 um 07:37

Hi, ich würde sagen, dass wir im einfachen Transformationsprozess die Überordnungen nur dann anreichern können, wenn die Einrichtungen an diesen Bestände haben, oder wenn wir eine Lookupdatei haben, anders kommen wir beim recordweisen Verabeiten der Daten nicht vom Einzelband zum Übergeordneten Datensatz.

Ich würde auch sagen, dass die Abfrage von 40.000 Datensätzen okay ist.

PS: Eine kleine Erklärung warum die IDs der Verlinkungen eine HT-Nummer (hbzId) und keine reine Ziffernfolge (almaMmsId) haben, das ist ein derivat der aktuellen HBZ Verbunddaten. Die Verlinkungen lösen aber auf.

ralph.borowski · 14. Juli 2025 um 08:41

Danke, dann ist es ja recht einfach für uns. Wir ergänzen unseren Katalog täglich bis wöchentlich um die neuen Bestände. Das kommt immer etwas auf die Datenquelle an. Im lobid können wir das ja über das describedBy.dateCreated/dateModified/deleted abfragen. Außerdem ziehen wir einmal im Quartal einen Komplettabzug. Alles nicht zeitkritisch, nachts machbar und gern mit kleinen Pausen zwischen den Abfragen. Damit sollten wir ja bequem in den Abfrage-Limits sein. Eine eigene Collection bräuchten wir damit nicht.

Zu unserem Stack: Wir verwenden Prefect als Scheduler, der dann verschiedene Python-Scripte ausführt um die Daten herunterzuladen, zu konvertieren und abzulegen. Zuerst konvertieren wir die Daten ins finc-Schema und legen sie in einer MongoDB ab. Dann werden die Daten dedupliziert und schließlich in einen Solr geladen. Lobid mappen wir „von Hand“, für Marc nutzen wir Marc2Sorl und Solrmarc (SLUB-Edition). Den Workflow bauen wir gerade fürs arthistoricum neu auf und kann ich gern mit euch teilen, wenn’s fertig ist.

TobiasNx · 22. Juli 2025 um 08:30

describedBy.dateCreated/dateModified/deleted darf ich fragen, worauf das deleted verweist?

ralph.borowski · 23. Juli 2025 um 07:07

Laut der Doku auf lobid-resources - API sollte deleted angeben, wann der Datensatz gelöscht wurde. Es gibt ja immer mal wieder Bestände, die ausgesondert werden oder versehentlich mehrfach angelegt wurden.

TobiasNx · 23. Juli 2025 um 07:35

Okay, das habe ich vermutet. Das funktionier aber wahrscheinlich nicht.( @acka47 kann mich da eines besseren belehren)

Der Deletions Endpoint ist aktuell (seit der Migration von ALEPH auf ALMA) inaktiv: Create deletions endpoint · Issue #1795 · hbz/lobid-resources · GitHub Mir war aber nicht ganz klar, dass wir das aktuell noch in der API Doku haben.

Wenn @acka47 und @dr0i wieder da sind, können wir uns das aber nochmal anschauen.

acka47 · 4. August 2025 um 10:02

Ja, das funktioniert mit aktuellen Zeitangaben nicht, z.B. https://lobid.org/resources/deletions/search?q=describedBy.deleted%3A\[20250701+TO+20250730\]

Ich muss mich mal wieder reinlesen, für wen wir den damals ergänzt hatten und warum der Bedarf nach dem Umstieg auf Alma offenbar nicht mehr so groß war. Offensichtlich sollten wir das aber jetzt mal wieder aufsetzen.