danke für die Einladung ins Forum. Wir nutzen die Daten aus lobid um den Katalog von arthistoricum.net zu befüllen. Dort binden wir z.B. die Bestände der KuBi Köln ein, die wir mit folgender Abfrage für die Verarbeitung herunterzuladen:
Leider befindet sich dieser übergeordnete Eintrag nicht immer auch im Suchergebnis. Laut meiner kurzen Datenabfrage betrifft das im Moment 39.648 Serien-Datensätze, die uns im Suchergebnis fehlen.
Hast du/habt ihr eine Idee, wie wir diese Datensätze ressourcenschonend im lobid abfragen können?
Der naive Ansatz wäre 39.648 Anfragen an den Server zu stellen und die fehlenden Datensätze einzeln zu beschaffen. Alternativ könnte man auch eine Bibliothek in der man die Reihen vermutet, wie die USB (DE-38), abfragen und den Filter so setzen, dass nur Serien abgerufen werden. Dabei kommen natürlich zahlreiche für uns uninteressante Datensätze mit, die im Nachhinein rausgefiltert werden müssten.
Siehst du/sehr ihr noch eine einfachere Möglichkeit?
Herzlich willkommen im metadaten.community-Forum, Ralph, und danke für deine Anfrage!
Sehr schön. Wie ich unter arthistoricum.net: Datenquellen sehe ist lobid eine von vielen Quellen für arthistoricum.net. Aus reiner Neugierde: habt ihr irgendwo euer Tooling und eure Workflows für das Harvesten, Transformieren und Indexieren beschrieben?
Ich sehe momentan keine einfachere Möglichkeit. Sowas ginge gut mit einem SPARQL-Endpoint, den wir aber nicht anbieten (siehe auch SPARQL-Endpoints). Ich denke aber, dass die vierzigtausend zusätzlichen Abfragen kein Problem für die API sind. Wenn ihr euch an das Rate Limiting haltet, habt ihr die Daten in weniger als sieben Minuten geholt. Wie häufig holt ihr denn die Daten ab?
Unter Umständen sollten wir darüber nachdenken, bei der Transformation von MARC zum lobid-JSON-LD eine inCollection-Angabe für Arthistoricum zu ergänzen. Dann könntet ihr euch die gesamten Daten mit einer einfachen Query holen. @TobiasNx, wäre das leicht umsetzbar, so eine Angabe für alle Bestände von DE-38-428, DE-38-445 und DE-Kn3 plus die in isPartof.hasSuperordinate.id verlinkten Ressourcen zu ergänzen oder ist es auch beim ETL problematisch, die Überordnungen mit zu berücksichtigen?
Hi, ich würde sagen, dass wir im einfachen Transformationsprozess die Überordnungen nur dann anreichern können, wenn die Einrichtungen an diesen Bestände haben, oder wenn wir eine Lookupdatei haben, anders kommen wir beim recordweisen Verabeiten der Daten nicht vom Einzelband zum Übergeordneten Datensatz.
Ich würde auch sagen, dass die Abfrage von 40.000 Datensätzen okay ist.
PS: Eine kleine Erklärung warum die IDs der Verlinkungen eine HT-Nummer (hbzId) und keine reine Ziffernfolge (almaMmsId) haben, das ist ein derivat der aktuellen HBZ Verbunddaten. Die Verlinkungen lösen aber auf.