Erfahrungen mit großen Datenabzügen

jaoh · 29. Januar 2024 um 08:08

Hallo,

Hat jemand Erfahrungen mit den Datendiensten der VZG? Ich würde gerne unsere gesamten Metadaten nach systematischen Fehlern durchsuchen um den quantitativen Impact auf unsere nachgelagerten Systeme besser einschätzen zu können. Dazu würde ich einen Gesamtabzug unserer Daten (35 Million Rekords) benötigen. gibt es sowas kostenlos oder müsste ich das erst kaufen?

Technisch könnte ich mir eine Lösung auf Basis von Pyspark und Pymarc vorstellen

Grüße

acka47 · 29. Januar 2024 um 08:42

Hallo @jaoh,

herzlich willkommen im metadaten.community-Forum!

Ich kenne mich mit großen Abzügen von GBV-Daten nicht so aus, aber @nichtich kann hier sicher helfen. Was das Durchsuchen nach systematischen Fehlern angeht, bietet sich vielleicht qa-catalogue von Peter Kiraly an, das so einiges dafür mitliefert.

Ciao
Adrian

pkiraly · 29. Januar 2024 um 09:44

Dear @jaoh,

as @acka47 wrote we are working on a library catalogue quality assessment tool called QA catalogue. We are also working with the K10plus union catalogue, so the tool is able to work with its Pica+ format. The tool is written in Java, R (backend) and PHP (frontend), but we also have a dockerized version. As far as I know there is a plan that VZG provides a dashboard for the partner institution but I can not tell you the current status of this plan, however @nichtich might can tell you more. If you would like to check the UI of QA catalogue, you can visit the dashboard created for the Gent University Library: QA catalogue for analysing library data. (The use MARC21 instead of Pica).

acka47 · 29. Januar 2024 um 10:52

Hi @pkiraly ,

danke für dein Beitrag und willkommen im Forum! Du sagtest mit eben im Chat, dass du Deutsch lesen kannst aber lieber auf Englisch schreibst. Deshalb schreibe ich weiter auf Deutsch. Auf jeden Fall kannst du dich aber gerne hier auf Englisch einbringen. Ich hoffe, das ist so ok für dich.

nichtich · 29. Januar 2024 um 20:26

Die bibliographischen Daten des VZG sind größtenteils Teil des K10plus, dessen Datenbereitstellung im K10plus Wiki beschrieben ist. Die letzten offiziellen Open Data Abzüge in MARC sind allerdings noch von 2021 Aktuellere MARC-Daten stehen im Solr-Index K10plus-Zentral. Wir machen intern vierteljährliche PICA-Abzüge auf deren Grundlage im Laufe dieses Jahres systematische Analysen mittels QA Catalogue umgesetzt werden sollen - im Moment gibt es allerdings nur ein Testsystem, das jederzeit ausfallen und geändert werden kann. Für die Bereitstellung der PICA-Rohdaten haben wir noch kein Verfahren, da die Menge (37 GB gepackt mit Lokal- und Exemplardaten bzw. 13 GB nur Titeldaten) etwas zu groß ist, um sie in einem Datenrepository zu veröffentlichen. Ich kann die entsprechenden Dateien temporär auf einem Webserver freigeben, das ist aber keine dauerhafte Lösung. Der Workflow zur Bereitstellung konzentriert sich zunächst auf Ausschnitte wie die Sacherschließung.

jaoh · 30. Januar 2024 um 09:01

Danke für die schnelle Hilfe

Ich würde die 37GB gerne in Anspruch nehmen da wir uns auch um unsere exemplare kümmern wollen

phu · 30. Januar 2024 um 11:32

Es gibt beim Internet Archive die Kollektion Bulk Bibliographic Metadata. Vielleicht ist das ein guter Ort für die Bereitstellung der Daten. Allerdings weiß ich nicht, wie der Upload erfolgt und wer das machen darf. Martin Czygan weiß das wahrscheinlich.

nichtich · 30. Januar 2024 um 11:35

Die Sammlung beim Internet Archive ist fein, aber schlecht erschlossen. Insbesondere vermisse ich die Versionierung von Datenabzügen. Zenodo nimmt bis zu 50 GB, vielleicht bleiben wir dabei.

pkiraly · 31. Januar 2024 um 16:26

@nichtich You can also use GRO.data (https://data.goettingen-research-online.de/) to archive the dump. It supports versioning, and you can add proper metadata.