was verwendet ihr denn so, um Bibliotheksdaten in Solr (oder auch andere Suchmaschinen/Datenbanken/…) zu importieren? Im weitesten Sinne also “ETL-Tools”? Und was sind die Erfahrungen damit?
Wir nutzen seit vielen Jahren solrmarc, um (massenhaft) MARC-Daten in Solr-Indexe einzuspielen (konkret: Daten aus dem GBV/SWB-CBS nach K10plus-Zentral), allerdings immer noch die reichlich veraltete Version solrmarc 2. Das muss nun endlich abgelöst werden.
Naheliegend ist natürlich der Umstieg auf solrmarc 3. Das kann solrmarc 2 funktionell ziemlich genau ersetzen, tut aber halt auch nicht mehr. Und die Entwicklung scheint etwas eingeschlafen zu sein. Mag ein Zeichen sein, dass es das tut was es soll und keine großen Wünsche beim Import von MARC-Daten nach Solr mehr unerfüllt sind . Aber der verfügbare Quellcode kompiliert ohne leichte Anpassungen schon nicht mehr mit Java 21…
Auch ein Umstieg auf solrmarc 3 würde für uns ein größeres Migrationsprojekt. Denn wir würden unsere BeanShell-Skripte nach Java portieren und dabei aufräumen wollen und allerlei modernisieren wollen, was wir um solrmarc herum gebaut haben. Auch lassen sich mit solrmarc nicht alle unsere Anforderungen “elegant” erfüllen (z.B. Anbindung weiterer Datenquellen, Protokollierung, …). Deswegen stellen wir uns die Frage, welche Alternativen zu solrmarc es gibt.
Recht nah an solrmarc kommen nach meinem Eindruck:
Ansonsten fehlt mir der Überblick über das weite Feld “ETL”, deswegen bin ich erstmal dankbar für jeden Hinweis auf positive oder negative Erfahrungen mit unterschiedlichen Tools.
Wir nutzen Metafacture auch für viele andere ETL-Prozesse (HTML-Seiten scrapen, OAI-PMH-Abrfragen, SRU etc.) und mit der seit Version 7 in den Metafacture-Core übernommenen Fix-DSL können Menschen direkt umgehen, die mit Catmandu vertraut sind, weil sie stark an Catmandu-Fix angelegt ist.
In regelmäßigen Prozessen verwende ich nur Solrmarc (in VuFind-Projekten). Bei einmaliger Datenkonvertierung (z.B. XLS → MARC21) habe ich auch mal OpenRefine verwendet und dazu eine Anleitung im OpenRefine Wiki erstellt: Export as MARCXML · OpenRefine/OpenRefine Wiki · GitHub
Moin! Wir verwenden auch SolrMarc in der Version 2 und haben uns kürzlich die Frage vorgelegt, ob bzw. wie wir weiter verfahren. Die Erfahrungen mit Catmandu sind eher schlecht – Catmandu bricht bei uns Verarbeitungsschritte (i.e. Datenkorrekturen) ab, wenn die Daten nicht valide sind.
In der Vergangenheit habe ich mit Metacture in Kombination mit Solr gearbeitet. Das lief gut, die Datenstromorienterte Transformationssprache Metamorph ist etwas gewöhnungsbedürftig.
Auch gute Erfahrungen haben wir mit einem kleineren Projekt (Hamburg Open Science Schaufenster) mit der Kombination von XML-Werkzeugen (XSLT, XML Schema, Schematron + XProc zur Steuerung) gemacht.
Aus dem Bauch heraus würde ich Richtung X-Technologien oder RecordManager gehen. Sowohl X als auch PHP sind Technologien, die wir breit einsetzen und für die wir Kompetenzen haben.
Ja, das ist richtig. Deshalb haben wir 2019 bis 2022 die record-basierte Metafacture-Fix entwickelt, die sich stark an Catmandu Fix orientiert, siehe https://lobid.org/project/metafacture-fix/. Seit Juni 2025 ist Metafacture-Fix – wie oben geschrieben – Teil des Metafacture-Cores. Die Idee war, mit der Kombination aus metafacture-Fix und dem Metafacture Playground das Tool zugänglicher für Metadatenbibliothekar:innen zu machen, die keine Programmiererfahrung haben. Im hbz benutzen wir seit Jahren gar kein Metamorph mehr.