Trainingsdaten für bibliographische und Zitationsdaten

Hallo alle,

wir sind immer noch damit zu Gange, Literaturreferenzen aus Literatur zu extrahieren, die aus den verschiedensten Gründen (noch) nicht in Scopus, Web of Science, OpenAlex, OpenCitations usw. vertreten ist. (Vgl. Christians Post vom Februar.) Wenn wir jetzt Trainingsdaten generieren, wollen wir die natürlich möglichst interoperabel gestalten, so dass andere darauf aufbauen und sie für eigenes Training nutzen oder vielleicht sogar weitere Beispiele zu unserer Sammlung beisteuern können.

Wir codieren unsere Beispiele in TEI XML (in einem quellennahen <bibl>- und noch dazu in einem strukturierteren <biblStruct>-Format) und bereiten Routinen für die automatische Konversion in andere Formate vor. Darunter ist uns die Erzeugung von RDF-Daten sehr wichtig, und wir stellen uns Fragen nach den einschlägigen Standards.

Für die interoperable Kodierung von Zitationsinformationen in RDF scheint mir die CiTO-Ontologie einschlägig und relativ unumstritten zu sein. (Oder?)
Was empfehlt ihr aber für die allgemeineren bibliographischen Daten? FaBiO, wie es offenbar z.B. die DDB verwendet? bibo (ist das der beste Link?), wie es - wenn ich es richtig verstanden habe - der Linked Data Service der DNB verwendet und welches in den DINI-Empfehlungen erwähnt wird? Oder gar so etwas wie BibFrame? Oder alles parallel, das schadet ja nichts?

Gibt es da eine Best Practice? Ich tendiere zu FaBiO mit DC „Einsprengseln“, wo diese sich anbieten, aber ich bin sehr unsicher. Zu was für einem Datensatz von Literaturverweisen könntet/würdet ihr am liebsten Daten beisteuern? Welches Format wäre für eure eigenen Bedarfe am hilfreichsten?

Entschuldigung für die lange Nachricht! Ich bin für jeden Kommentar dankbar, viele Grüße,
Andreas

PS. Was braucht/benutzt eigentlich wikidata/WikiCite? Oder ist deren Datenformat sowieso eigentlich eher für die „interne“ Nutzung gedacht und es käme in dieser Hinsicht darauf an, etablierte Import-Mechanismen gut mit einem anderen (o.g.?) Format bedienen zu können?

Hallo Andreas,

bezüglich der bibliographischen Daten:
FaBiO bildet das FRBR Modell ab und bibo enthält das nicht. Das ist für mich der größte Unterschied. Wenn du also so etwas wie Werk, Expression, Manifestation und Item in den Daten hast und die transportieren willst, dann ist FaBiO gut geeignet. Dadurch wird es natürlich komplexer.

An der DNB verwenden wir bibo mit dc und Elemente aus der RDA Registry (und noch einige andere Vokabulare). Die RDA Registry könntest du dir nochmal ansehen.

Bibframe geht natrülich auch. Ist aber auch sehr komplex. Könnte aber auf lange Sicht relevant sein…

Ich habe da abschließend keine Empfehlung für dich. Nur mach es nicht zu komplex :grin:

Danke, das ist doch schon recht hilfreich. :+1:
Da wir in der Literatur Zitationen von Neu-Editionen, Wiederauflagen, Übersetzungen u.ä. finden und erkennen wollen, können wir die FRBR Klassen vielleicht ganz gut gebrauchen.Die RDA Registry war mir noch nicht bekannt, da schaue ich mal rein…

Für die Nachnutzung können simple Formate auch leichter handelbar sein als RDF, wo man noch eine Wahl zwischen verschiedenen Vokabularen hat. Daher könnte ich mir vorstellen, dass es auch nützlich ist, ein einfaches Format zusätzlich anzubieten für Literaturreferenzen.

Im Kontext Literaturverwaltungsprogramme gibt es insbesondere CSL-JSON, RIS, BibTeX als einfache Formate. Ersteres ist auch mit einem Schema standardisiert und enthält alle Daten (aber nicht unbedingt mehr), welche man braucht um ein Literaturverzeichnis zu generieren. Für Deinen Anwendungsfall (Daten aus Literaturverzeichnissen extrahieren) würde das ja gut passen. Für die anderen beiden Formate könnte es in einigen Programmiersprachen schon bereits Libraries geben.

Für Wikidata habe ich bisher Exporte über QuickStatement gemacht. Dafür braucht man die Daten im QuickStatement-Format, wofür man vorallem die jeweiligen Properties in Wikidata zuordnen können muss.

Allgemein kann es bei dem Thema auch interessant sein sich AnyStyle anzuschauen.