Schnittstelle zum Prüfung der Existenz von angegebener Literatur / KI-Detektor

Im Fediverse gibt es eine spannende Diskussion, initiiert von Mathias Schindler. Hier der erste Post: https://gruene.social/@mathias/113403754416368912

Das Thema passt sehr gut auf die Thematik dieses Forums passt, weshalb ich es hier ergänze. Es haben sich bereits eine Menge Leute zu Worte gemeldet und verschiedene Lösungen vorgeschlagen. Ich werde die hier nicht im Einzelnen wiedergeben aber zumindest das Problem und den allgemeinen Lösungsansatz darzustellen:

Problem

In Wikipedia werden durch KI generierte Literaturhinweise eingetragen, die mit der Realität nicht übereinstimmen. Sprich: Es wird Literatur referenziert, die nicht existiert.

Ziel

Ein automatisiertes Verfahren zur Prüfung, ob eine Literaturangabe auf eine tatsächlich existierende bibliographische Ressource verweist, in Mathias’ Worten:

Literaturangaben sollen gegen Bibliothekskataloge abgleichen, interne Konsistenz von Autorennamen, ISBN anderen stabilen Identifiern prüfen.

Als mögliche Systeme wurden ebreits WorldCat und Anna’s Archive genannt.

GVI?

Was ist denn mit dem Gemeinsamen Verbündeindex (GVI)? Der müsste doch prinzipiell dafür geeignet sein. Ich kenne mich mit dem GVI selbst nicht aus, es gibt aber bestimmt Menschen hier, die das besser einschätzen können.

Leider gibt es dafür keine offene Schnittstelle, um das mal auszuprobieren, siehe GVI - Nutzung. Ich denke, die Chancen sind aber nicht schlecht, für diesen Anwendungsfall Zugriff zu bekommen (wenn denn der GVI technisch überhaupt eine sinnvolle Lösung darstellt).

@awinkler schreibt:

da sind die Daten aber sehr dünn, oder? https://sru.kobv.de/gvi?version=1.1&operation=searchRetrieve&query=mikrobiologie&startRecord=1&maximumRecords=10&recordSchema=marcxml&recordPacking=string&stylesheet=%2Fetc%2Fmetaproxy%2Fsru.xsl

Ich würde es wohl über die Solr-API versuchen. Das Solr-Schema sieht auf den ersten Blick recht vielversprechend aus: gvi/solr_config/schema.xml at master · gemeinsamerverbuendeindex/gvi · GitHub

Bin aber wie gesagt nicht so bewandert im GVI…

Bei Zeitschriftenartikel oder ähnlichen Publikation würde ich direkt die Metadaten über DOI abfragen. Zum Beispiel über Content Negotation, z.B.:

curl -L -H "Accept: application/x-research-info-systems" "https://doi.org/10.57689/DINI-BLOG.20240409"

Oder ein anderes unterstütztes Format wie RDF-XML. Das sollte m.W. zumindest bei DOIs über Crossref und DataCite funktionieren.

Ansonsten wäre mein Impuls eher Citoid, die bereits bestehende Einbindung von den Zotero Translators in Wikipedia, weiter auszubauen und dafür einzusetzen. Bei ISBNs werden dabei auch etwa Bibliothekskataloge über Schnittstellen abgefragt.