Kann SkoHub Reconcile als Empfehlungssystem verwendet werden?

Guten Tag,

Die Geschäftsstelle der Kommission für Forschungsinformationen in Deutschland sucht seit geraumer Zeit nach einer Möglichkeit, die Zuordnung der Forschungsfelder unseres Vokabulars (Forschungsfeldklassifikation) zu Forschungsprojekten und wissenschaftlichen Publikationen zu erleichtern. Zum Beispiel wäre es ideal, wenn man ein Empfehlungssystem hätte, welches anhand von Abstracts und Titel wahrscheinliche Forschungsfelder vorschlägt, die dann manuell validiert würden.

Ich verstehe noch nicht ganz, was mit Ihrem reconciliation Dienst später möglich sein wird. Ich habe gerade erfolglos versucht, mit der Testinstanz auf der Fächerklassifikation zu arbeiten. Wäre ihr Dienst geeignet dafür, die Zuordnung zu einzelnen Forschungsfeldern zu erleichtern? Oder gebe ich es eine Möglichkeit den Dienst in diese Richtung weiterzuentwickeln?

Viele Grüße
Göde Both

Lieber @GS_KFiD ,

herzlich willkommen im metadaten.community-Forum und danke für die Anfrage!

Prinzipiell ließe sich mit SkoHub Reconcile technisch ein Empfehlungssystem aufsetzen, das allerdings Vorschläge auf Basis eines Vergleichs von Textstrings machen würde. Die SkoHub-Reconciliation-Schnittstelle funktioniert momentan wie folgt: Sie schicken Terme Schlagwörter an die Reconciliation-Schnittstelle und bekommen Kandidaten möglicher Matches zurück. Implementiert ist der SkoHub-Reconciliation-Dienst als ein Suchmaschinenindex, der das Vokabular enthält und Reconciliation-Protokoll-konforme Abfragen und Antworten unterstützt, so dass das Vokabular etwa aus Software & Tools > OpenRefine angesprochen und die Match-Kandidaten dort angezeigt werden können.

Voraussetzung für gute Vorschläge ist also momentan, dass Suchstring und Match-Stings eine gewisse Übereinstimmung haben. Das wird bei Abstract und Titel nicht immer gegeben sein, weshalb ich zweifel habe, dass die SkoHub-Reconciliation-Schnittstelle direkt weiterhilft.

Um gute Vorschläge zu bekommen, wenn die Strings selbst nicht vergleichbar sind, könnte man etwa ein System zur automatisierten Inhaltserschließung wie Software & Tools > Annif trainieren. Dafür bräuchte es allerdings eine größere Menge intellektuell erschlossener Daten, damit die Vorschläge akzeptabel sind. Wir hatten am Anfang mal mit skohub-suggest ein Annif-basiertes SkoHub-Modul prototypisch entwickelt. Die größte Herausforderung ist hier das Vorhandensein einer ausreichenden Menge an Trainingsdaten. Ggf. könnte hier auch mit LLMs gearbeitet werden, um die Erstellung von Trainingsdaten zu umgehen. Ich bin in diesem Thema nicht drin und weiß nicht, ob so etwas zuverlässig genug und hilfreich funktionieren kann. Vielleicht können @Anna_Kasprzik , @bibliocoder oder andere da mehr zu sagen.

(Seitennotiz: Grundsätzlich könnte man Annif-Vorschläge auch Reconciliation-Protokoll-konform anfragen und zurückgeben, es gab dazu schon Überlegungen, siehe OpenRefine reconciliation API · Issue #338 · NatLibFi/Annif · GitHub, eine Implementierung scheint aber derzeit nicht geplant zu sein.)