Extraktion von Metadaten und Entitäten mit offenen LLMs

Hallo in die Runde,

ich beschäftige mich zurzeit mit dem Potential von Large Language Models zur Extraktion von Metadaten, Zitationsdaten und Named Entities aus Texten wie Artikeln und Büchern. Meine ersten Experimente haben ergeben, dass die großen kommerziellen Modelle (konkret: ChatGPT) den früheren Tools auch ohne weiteres Training himmelweit überlegen sein könnten. Neben allen möglichen anderen Problemen sind diese Modelle aber u.a. aufgrund der Kosten nicht skalierbar. Für den Einsatz und die Anpassung kleinerer, nichtkommerzieller, offener Modelle, wie sie z.B. bei https://huggingface.co/ verfügbar sind, fehlt mir aber das Praxiswissen. Ich würde mich daher dafür interessieren, ob im Kreise dieser Community Leute an ähnlichen Problemen arbeiten.

@acka47 hat mir schon eine Reihe von Tipps gegeben, die ich Euch nicht vorenthalten möchte:

  • @osma@sigmoid.social, der Hauptentwickler von annif.org hat wohl schon Experimente mit LLMs zur Metadatenextraktion durchgeführt, bisher mit eher gemischten Ergebnissen.
  • Bei der SWIB23 gab es einige Beiträge, z.B. „Extracting metadata from grey literature using large language models“ (Slides/Video) von Osma

@acka47 ergänze gerne, was ich vergessen habe.

1 Like

Wir fangen gerade auch an zu experimentieren: https://zenodo.org/records/10591049

4 Likes

In unserem Projekt, das im Rahmen von „Mein Bildungsraum“ (BMBF) läuft, beschäftigen wir uns u.A. auch mit der automatisierten Generierung von Metadaten für Bildungsinhalte. LLMs sind dabei ein technisches Mittel unter mehreren. Die Tendenz geht im Moment dahin, ein LLM in eine Kette von Tools einzubetten. Man kann im Vorhinein durch Training/Tuning oder Prompt Engineering Einfluß nehmen oder muss die Ausgaben durch verschiedene Mittel prüfen, mappen, korrigieren o.Ä. Unsere Erfahrung bisher geht in die Richtung, dass ein LLM kreativ eingesetzt/eingebettet helfen kann, aber andere Methoden durchaus auch ihre Berechtigung haben. Es kommt wie immer drauf an :wink:

1 Like