Annif-Tutorial zum Selbststudium

Hallo zusammen!

Um diese Kategorie mal einzuweihen:
Wer sich im Selbststudium in Annif einarbeiten möchte, kann diese Materialien hier nutzen: GitHub - NatLibFi/Annif-tutorial: Instructions, exercises and example data sets for Annif hands-on tutorial

Beste Grüße
Anna Kasprzik

Danke, Anna! Das muss ich mir auch mal anschauen. Habe mich bisher noch gar nicht mit Annif beschäftigt.
Ach ja, und herzlich willkommen im Forum! Schön, dass Du hier bist :smiley:

2 „Gefällt mir“

Hallo @Anna_Kasprzik ,

ich versuche mich gerade am Tutorial:
Bei Excercise 2, wenn ich mit dem Projekt für ZBW mit dem kleinen Testdatenset trainieren will, stolpere ich über zwei Dinge:

  1. Bekomme ich folgende Fehlermeldung, wenn ich versuche mit dem kleinen ZBW Daten zu trainieren: https://gist.githubusercontent.com/TobiasNx/249194c81126ebc1e79e1651487925f5/raw/8247d0a457c4ea75ebd21288c6cd6eb6c3a0833e/excercise2TrainingError

Ich soll also nltk punkt_tab nachinstallieren. Das hab ich auch gemacht. Dannach läufts.

  1. Im Tutorial wird dann gesagt, dass das Trainieren vom kleinen Set 1 min dauert und vom großen 5 min. Bei mir dauert es wesentlich länger.

Das kleine Set ist nach einer halben Stunde durch. Das Große bleibt hier hängen:

$ annif train stw-tfidf-en data-sets/stw-zbw/stw-econbiz.tsv.gz
Backend tfidf: transforming subject corpus
Backend tfidf: creating vectorizer

Ist das bekannt dass das mal länger dauern kann?

Rechenleistung sollte kein Problem sein, habe 32 GB Ram, Linux Mint LMDE 6, und habe Annif in Linux installiert. Python 3.11.2.

Wenn ich in der Systemüberwachung schaue, dann passiert da auch was, und annif nutzt knapp 9 % meines CPU.

Hallo @TobiasNx,

spontan fällt mir da nichts ein – auf solche Fragen bekommt mensch typischerweise am schnellsten eine Antwort über die Annif User Googlegroup – bist du da schon drin?

Ich mach ja gerade die ersten Schritte. Dachte eventuell ist das ein bekannteres muster

Ich frag mal mein Team, aber für genau sowas ist die Googlegroup echt gut! :slight_smile:

1 „Gefällt mir“

@TobiasNx, mein Team rät, das Virtual-Box-Image zu verwenden? Das würde die Trainingszeit oft stark reduzieren?

1 „Gefällt mir“

Ich hab die Googlegroup jetzt genutzt, mein Beitrag hängt wohl noch bei den Moderatoren. Ich versuch mal mit der Virtuellen Maschine dann auchmal.

Interner Chat mit den Finnen hat jetzt noch ergeben „And probably the slowdown Tobias noticed in the groups message is due to some changes in the just released NLTK: Release 3.8.2 · nltk/nltk · GitHub“.

Und an nltk sind sie dran, für nächstes Mal (nächste Edition des Tutorial wird bei der swib24 passieren, 25. bis 27. November online!)

1 „Gefällt mir“

Danke @Anna_Kasprzik die google group hat das nochmal ausführlich geschildert :slight_smile:

https://groups.google.com/g/annif-users/c/y27-Eg3W19s

1 „Gefällt mir“