Tool für Inhaltserschließung

,

Gibt es eigentlich irgendein Tool, das frei verfügbar ist, in das man Titelstichwörter ect eingeben kann und es zeigt dann die häufigsten Erschließungsdaten (ich will immer alles: GND, RVK…) zu Titeln mit diesen Stichwörtern an?
siehe FrauHollunder: „#inhaltserschließung Gibt es eigentlich irgende…“ - OpenBiblio.Social
Ich stell mir vor, dass ich da Titelstichwörter eingebe und es kommen GND Begriffe zurück, die an Titeln mit diesen Stichwörtern hängen.
Anwendungsfall: z.B. graue Literatur erschließen mit GND. Wir sind eine Landesbibliothek und haben ziemlich viel davon. Ich möchte keine fertige Erschließung, aber die Richtung.
Anwendungsfall 2 RVK vergeben: Ich hab ein Buch, dass noch keine RVK vergeben hat und deshalb kann man im Fachreferenten-Tool noch keine finden. Das Thema ist aber so in der Art schon da, nur nicht bei uns in der Bib. Wenn ich jetzt zb. im BVB suche, dann müsste ich durch Titel durchklicken, weil die RVK kein Filter ist.
Bei beiden Fällen hätte ich gerne eine Häufigkeitszählung der aufgeführten Begriffe, Notationen.

Kein Tool sondern ein Vorgehen: Ich recherchiere ebenfalls teilweise nach Titelstichwörtern im Verbundkatalog (K10Plus) und wechsle dann in die Druckansicht der ersten 100 Treffer. Dort suche ich dann gezielt nach den RVK-Feldern und schaue mir diese durch, ob ich etwas passendes für meinen vorliegenden Titel habe. Bei einer Verschlagwortung mache ich häufig ebenfalls dieses Vorgehen beim DNB-Katalog.

1 „Gefällt mir“

Danke für den Tipp mit der Druckansicht, das spart schon mal die nervige Klickerei :+1:

Prinzipiell scheint mir das ein idealer Anwendungsfall für die Nutzung von Software & Tools > Annif zu sein. Man müsste es dann halt mal mit RVK- und GND- Inhaltserschließung trainieren. Letzteres (GND) werden wir möglicherweise 2026/27 im hbz angehen, davor sammeln wir erstmal Erfahrungen, indem wir Vorschläge für die NWBib-Systematiken mit Annif umsetzen.

1 „Gefällt mir“

Sollte man die Häufigkeiten der verschiedenen RVK-Stellen bei einer Suche in lobid (z.B. „Semantic Web“) nicht auch irgendwie rauskriegen können? Ich habe gerade selbst mit „aggregations“ in der API versucht, aber bin leider gescheitert…

Eine Möglichkeit bietet das pica-Tool. Mit folgender Abfrage können die Top-10 GND-Schlagwörter abgefragt werden, bei deren Hauptsachtiteln die Phrasen „COVID-19“, „SARS-CoV-2“ oder „Long Covid“ vorkommt:

$ pica frequency -siu -l10 '041A/*{ (a, 9) | 9? }' DUMP.dat.gz \
      --where '021A.a =? ["COVID-19", "SARS-CoV-2", "Long Covid"]'
COVID-19,1206347392,125
Pandemie,967941407,98
Deutschland,040118827,25
Auswirkung,041126467,13
Long-COVID,1243016361,13
Krise,040332039,12
Gesundheitspolitik,041137434,11
SARS-CoV-2,1206288906,10
Gesellschaft,040205886,7
Gesundheitswesen,040207757,7

Groß- und Kleinschreibung wird ignoriert; Mehrfachvorkommen von GND-Deskriptoren durch Schlagwortfolgen werden nur einmal gezählt. Für diese Lösung wird aber ein PICA-Abzug benötigt.

Du kannst es so machen: https://lobid.org/resources/search?q=semantic+AND+web++AND+(subject.label%3A"SS+4000"+OR+subject.notation%3A"SS+4000")&format=json.

… ah, nee, quatsch: du willst ja eine Häufigkeits-Liste mit alle möglichen RVKs, die eine Suchanfrage so ergibt. Da müsste lobid da auch die „aggregations“ für subject.notation erlauben, wie du ja geschrieben hast.

1 „Gefällt mir“

Interessanter Weg, wie würde man am Besten den Abzug bekommen, den man gerade braucht? Immer wieder neu?

Das ist leider das Problem, dass es keine öffentlichen, aktuellen Abzüge in PICA+ gibt. @nichtich hatte mal einen K10Plus-Abzug veröffentlicht; aber der wird meines Wissens nicht regelmäßig aktualisiert.

Innerhalb der DNB arbeiten wir meist auf einem Abzug, der monatlich von den CBS-Administrator*innen bereitgestellt wird. Das reicht für viele Anwendungsfälle aus.

Schad’ und danke für die Antwort.

@FrauHollunder Würde dir das für die RVk denn reichen, wenn du lobid entsprechend abfragen kannst? Dann könnten wir diese Elasticsearch-Aggregationen ja aktivieren und es ließe sich auf der Basis auch eine kleine Oberfläche bauen.

1 „Gefällt mir“

Das sieht auf jeden Fall nach einer Lösung aus, die den Arbeitsalltag erleichtert!

@dr0i hat das jetzt umgesetzt, siehe Add aggregations for subject.notation · Issue #2184 · hbz/lobid-resources · GitHub.

Nun lassen sich bei jeder Abfrage die Aggregationen für die subject.notation-Werte ausgeben, wobei am besten gleichzeitig mit subject.source.id:"https://d-nb.info/gnd/4449787-8" auf Titel gefiltert wird, die mindestens eine RVK-Notation haben. (Denn es finden sich ja z.B. auch DDC-Notationen in subject.notation`.)

Hier eine Beispielabfrage nach „semantic web“ im Titel: title:"semantic web" AND subject.source.id:"https://d-nb.info/gnd/4449787-8"&format=json&aggregations=subject.notation

Unten im Suchergebnis finden sich dann folgende Angaben:

"aggregation": {
    "subject.notation": [
      {
        "key": "ST 205",
        "doc_count": 170
      },
      {
        "key": "SS 4800",
        "doc_count": 156
      },
      {
        "key": "ST 252",
        "doc_count": 120
      },
      {
        "key": "SS 4000",
        "doc_count": 84
      },
      {
        "key": "AN 93100",
        "doc_count": 67
      },
      {
        "key": "ST 304",
        "doc_count": 65
      },
      {
        "key": "ST 302",
        "doc_count": 64
      },
      {
        "key": "ST 515",
        "doc_count": 56
      },
      ...

Da sollte sich doch eine kleine Oberfläche oder ein Bash-Skript mit schreiben lassen, was übersichtlich die gewünschten Informationen liefert, oder @Philipp_Zumstein @FrauHollunder ?

1 „Gefällt mir“

Das Ergebnis ist schon mal genau was ich gesucht habe :folded_hands: …super, danke die schnelle Umsetzung!

3 „Gefällt mir“

Mit dem Fachreferenten-Tool ist der DA-3 gemeint? Eurospider arbeitet an einer Weiterentwicklung des DA-3, um Vorschläge für bisher gänzlich unerschlossene Titel zu generieren. Zunächst liegt der Fokus auf der BK. Beim Workshop Computergestützte Inhaltserschließung am 24./25.11.2025 sollen Ansatz und vorläufige Ergebnisse vorgestellt werden. Das hilft natürlich nicht unmittelbar für die GND- oder RVK-Vergabe …

Da wir bei uns leider keinen DA 3 haben meine ich das hier: Unterstützungstool für Fachreferatsarbeit
Der DA3 würde eh die meisten meiner Probleme lösen, aber leider ist er derzeit für uns in Münster nicht verfügbar.

So hatte ich dies auch gemeint: Fachreferats-Tool oder malibu oder Mannheimer Tool oder wie auch immer man das Ding nennen will :wink: Issue ist erstellt, ohne konkrete weitere Planung.

1 „Gefällt mir“

Ohne das Fachreferats-Tool, so wie es jetzt schon ist, würde die Arbeit der Erschließung derzeit noch 3x so lang brauchen.
Ich wollte nicht den Eindruck erwecken, dass ich es nicht gut finde, es hilft mir jetzt schon ewig bei der Arbeit.

2 „Gefällt mir“