Tag 9 - Suchmaschinen und Discovery-Systeme 2 | Lerntagebuch Bibliotheks- und Archivinformatik

In der Sitzung vom 11.12.2020 haben wir uns ein weiteres Mal mit Suchmaschinen und Discovery-Systemen auseinandergesetzt. Um ehrlich zu sein, fand ich die Übungen in dieser Vorlesung eher schwierig umzusetzen. Ich bin mir auch nicht sicher, ob ich das was ich in den folgenden Abschnitten zusammenfasse, ganz richtig verstanden habe.

Funktion von Suchmaschinen am Beispiel von Solr

Solr ist mit Elasticsearch quasi ein “Industriestandard”. Diese beiden OpenSource Suchmaschinen sind also die meistverwendeten.
Üblicherweise sollte vor Import von Daten in einem Schema festgelegt werden welche Felder existieren und welche Datentypen diese beinhalten dürfen. Es gibt aber immer mehr das Schema-less Prinzip: also Import ohne Schema.
Solr hat zwar eine integrierte Suchoberfläche, die aber nur zu Demo-Zwecken gedacht ist. Technisch können Suchen nachgestellt werden, es ist aber wirklich nur zum Testen gedacht. Wenn man also Solr verwenden möchte, muss man selbst noch eine Website machen, oder eine andere Software dazu verwenden.
Das Discovery-System VuFind basiert auf Solr (sowie auch ExLibris Primo).

Folgende Punkte sollen den Unterschied zwischen einem Suchindex (wie Solr) und einer Datenbank (wie MySQL) aufzeigen. In beide können Daten eingespeist und abgefragt werden.

Solr

flache Dokumente: ein Dokument, mehrere Eigenschaften aber keine Relationen zu anderen Dokumenten
lexikalische Suche: Begriff wird mit Grammatik verstanden und entsprechen behandelt: bspw. Reduzierung auf Grundform der Verben, womit dann gesucht werden kann
keine Konsistenzprüfung: Daten können nicht persistent gespeichert werden. Daten können verloren gehen
statische Daten
Retrieval –> für Suche in grossen Datenbeständen geeignet

MySQL

relationale Datensätze: Datensätze verweisen aufeinander
reiner Glyphenvergleich: Suchbegriff wird genauso wie eingegeben mit den vorhandenen Datensätzen abgeglichen
Transaktionssicherheit
veränderliche Daten
Storage (Create, Read, Update, Delete) –> Konsistente und dauerhafte Aufbewahrung von Informationen

Übung: Suche in VuFind vs. Suche in Solr

In der Konfigurationsdatei von VuFind und unter dieser Adresse sind die Felder des Solar Index Schema erläutert. Dabei haben sich die Entwickler’innen überlegt welche Daten aus MARC in welches Feld sollen. Es gibt bspw. bei den Titeln verschiedene Felder: 1x Haupttitel, 1x Alternativtitel, 1x Untertitel. Diese werden im Ranking jeweils anders behandelt. Wenn also bspw. ein Wort im Haupttitel vorkommt wird dies höher gerankt, als wenn das Wort im Alternativtitel vorkommt. Diese Wertung wird allerdings nur vorgenommen, wenn in der Freitextsuche gesucht wird, nicht aber wenn in einem bestimmten Feld gesucht wird.
In der Übung sollten wir nun die beiden Suchergebnisse in VuFind und Solar anhand des Logfiles miteinander vergleichen. Bei mir haben die Anfragen irgendwie nicht immer Ergebnisse im Logfile geliefert, was mich sehr verwirrt hat. Ich habe mich dann darauf beschränkt, bei jemand anderem mitzuschauen.
Wir konnten hauptsächlich feststellen, dass in Solr viel weniger angezeigt wurde als in VuFind. Dies weil in VuFind ein Ranking vorgenommen wurde.

Übung zur Datenintegration

Dazu sollten wir die Daten, die wir aus Koha, ArchivesSpace, DSpace und DOAJ exportiert haben, in VuFind importieren.
Bei DSpace und ArchivesSpace Daten kam allerdings eine Fehlermeldung, weil eine ID fehlte. Die ID ist bei MARC die Feldnummer 001. Wenn man MARC-Daten validiert, wird kein Fehler angezeigt, wenn die 001 fehlt, da es keine Voraussetzung für MARC Daten ist. Aber in VuFind ist es eine Voraussetzung, deshalb erschien diese Fehlermeldung.
Die 001 kann entweder direkt im XML oder mit OpenRefine einfügt werden.

Gruppendiskussion: Perfekter Katalog

Die Quintessenz der Diskussion ist folgende: DEN perfekten Katalog gibt es wohl nicht. Je nach dem für welche Institution, welche Benutzenden, welche Dateien, … der Katalog verwendet werden soll, werden wohl andere Funktionen gefordert/erwartet/gewünscht. In Bezug auf einen Bibliothekskatalog wäre es für uns Bibliothekar’innen schön, wenn wir einen Einblick in das Ranking hätten.

Marktüberblick Discovery-Systeme:

Anscheinend gibt es nicht so viel Konkurrenz in diesem Bereich. Allerdings sind die Discovery-Systeme von Schul- und öffentlichen Bibliotheken ganz andere. Aber ehrlichgesagt war ich an dieser Stelle doch schon ziemlich erschlagen von einem ganzen Tag Unterricht, weshalb ich auf eine weitere Ausführung lieber verzichte.