In der 8. Sitzung sollten wir uns mit Suchmaschinen und Discovery-Systemen auseinandersetzen. Dazu soll VuFind installiert und konfiguriert werden. Zuerst gab es aber noch einen Nachtrag zum Modellieren der Metadaten und zur Nutzung der Schnittstellen.

Da ich keine Zeit für die Aufgabe zur Anreicherung mit lobid-gnd hatte, gehe ich hier auch nicht auf die Diskussion zu dieser ein. Evtl. werde ich mir den Auftrag nach Beendigung aller Artikel noch anschauen.

Validierung von XML

Die Daten, die wir letztes Mal in OpenRefine bearbeitet haben, wurden nun als XML in ein neues Verzeichnis exportiert. Für die Validierung haben wir xmllint verwendet. Dieses ist auf Ubutnu bereits vorinstalliert.
Um die XML-Daten mit dem offiziellen Schema von MARC21 abzugleichen, mussten wir dieses zuerst herunterladen.

XML-Deklaration

Ein XML-Dokument muss als solches definiert werden. Dies wird in der ersten Zeile der Datei gemacht, und zwar etwa so:
<?xml version="1.0" encoding="utf-8" standalone="yes"?>
Dabei werden folgende Dinge definiert:

  • xml: Das ist eine XML-Datei
  • version=”1.0”: Die Datei entspricht dem XML-Standard in Version 1.0 (Angabe zwingend)
  • encoding=”utf-8”: Die Codierung der Zeichen folgt dem Standard Unicode (Angabe optional, aber in Praxis üblich)
  • standalone=”yes”: Gibt an, ob eine DTD verwendet wird. Das yes kann dabei für drei Dinge stehen: es wird keine externe DTD referenziert, das Dokument enthält eine interne DTD oder das Dokument verwendet gar keine DTD. Falls no stehen würde, bedeutet dies, dass eine externe DTD verwendet werden würde, auf die referenziert wird. (Angabe optional)

Die Reihenfolge der Pseudo-Attribute ist zwingend.

Weitere Tools zur Metadatentransformation

Als alternative (OpenSource) Softwares zu OpenRefine könnten folgende verwendet werden:

  • Catmandu
  • Metafacture
  • MarcEdit

Generell sollte geschaut werden, für was genau die Software verwendet werden soll und sie dann passend dazu auswählen. In der Praxis wird laut Dozierenden oftmals eine Software ausgewählt, die bereits gut beherrscht wird. Ich gehe davon aus, dass dies meist nicht zielführend ist.

JSON-APIs

Als erstes muss ich meine Erinnerungen auffrischen: APIs sind Anwendungsprogrammierschnittstellen. Es ist also ein Programmteil eines Softwaresystem, der anderen Programmen zur Verfügung gestellt wird, damit dieses die Software anbinden kann.
Im Web-Umfeld, ausgenommen der Bibliothekswelt, wird normalerweise mit JSON gearbeitet. Moderne APIs liefern oft Antworten im JSON-Format (anstatt in XML wie bei SRU oder OAI-PMH). JSON lässt sich aber genauso wie XML im Browser anschauen und maschinell verarbeiten.

Bsp. für JSON-API: lobid-gnd: Der Browser zeigt die JSON Daten relativ gut an und die Daten können gut verarbeitet werden.
Bsp. für Tool: scrAPIr: erlaubt Daten von bekannten Webseiten zu beziehen, dazu werden die APIs der Webseiten (i.d.R. JSON) genutzt, es werden auch Vorlagen für Code bereitgestellt (Javascript, Python).

Metadatenstandard LIDO

LIDO (Lightweight Information Describing Objects) basiert auf CIDOC. Es ist auch ein XML-Standard und eignet sich zur Beschreibung von Kulturobjekten. LIDO oft in Museen verwendet.
Ereignisse stehen im Fokus der Beschreibung von LIDO, die Ereignisse sind Entitäten. Also bspw. wird beschrieben: Die Vase ist zerbrochen, dann ist sie restauriert worden etc. Die Entitäten haben dann in der Beschreibung den Ort, die Zeit etc. Hat eine Linked Open Data Struktur: die Objekte haben URIs.
Durch diese spezielle Struktur ist die verlustfreie Transformation in andere Formate jedoch schwierig.

Struktur

deskriptive Metadaten:

  • Identifikation (Titel/Name, Beschreibung, Maße, etc.)
  • Klassifikation (Art, Gattung, Form, etc.)
  • Ereignisse (Herstellung, Bearbeitung, Besitzwechsel, Restaurierung, etc.)
  • Relationen (Objekte, Personen, Orte, etc.)

administrative Metadaten:

  • Rechte (Objekt, Datensatz, Nutzung, Verbreitung, etc.)
  • Datensatz (Identifikation, Urheber, etc.)
  • Ressourcen (Digitalisat, Nachweis, etc.)
  • Unterscheidung zwischen display elements und index elements

Nachtrag vom 11.12.2020: LIDO bietet nebst der ungewohnten ereignis-zentrierten Objektbeschreibung einige Vorteile, wie die Linked-Data Strukturen, die Verwendung von kontrollierten Ontologien/Vokabularen und die Wiederverwendung von Entitäten wie Ereignissen.

Installation und Konfiguration von VuFind

Die Installation und Konfiguration wurde nach den Vorgaben der Dozierenden durchgeführt. Sie kann hier nachgelesen werden. Wie immer habe ich einzelne Befehle nicht ganz verstanden, was aber weiter nicht schlimm ist.
Zum Schluss haben wir noch einen Testimport durchgeführt, der ohne Probleme funktioniert hat.