Willkommen bei „DiaCollo für GEI-Digital“!

Mit den hier zur Verfügung gestellten Web-Oberflächen können Sie die Textsammlung GEI-Digital-2020 durchsuchen und mit computerlinguistischen Verfahren analysieren. Die Sammlung besteht aus 5036 überwiegend deutschsprachigen historischen Schulbüchern die zwischen 1648 und 1921 publiziert wurden und deren digitale Volltexte automatisch generiert wurden.

Nieländer, Maret; Jurish, Bryan (2021): D* für Anfänger:innen: Ein Tutorial. Einfache und komplexe Suchanfragen, Frequenzanalysen und diachrone Kollokationsanalysen in der D*-Korpusmanagement-Umgebung. urn:nbn:de:0220-2021-0088.

Über das Korpus

Die Metadaten und automatisch generierten Volltexte des GEI-Digital 2020-Korpus stammen aus der digitalen Schulbuchbibliothek GEI-Digital des Georg-Eckert-Institut – Leibniz-Institut für internationale Schulbuchforschung (GEI) und seinen Partnern. Die dortige Digitalisierung historischer Bildungsmedien wird seit 2009 in unterschiedlichen Förderlinien von der Deutschen Forschungsgemeinschaft (DFG) unterstützt. Der Schwerpunkt liegt dabei auf deutschsprachigen Werken zu Realienkunde, Geschichte, Geographie und Politik sowie Lesebüchern und Fibeln, die für den schulischen Unterricht und teilweise auch für die Lehrer:innenausbildung vorgesehen waren. Das GEI-Digital-2020 Korpus ist statisch. Es enthält alle Werke, die seit Ende Dezember 2020 im digitalen Volltext in GEI-Digital zur Verfügung stehen.
Bei der Nutzung der Analysewerkzeuge und Interpretation der Ergebnisse ist zu beachten, dass die Datengrundlage einzelner Zeitabschnitte unterschiedlich groß ist und dass die Volltexte – und in Konsequenz die mittels NLP generierten Zusatzinformationen – aufgrund der rein automatisch durchgeführten Texterkennung eine gewisse Fehlerrate aufweisen.
Eine Liste aller im GEI-Digital-2020 Korpus verfügbaren Werke finden Sie hier in Form einer Excel-Datei.

Nutzungsbedingungen

Die Bibliographischen Angaben und OCR-generierten Volltexte sind frei nachnutzbar durch eine CC0-Lizenz (siehe auch Nutzungsbedingungen für GEI-Digital).
Zitationsempfehlung für GEI-Digital, bzw. einzelne Werke im GEI-Digital-2020 Korpus: Werktitel, GEI-Digital + PURL (Persistent Uniform Resource Locator) des Images/Titels. Beispiel: Campe, Joachim Heinrich: Neue Methode, Kinder auf eine leichte und angenehme Weise Lesen zu lehren, Altona: Eckhardt, 1778, GEI-Digital, http://gei-digital.gei.de/viewer/resolver?urn=urn:nbn:de:0220-gd-11271952.
Zitieren von Rechercheergebnissen: […], aus GEI-Digital-2020, bereitgestellt durch das GEI, <https://www.diacollo.gei>, <aktuelles Datum>

Über die Analysewerkzeuge

DiaCollo ist eine Open Source Software (Quellcode) für die diachrone Kollokationsanalyse. Sie wurde ab 2015 im Rahmen der Software-Entwicklungsarbeiten des Verbundprojekts CLARIN-D am Zentrum Sprache der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) von Bryan Jurish im Rahmen einer Kooperation und in Zusammenarbeit mit der Facharbeitsgruppe Geschichtswissenschaften entwickelt und kontinuierlich verbessert. DiaCollo ist Bestandteil der Korpusverwaltungssoftware D* des Zentrums Sprache an der BBAW, die für die Arbeit mit sorgfältig kuratierten, d.h. möglichst fehlerfreien und originalgetreuen digitalen Textsammlungen optimiert ist.
GEI-Digital visualized wurde in einer Kooperation des GEI mit der Fachhochschule Potsdam im Urban Complexity Lab entwickelt.

Über dieses Projekt

Das Projekt DiaCollo für GEI-Digital wurde durch den Seed Funds „GEI-Innovation 2020“ gefördert und hat experimentellen Charakter (siehe auch Projektseite). Ziel des Projektes war es, die Daten des GEI mit Werkzeugen der BBAW zusammenzubringen, um die computergestützte Analyse und Visualisierung der Volltexte zu ermöglichen, bzw. zu evaluieren, inwieweit dies mit der derzeitigen Datenqualität möglich ist.
Das GEI stellte hierfür Metadaten und automatisch generierte Volltexte historischer Schulbücher bereit, die zum Projektkorpus GEI-Digital-2020 zusammengefasst wurden. Die Daten wurden zunächst nach TEI konvertiert und dann in Kooperation mit dem Zentrum Sprache der BBAW mit den dort für historische Texte genutzten und entwickelten Werkzeugen vorverarbeitet und indexiert.
Die Analyse des Korpus‘ wird ermöglicht durch eine Instanz der D*- und DiaCollo-Software, die für das GEI aufgesetzt wurde und am GEI gehostet wird. Dabei wurde eine Exportmöglichkeit für die Ergebnisse der Korpusabfragen u. a. im KWIC/CSV-Format implementiert.
Im Rahmen dieses Projektes wurden die Daten des GEI-Digital-2020-Korpus auch über das Zentrum Sprache zugänglich gemacht, wo sie z.B. von der Community der Sprachwissenschaft und Germanistik nachgenutzt werden. Als Teil der Historischen Korpora des DWDS können sie dort vergleichend oder gemeinsam mit weiteren historischen Quellensammlungen der Jahre 1465–1969 mit der Weboberfläche des DWDS und auch mit einer D*-Instanz genutzt werden.
Um den Nutzer:innen Einblicke in die Zusammensetzung und Besonderheiten dieses Datenbestandes zu ermöglichen, wurden für dieses Projekt Visualisierungen und Filterfunktionen nachgenutzt, die erstmals 2017 in einer Kooperation des GEI mit der Fachhochschule Potsdam im Urban Complexity Lab entwickelt worden waren.

Projektteam:

Wir bedanken uns beim Zentrum Sprache der BBAW für die Kooperation, insbesondere bei der Bereitstellung der Software und der Beratung. Die Projektbeteiligten bedanken sich darüber hinaus beim Projektteam von GEI-Digital und der IT-Abteilung des GEI.

Verwandte Projekte und Weitere Ressourcen

Literaturauswahl