Willkommen bei „DiaCollo für GEI-Digital“!
Mit den hier zur Verfügung gestellten Web-Oberflächen können Sie die Textsammlung GEI-Digital-2020 durchsuchen und mit computerlinguistischen Verfahren analysieren. Die Sammlung besteht aus 5036 überwiegend deutschsprachigen historischen Schulbüchern die zwischen 1648 und 1921 publiziert wurden und deren digitale Volltexte automatisch generiert wurden.
- Werkzeuge für die Korpusanalyse
Hinweis: Falls die Werkzeuge einmal nicht erreichbar sein sollten, kontaktieren Sie bitte nielaender [at] leibniz-gei.de und nutzen Sie ggf. einstweilen die Instanz an der BBAW, vielen Dank!
- Tutorial
- (PDF) Nieländer, Maret; Jurish, Bryan (2021): D* für Anfänger:innen: Ein Tutorial. Einfache und komplexe Suchanfragen, Frequenzanalysen und diachrone Kollokationsanalysen in der D*-Korpusmanagement-Umgebung. urn:nbn:de:0220-2021-00
- (PDF) Nieländer, Maret; Jurish, Bryan (2021): D* für Anfänger:innen: Ein Tutorial. Einfache und komplexe Suchanfragen, Frequenzanalysen und diachrone Kollokationsanalysen in der D*-Korpusmanagement-Umgebung. urn:nbn:de:0220-2021-00
- Visualisierung der Metadaten
- GEI-Digital-2020 visualized zum Filtern und interaktiven Darstellen von Schulbuchmengen anhand der Metadaten
Über das Korpus
Die Metadaten und automatisch generierten Volltexte des GEI-Digital 2020-Korpus stammen aus der digitalen Schulbuchbibliothek GEI-Digital des Leibniz-Institut für Bildungsmedien | Georg-Eckert-Institut (GEI) und seinen Partnern. Die dortige Digitalisierung historischer Bildungsmedien wird seit 2009 in unterschiedlichen Förderlinien von der Deutschen Forschungsgemeinschaft (DFG) unterstützt. Der Schwerpunkt liegt dabei auf deutschsprachigen Werken zu Realienkunde, Geschichte, Geographie und Politik sowie Lesebüchern und Fibeln, die für den schulischen Unterricht und teilweise auch für die Lehrer:innenausbildung vorgesehen waren. Das GEI-Digital-2020 Korpus ist statisch. Es enthält alle Werke, die bereits seit Ende Dezember 2020 im digitalen Volltext in GEI-Digital zur Verfügung stehen.
Bei der Nutzung der Analysewerkzeuge und Interpretation der Ergebnisse ist zu beachten, dass die Datengrundlage einzelner Zeitabschnitte unterschiedlich groß ist und dass die Volltexte – und in Konsequenz die mittels NLP generierten Zusatzinformationen – aufgrund der rein automatisch durchgeführten Texterkennung eine gewisse Fehlerrate aufweisen.
Eine Liste aller im GEI-Digital-2020 Korpus verfügbaren Werke finden Sie hier in Form einer Excel-Datei.
Nutzungsbedingungen
Die Bibliographischen Angaben und OCR-generierten Volltexte sind frei nachnutzbar durch eine CC0-Lizenz (siehe auch Nutzungsbedingungen für GEI-Digital).
Zitationsempfehlung für GEI-Digital, bzw. einzelne Werke im GEI-Digital-2020 Korpus: Werktitel, GEI-Digital + PURL (Persistent Uniform Resource Locator) des Images/Titels. Beispiel: Campe, Joachim Heinrich: Neue Methode, Kinder auf eine leichte und angenehme Weise Lesen zu lehren, Altona: Eckhardt, 1778, GEI-Digital, http://gei-digital.gei.de/viewer/resolver?urn=urn:nbn:de:0220-gd-11271952.
Zitieren von Rechercheergebnissen: […], aus GEI-Digital-2020, bereitgestellt durch das GEI, <https://www.diacollo.gei>, <aktuelles Datum>
Über die Analysewerkzeuge
DiaCollo ist eine Open Source Software (Quellcode) für die diachrone Kollokationsanalyse. Sie wurde ab 2015 im Rahmen der Software-Entwicklungsarbeiten des Verbundprojekts CLARIN-D am Zentrum Sprache der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) von Bryan Jurish im Rahmen einer Kooperation und in Zusammenarbeit mit der Facharbeitsgruppe Geschichtswissenschaften entwickelt und kontinuierlich verbessert. DiaCollo ist Bestandteil der Korpusverwaltungssoftware D* des Zentrums Sprache an der BBAW, die für die Arbeit mit sorgfältig kuratierten, d.h. möglichst fehlerfreien und originalgetreuen digitalen Textsammlungen optimiert ist.
GEI-Digital visualized wurde in einer Kooperation des GEI mit der Fachhochschule Potsdam im Urban Complexity Lab entwickelt.
Über dieses Projekt
Das Projekt DiaCollo für GEI-Digital wurde durch den Seed Funds „GEI-Innovation 2020“ gefördert und hat experimentellen Charakter (siehe auch Projektseite). Ziel des Projektes war es, die Daten des GEI mit Werkzeugen der BBAW zusammenzubringen, um die computergestützte Analyse und Visualisierung der Volltexte zu ermöglichen, bzw. zu evaluieren, inwieweit dies mit der derzeitigen Datenqualität möglich ist.
Das GEI stellte hierfür Metadaten und automatisch generierte Volltexte historischer Schulbücher bereit, die zum Projektkorpus GEI-Digital-2020 zusammengefasst wurden. Die Daten wurden zunächst nach TEI konvertiert und dann in Kooperation mit dem Zentrum Sprache der BBAW mit den dort für historische Texte genutzten und entwickelten Werkzeugen vorverarbeitet und indexiert.
Die Analyse des Korpus‘ wird ermöglicht durch eine Instanz der D*- und DiaCollo-Software, die für das GEI aufgesetzt wurde und am GEI gehostet wird. Dabei wurde eine Exportmöglichkeit für die Ergebnisse der Korpusabfragen u. a. im KWIC/CSV-Format implementiert.
Im Rahmen dieses Projektes wurden die Daten des GEI-Digital-2020-Korpus auch über das Zentrum Sprache zugänglich gemacht, wo sie z.B. von der Community der Sprachwissenschaft und Germanistik nachgenutzt werden. Als Teil der Historischen Korpora des DWDS können sie dort vergleichend oder gemeinsam mit weiteren historischen Quellensammlungen der Jahre 1465–1969 mit der Weboberfläche des DWDS und auch mit einer D*-Instanz genutzt werden.
Um den Nutzer:innen Einblicke in die Zusammensetzung und Besonderheiten dieses Datenbestandes zu ermöglichen, wurden für dieses Projekt Visualisierungen und Filterfunktionen nachgenutzt, die erstmals 2017 in einer Kooperation des GEI mit der Fachhochschule Potsdam im Urban Complexity Lab entwickelt worden waren.
Projektteam:
- Maret Nieländer (GEI, Konzeption und Koordination)
- Christian Scheel (GEI, Data Science)
- Bryan Jurish (BBAW, Computerlinguistk & Infrastruktur)
Wir bedanken uns beim Zentrum Sprache der BBAW für die Kooperation, insbesondere bei der Bereitstellung der Software und der Beratung. Die Projektbeteiligten bedanken sich darüber hinaus beim Projektteam von GEI-Digital und der IT-Abteilung des GEI.
Verwandte Projekte und Weitere Ressourcen
- Für einen Teilbestand von 3803 Werken aus GEI-Digital bietet die Rechercheoberfläche des 2014-2017 durchgeführten Projektes Welt der Kinder vielfältige Filter- und Analysefunktionen.
- Schulbücher weltweit sind recherchierbar im GLOTREC|Cat.
- Diese und weitere digitale Angebote des Leibniz-Institut für Bildungsmedien | Georg-Eckert-Institut finden Sie hier.
- Neben den in GEI-Digital verfügbaren Werken gibt es auch in anderen Bibliotheken noch retrodigitalisierte oder als Printausgabe vorhandene Schulbücher und Schulbuchausgaben: Soweit bibliographische Angaben bekannt sind, empfiehlt sich die Recherche im Gemeinsamen Verbundkatalog GVK.
- Die Bibliothek für Bildungsgeschichtliche Forschung des DIPF stellt online die scripta paedagogica sowie pictura paedagogica zur Verfügung.
- Weitere Ressourcen sind über das Fachportal Pädagogik zugänglich.
Literaturauswahl
- Zu DiaCollo:
- Burckhardt, Daniel; Geyken, Alexander; Saupe, Achim; Werneke, Thomas: Distant Reading in der Zeitgeschichte. Möglichkeiten und Grenzen einer computergestützten Historischen Semantik am Beispiel der DDR-Presse. In: Zeithistorische Forschungen/Studies in Contemporary History, 2019. (online)
- Jurish, Bryan: „Diachronic Collocations, Genre, and DiaCollo.“ In R. J. Whitt (editor), Diachronic Corpora, Genre, and Language Change. Amsterdam, John Benjamins, 2018, pages 42–64. (online, pdf:draft, bib)
- Jurish, Bryan; Nieländer, Maret: “Using DiaCollo for historical research”. In: Kiril Simov /Maria Eskevich (Hgg), Selected Papers from the CLARIN Annual Conference 2019, Linköping Electronic Conference Proceedings 172 (2020), S. 33-40. (online)
- Zu GEI-Digital:
- Hertling, Anke; Klaes, Sebastian (2018): Historische Schulbücher als digitales Korpus für die Forschung: Auswahl und Aufbau einer digitalen Schulbuchbibliothek. In: Maret Nieländer und Ernesto William De Luca (Hg.): Digital Humanities in der internationalen Schulbuchforschung. Göttingen: V&R unipress, S. 21–44. DOI: 10.14220/9783737009539.21
- Hertling, Anke; Klaes, Sebastian (2018): »GEI-Digital« als Grundlage für Digital-Humanities-Projekte: Erschließung und Datenaufbereitung. In: Maret Nieländer und Ernesto William De Luca (Hg.): Digital Humanities in der internationalen Schulbuchforschung. Göttingen: V&R unipress, 45-68. DOI: 10.14220/9783737009539.45
- Zu diesem Projekt:
- Nieländer, Maret: „Aufkommen und Bedeutungserweiterung des Leistungsbegriffs im historischen Schulbuchkorpus »GEI-Digital-2020«“, in: Janina Becker (Hg.), Maren Tribukait (Hg.), Andreas Weich (Hg.): Transformationen der Leistung in Schule und Bildungsmedien (= Bildungsmedienforschung. Studien des Leibniz-Instituts für Bildungsmedien – Band 154), S. 73-104. https://www.vr-elibrary.de/doi/pdf/10.14220/9783737016438
- Nieländer, Maret: „Historische Schulbücher mit digitalen Werkzeugen untersuchen – das Stichwort „Leistung“ im „GEI-Digital-2020“ Korpus“, Blogbeitrag in: bildungsgeschichte.de, Berlin 2023. DOI: https://doi.org/10.25523/32552.a
- Nieländer, Maret (2022): „DiaCollo für GEI-Digital. Computerlinguistische Werkzeuge für die Analyse von mehr als 5000 historischen deutschsprachigen Schulbüchern“, in: Oberdorf, Andreas (Hg.): Digital Turn und Historische Bildungsforschung. Bestandsaufnahme – Forschungsperspektiven, Bad Heilbrunn: Julius Klinkhardt 2022, S. 33–48. https://doi.org/10.25656/01:24851
- Nieländer, Maret (2022): „Das historische Schulbuchkorpus GEI-Digital-2020“, Beitrag im Blog Im Zentrum Sprache. Untersuchungen zur deutschen Sprache in Geschichte und Gegenwart des Zentrums Sprache der Berlin-Brandenburgischen Akademie der Wissenschaften.
- Nieländer, Maret; Scheel, Christian; Jurish, Bryan (2022): „DiaCollo für GEI-Digital – Ein experimentelles Projekt zur weiteren Erschließung digitalisierter historischer Schulbuchbestände“. Eine Posterpräsentation auf der 8. Tagung des Verbands „Digital Humanities im deutschsprachigen Raum“ – DHd 2022 Kulturen des digitalen Gedächtnisses. 07. – 11.02.2022. Poster: DOI 10.5281/zenodo.6322544 Abstract: DOI 10.5281/zenodo.6328118
- Nieländer, Maret; Jurish, Bryan (2021): D* für Anfänger:innen: Ein Tutorial. Einfache und komplexe Suchanfragen, Frequenzanalysen und diachrone Kollokationsanalysen in der D*-Korpusmanagement-Umgebung. urn:nbn:de:0220-2021-0088 (PDF, 7MB).
- Vortrag (PDF): Nieländer, Maret: „Kenne Dein Korpus. Computerlinguistische Analysen in 5000+ Werken des „GEI-Digital-2020 Korpus“, Vortrag auf dem Online-Forschungstag „Digital Turn und Historische Bildungsforschung – Bestandsaufnahme und Forschungsperspektiven“, 18. 06. 2021, WWU Münster
- Vortrag (PDF, Video auf Youtube): Nieländer, Maret: „Die Vermessung des Schulbuchs Computerlinguistische Zugänge zum Begriff der „Leistung“ in der historischen Schulbuchsammlung GEI Digital“, Vortrag bei der Jahrestagung des Georg-Eckert-Instituts „Was leisten wir (uns) in der Schule?“, 02. – 03.09.2021, Braunschweig
- Zu digitalen Infrastrukturen für die Bildungsmedienforschung:
- De Luca E.W., Spielhaus R. (2019): Digital Transformation of Research Processes in the Humanities. In: Garoufallou E., Fallucchi F., William De Luca E. (eds): Metadata and Semantic Research. MTSR 2019. Communications in Computer and Information Science, vol 1057. Springer, Cham. https://doi.org/10.1007/978-3-030-36599-8_30
- De Luca E.W., Fallucchi F., Ligi A., Tarquini M. (2019): A Research Toolbox: A Complete Suite for Analysis in Digital Humanities. In: Garoufallou E., Fallucchi F., William De Luca E. (eds) Metadata and Semantic Research. MTSR 2019. Communications in Computer and Information Science, vol 1057. Springer, Cham. https://doi.org/10.1007/978-3-030-36599-8_35
- Nieländer, Maret; De Luca, Ernesto William (Hg.): Digital Humanities in der internationalen Schulbuchforschung. Göttingen: V&R unipress. DOI: 10.14220/9783737009539