Kali Kali-Logo  
       
  Home Korpus Intern    
 
     
 

Home

 

Was ist Kali?

Das diachrone Korpus des Deutschen Kali (Korpusarbeit Linguistik) wird seit Ende 2003 am Deutschen Seminar der Leibniz Universität Hannover unter der Leitung von Prof. Dr. Gabriele Diewald aufgebaut.

Wozu Kali?

Das Korpus wurde zunächst als Materialgrundlage für diachrone empirische Untersuchungen im Rahmen des Forschungsprojektes „Evidentialitätsmarker im Deutschen“ genutzt. Es wird aber auch als Datengrundlage in anderen Forschungsprojekten verwendet, so z.B. im Europäischen Kooperationsprojekt "Grammaticalization and (inter)subjectification".

Die Erforschung der Verbalkategorien des Deutschen, vor allem der Kategorien Evidentialität und Modalität, über mehrere historische Sprachperioden hinweg steht im Mittelpunkt unserer aktuellen Forschungsprojekte. Dementsprechend werden Verben im Korpus bevorzugt behandelt. Gegenwärtig werden sämtliche Verbformen im Korpus annotiert und lemmatisiert. Eine Ausweitung der Annotation und Lemmatisierung auf andere Wortarten ist geplant.

Das Korpus ist so konzipiert, dass es auch Lehrzwecken dienen kann. So wird Kali seit mehreren Semestern mit Erfolg im Rahmen von Seminaren mit sprachhistorischem bzw. korpuslinguistischem Schwerpunkt am Deutschen Seminar der Universität Hannover eingesetzt.

Aktueller Bearbeitungsstand

Aktuell befindet sich das Korpus im Aufbau: Die Textauswahl und Aufbereitung wie auch die linguistische Annotation und Glossierung sind noch nicht abgeschlossen. Sie liegen jedoch bereits in substantiellen Teilen vor.
Das Korpus besteht gegenwärtig aus 25 Quellen aus der althochdeutschen und der mittelhochdeutschen Sprachstufe, von denen bisher 25 öffentlich sind (siehe Übersicht). Je nach Bearbeitungszustand und urheberrechtlichen Erwägungen wird sich der Anteil der öffentlich zugänglich Quellen in Zukunft weiter erhöhen.

Es umfasst damit 8 Jahrhunderte. Die Gesamtzahl der laufenden deutschen Wortformen im Korpus beläuft sich auf 213.798. Sämtliche Verben in den vorliegenden Texten werden mit morphologischen Informationen annotiert und lemmatisiert. Die Grundlage für die Lemmatisierung bilden einschlägige Wörterbücher: Für das Althochdeutsche Schützeichel und für das Mittelhochdeutsche Lexer (siehe „Wörterbücher“ unter Literatur).

Technische Realisierung

Die technische Grundlage für Kali bildet ein klassisches LAMP-System auf der Basis von CentOS-Linux. Unser CMS wurde für unsere Bedürfnisse von Grund auf neu entwickelt und bietet für die Korpusbearbeitung webbasierte, intuitiv zu nutzende Werkzeuge für die Lemmatisierung und Annotation. Die Aufbereitung der Daten stellt für die linguistische Forschung sowohl in der Textausgabe als auch mittels ausgereifter Suchfunktionenen und einer Hyperlemmatisierung leistungsfähige Möglichkeiten bereit. Aus Performance-Gründen speichern wir unsere Daten in einer relationalen Datenbank, ein an den TEI-Richtlinien orientierter XML-Export befindet sich in der Vorbereitung.

Nutzungsbedingungen

Alle Daten aus dem Korpus können für wissenschaftliche, nicht-kommerzielle Zwecke verwendet werden, sofern auf die Quelle verwiesen wird.
Wenn Sie aus dem Kali-Korpus zitieren, verweisen Sie bitte darauf mit Angabe des URL: Kali-Korpus, Leibniz Universität Hannover, http://www.kali.uni-hannover.de.
Sollten Sie die Texte anderweitig nutzen wollen, nehmen Sie bitte Kontakt mit uns auf.