Korpus, Regionen und analysierte Zeitungen

Aus Variantengrammatik des Standarddeutschen
Wechseln zu: Navigation, Suche

Für die Erarbeitung der Variantengrammatik wurden Artikel aus 68 Tageszeitungen mit insgesamt knapp 600 Millionen Wörtern berücksichtigt. Diese Online-Zeitungen entstammen dem gesamten deutschsprachigen Gebiet, das für Projektzwecke in 15 Areale unterteilt wurde.

Korpus

Im Rahmen des Projekts Variantengrammatik des Standarddeutschen wurde ein Korpus aus Texten von Internetauftritten lokaler Zeitungen erstellt, wobei lediglich redaktionelle Artikel aus den Lokalteilen im Korpus erfasst wurden. Bei Zeitungen mit verschiedenen Lokalausgaben wurden alle Lokalausgaben erfasst.

Datenakquisition: Crawling

Ein webbasiertes Korpus vom geplanten Umfang kann manuell nicht erstellt werden, das Herunterladen von Webseiten muss automatisiert stattfinden, was als Crawling bezeichnet wird. Die entsprechende Software heißt Crawler und das Ergebnis ist ein Crawl. Im Projekt wurde eine modifizierte Version des vom Internet Archive entwickelten Heritrix Crawlers verwendet.

Datenbereinigung: Scraping

Die gespeicherten HTML-Dokumente enthalten nicht nur den gewünschten Text, sondern eine Menge unerwünschtes Material wie Navigationsmenüs, Werbung, Kommentare usw., die mitsamt jeglichen HTML-Markups entfernt werden müssen. Diesen Verarbeitungsschritt bezeichnet man als Scraping. Ebenso wie der Crawler muss auch ein Scraper individuell für jede Zeitung angepasst werden, wobei der Aufwand hier noch wesentlich höher liegt, weil meist unterschiedlicher HTML-Markup bei ein und derselben Zeitung zu finden ist, beispielsweise für Sportberichte im Gegensatz zu Interviews. Zudem müssen nicht nur der Text, sondern auch jeweils die wichtigsten Metadaten möglichst sauber aus dem HTML-Code extrahiert werden. Für alle Zeitungen, unterschiedlichen HTML-Formate und unterschiedlichen Metadaten wurde manuell bestimmt, wie sie mit Hilfe eines XPath-Ausdrucks zu extrahieren sind.

Dubletten-Erkennung

Bevor ein Artikel gespeichert wird, kommt ein erster Filter zum Einsatz: Für jedes Dokument wird anhand des Textkörpers eine Prüfsumme (als SHA1-Hash-Wert) berechnet, mit Hilfe derer exakte Duplikate identifiziert werden können. Dokumente mit identischer Prüfsumme enthalten also den exakt gleichen Text, unterscheiden sich aber in der Herkunfts-URL und können auch in allen anderen Metadaten unterschiedlich sein. Findet sich keine identische Prüfsumme unter den bereits berechneten, wird der Artikel gespeichert, andernfalls wird er verworfen. Dieser erste Filter ist sehr wichtig, denn er reduziert die Dokumentenanzahl um über 44%.

Bevor die eigentliche linguistische Verarbeitung stattfindet, werden nochmals Dokumente mit einer Fast-Dubletten-Erkennung ausgefiltert. Fast-Dubletten sind Dokumente, die sich lediglich durch wenige Wörter unterscheiden, dadurch aber für die exakte Duplikatserkennung unauffindbar bleiben. Im Projekt wurde der SpotSigs-Algorithmus verwendet. Er erstellt platzeffiziente Repräsentationen der Dokumente und ordnet sie in einer Datenstruktur so an, dass ähnliche nahe beieinander liegen und dadurch die Anzahl der Vergleiche stark reduziert werden kann, um auf diese Weise lediglich die zu finden, die oberhalb eines vorgegebenen Ähnlichkeitsschwellenwerts liegen.

Linguistische Aufbereitung

Für die linguistische Aufbereitung des Korpus wurden verschiedene automatisierte Verfahren verwendet:

Annotation Software
Wortart TreeTagger
Morphologie RFTagger, Morphisto
Eigennamenerkennung Stanford NER
Satzfelder semtracks
Grammatikalische Funktion ParZu

Verarbeitung von Varianten und Statistik

Ein zentraler Schritt bei der Analyse einer Variante ist die statistische Auswertung. Hierbei muss grundsätzlich unterschieden werden, ob Frequenzen ohne Vergleichszahlen analysiert werden (z. B. veruntreuen) oder ob eine Variante mit Gegenvariante ausgewertet wird (z. B. amten / amtieren). Es kann also einerseits die Frequenzverteilung einer Variante im Gesamtkorpus oder das Verhältnis zweier (oder mehrerer) Varianten eruiert werden. In beiden Fällen wird die statistische Signifikanz der (un)gleichmässigen Verteilung mit dem Chi-Quadrat-Test evaluiert. Dieser ermöglicht die statistische Beurteilung von Häufigkeitsverteilungen.

Im ersten Fall, also bei Varianten ohne Gegenvariante, wird von einer Nullhypothese ausgegangen, die besagt, dass die beobachteten Werte sich nicht von den erwarteten Werten einer gleichmässigen Verteilung unterscheiden. Der Chi-Quadrat-Test ermittelt einen p-Wert, der ein Indiz dafür ist, wie wahrscheinlich es ist, das vorliegende Ergebnis zu erhalten, falls die Nullhypothese wahr ist. Je kleiner der p-Wert, desto unwahrscheinlicher ist es, dass das Ergebnis sich unter Bestehen der Nullhypothese ergibt. Bei einem festgelegten Signifikanz-Niveau (üblicherweise 5%, also p<=0.05) wird die Nullhypothese verworfen und damit angenommen, dass die ungleichmässige Verteilung statistisch signifikant ist.

Falls eine statistisch signifikante, heterogene Verteilung vorliegt, wird eruiert, welche Teilkorpora (z. B. welche Zeitungen oder Regionen) die Heterogenität massgeblich verursachen. Dies ist einerseits anhand der Analyse der standardisierten Pearson Residuals möglich (absolute Werte von wesentlich mehr als 2 gelten als signifikante Abweichungen). Andererseits können die Belege z. B. einer einzelnen Region oder Zeitung mit der Gesamtzahl der Belege aller anderen Regionen resp. Zeitungen in einem Chi-Quadrat-Test verglichen werden. Ergibt sich wiederum ein p-Wert <=0.05, kann von einer statistisch signifikanten Abweichung ausgegangen werden.

Im zweiten Fall, bei Varianten mit Gegenvariante, findet ein grundsätzlich analoges Vorgehen statt. Anstatt die Gesamtanzahl Wörter, Sätze oder Artikel in den Teilkorpora als Vergleichsgrösse für den Chi-Quadrat-Test zu nehmen, werden hier die Belegzahlen pro Variante und Teilkorpus direkt miteinander verglichen. Auch hier können die standardisierten Pearson Residuals und Vergleiche von einzelnen Teilkorpora zur Gesamtmenge der restlichen Belege dabei helfen, Teilkorpora zu identifizieren, die die Heterogenität der Verteilung massgeblich bestimmen. Varianten, die eine statistisch signifikante areale Verteilung aufweisen, werden in die VG aufgenommen.

Eine etwas ausführlichere Beschreibung findet sich unter: Arbeitsablauf beim Verfassen von Artikeln

Areale Einordnung der untersuchten Zeitungen und Verteilung der Artikel

Region Artikel Zeitung Artikel
A-west 40850
Vorarlberg Online 34240
Tiroler Tageszeitung 6610
A-mitte 41612
Der Standard 16681
Oberösterreichische Nachrichten 15407
Salzburger Nachrichten 6761
Salzburger Fenster 2033
Kurier, Oberösterreich 724
Wirtschaftsblatt 6
A-ost 12626
Niederösterreichische Nachrichten 4855
Wiener Zeitung 3206
Kurier, Niederösterreich 1748
Kurier, Wien 1431
Kurier, Burgenland 1386
A-südost 88634
Kleine Zeitung, Steiermark und Kärnten 49707
Kronen Zeitung, Steiermark und Kärnten 38927
BELG 11467
GrenzEcho 11467
CH 98634
Aargauer Zeitung 28429
St. Galler Tagblatt 27247
Berner Zeitung 13799
Basellandschaftliche Zeitung 11319
1815 – Das Oberwalliser Nachrichtenportal 7266
Neue Luzerner Zeitung 7125
Die Südostschweiz 3449
D-nordwest 194021
Neue Osnabrücker Zeitung 87944
Weser-Kurier 44867
Hannoversche Allgemeine 29052
Hamburger Morgenpost 15768
Kieler Nachrichten 10590
Ostfriesen-Zeitung 5800
D-nordost 218012
Volksstimme 61949
Nordkurier 47548
Märkische Allgemeine 41847
Märkische Online Zeitung 33353
Der Tagesspiegel 31391
Schweriner Kurier 1065
Ostsee-Zeitung 859
D-mittelwest 209874
Rheinische Post 136871
Hessische/Niedersächsische Allgemeine 25480
Neue Westfälische 24810
Kölner Stadt-Anzeiger 10461
Rhein-Zeitung 6626
Darmstädter Echo 5626
D-mittelost 248384
Thüringer Allgemeine 159901
Freie Presse 29916
Mitteldeutsche Zeitung 29297
Lausitzer Rundschau 14205
Leipziger Volkszeitung 11347
Dresdner Neueste Nachrichten 3718
D-südwest 203863
Schwäbische Zeitung 68945
Schwarzwälder Bote 48623
Südkurier 23737
Stuttgarter Zeitung 22830
Heilbronner Stimme 18159
Leonberger Kreiszeitung 10565
Badische Zeitung 7204
Marbacher Zeitung 3800
D-südost 298477
Augsburger Allgemeine 87567
Nürnberger Nachrichten 70497
Oberbayerisches Volksblatt 40770
Mittelbayerische 32076
inFranken.de 28873
Passauer Neue Presse 25040
Frankenpost 13654
LIE 4229
Liechtensteiner Vaterland 4229
LUX 13289
Luxemburger Wort 7293
Tageblatt Online 5996
STIR 15143
Der Vinschger 8986
Südtirol Online 6157

Angaben zu den Arealen

A: Österreich:

  • A-west: Vorarlberg (Vbg.), Tirol (inkl. Osttirol) (Tir.), Bezirk Zell am See/"Pinzgau" (Bundesland Salzburg)
  • A-mitte: Bundesland Salzburg (ohne Bezirk Zell am See/"Pinzgau"), Oberösterreich
  • A-ost: Wien, Niederösterreich, Burgenland
  • A-südost: Kärnten, Steiermark

BELG: Belgien
CH: Schweiz
D: Deutschland:

  • D-nordwest: Schleswig-Holstein, Hamburg, Bremen, Niedersachsen
  • D-nordost: Mecklenburg-Vorpommern, Brandenburg (ohne Region Niederlausitz), Berlin, Region Altmark (Sachsen-Anhalt), Region Magdeburger Börde (Sachsen-Anhalt), Landkreis Jerichower Land (Sachsen-Anhalt)
  • D-mittelwest: Nordrhein-Westfalen, Rheinland-Pfalz (ohne Region Rheinpfalz), Hessen
  • D-mittelost: Region Harz (Sachsen-Anhalt), Region Halle (Saale) (Sachsen-Anhalt), Thüringen, Sachsen, Region Niederlausitz (Brandenburg)
  • D-südwest: Rheinpfalz (Rheinland-Pfalz), Saarland, Baden-Württemberg
  • D-südost: Bayern

LIE: Liechtenstein
LUX: Luxemburg
STIR: Südtirol