Korpus, statistische Verarbeitung, Areale und analysierte Zeitungen: Unterschied zwischen den Versionen

Aus Variantengrammatik des Standarddeutschen
Wechseln zu:Navigation, Suche
(Weiterleitung nach Datenerhebung erstellt)
 
Zeile 1: Zeile 1:
Für die Erarbeitung der Variantengrammatik wurden Artikel aus 68 Tageszeitungen mit insgesamt knapp 600 Millionen Wörtern berücksichtigt. Diese Online-Zeitungen entstammen dem gesamten deutschsprachigen Gebiet, das für Projektzwecke in <span class="internal_media">[[Media:Vg_Karte_areale.pdf|15 Areale]]</span> unterteilt wurde.
+
#WEITERLEITUNG [[Datenerhebung]]
 
 
== Korpus ==
 
 
 
Im Rahmen unseres Projekts haben wir ein Korpus aus Texten von Internetauftritten lokaler Zeitungen erstellt. Erfasst wurden die redaktionellen Artikel aus den Lokalteilen dieser Zeitungen. Eine inhaltliche Differenzierung an Hand von Ressorts wurde nicht getroffen. Bei Zeitungen mit verschiedenen Lokalausgaben wurden alle Lokalausgaben erfasst.
 
 
 
=== Datenakquisition: Crawling ===
 
Ein webbasiertes Korpus vom geplanten Umfang kann manuell nicht erstellt
 
werden, das Herunterladen von Webseiten muss automatisiert stattfinden,
 
was als Crawling bezeichnet wird. Die entsprechende Software heißt Crawler und das Ergebnis ist ein Crawl. Im Projekt wurde eine modifizierte Version des vom ''Internet Archive''
 
entwickelten [http://crawler.archive.org/ Heritrix Crawlers] verwendet. Der Zeitraum für die Datenerhebung lag zwischen Dezember 2011 und Mai 2013. Da teilweise auf Archivinhalte zugegriffen wurde, stimmt dieser Zeitraum nicht notwendig mit dem Erscheinungsdatum der Texte überein.
 
 
 
 
 
=== Datenbereinigung: Scraping ===
 
Die gespeicherten HTML-Dokumente enthalten nicht nur den gewünschten
 
Text, sondern eine Menge unerwünschtes Material (Navigationsmenüs, Werbung, Kommentare usw.), die mitsamt jeglichen HTML-Markups entfernt
 
werden mussten. Diesen Verarbeitungsschritt bezeichnet man als Scraping.
 
Ebenso wie der Crawler muss auch ein Scraper individuell für jede Zeitung angepasst werden. Zudem ist es nötig, nicht nur den Text, sondern auch jeweils die wichtigsten Metadaten
 
möglichst sauber aus dem HTML-Code zu extrahieren.
 
Für die unterschiedlichen HTML-Formate und Metadaten wurde manuell bestimmt, wie sie mit
 
Hilfe eines XPath-Ausdrucks zu extrahieren sind.
 
 
 
=== Dubletten-Erkennung ===
 
Bevor ein Artikel gespeichert wird, kommt ein erster Filter zum Einsatz: Für jedes Dokument wird anhand des Textkörpers eine Prüfsumme
 
(als SHA1-Hash-Wert) berechnet, mit Hilfe derer exakte Duplikate identifiziert werden können. Dokumente mit identischer Prüfsumme enthalten also
 
den exakt gleichen Text, unterscheiden sich aber in der Herkunfts-URL und können auch in allen anderen Metadaten unterschiedlich sein. Findet sich keine identische Prüfsumme unter den bereits berechneten, wird der Artikel gespeichert, andernfalls wird er verworfen. Dieser erste Filter ist sehr wichtig, denn er reduziert die Dokumentenanzahl um über 44%.
 
 
 
Bevor die eigentliche linguistische Verarbeitung stattfindet, werden nochmals Dokumente mit einer Fast-Dubletten-Erkennung ausgefiltert. Fast-Dubletten sind Dokumente, die sich lediglich durch wenige Wörter unterscheiden, dadurch aber für die exakte Duplikatserkennung unauffindbar bleiben. Im Projekt haben wir den ''SpotSigs''-Algorithmus verwendet. Er erstellt platzeffiziente Repräsentationen der Dokumente und ordnet sie in einer Datenstruktur so an, dass ähnliche Dokumente nahe beieinander liegen und dadurch die Anzahl der Vergleiche stark reduziert werden kann. So können die gefunden werden, die oberhalb eines vorgegebenen Ähnlichkeitsschwellenwerts liegen.
 
 
 
=== Linguistische Aufbereitung ===
 
 
 
Für die linguistische Aufbereitung des Korpus haben wir verschiedene automatisierte Verfahren verwendet:
 
 
 
{|class="wikitable"
 
!Annotation
 
!Software
 
|-
 
|Wortart
 
|TreeTagger
 
|-
 
|Morphologie
 
|RFTagger, Morphisto
 
|-
 
|Eigennamenerkennung
 
|Stanford NER
 
|-
 
|Satzfelder
 
|semtracks
 
|-
 
|Grammatikalische Funktion
 
|ParZu
 
|}
 
 
 
== Verarbeitung von Varianten und Statistik ==
 
 
 
Ein zentraler Schritt bei der Analyse einer Variante ist die statistische Auswertung. Hierbei muss grundsätzlich unterschieden werden, ob Frequenzen ohne Vergleichszahlen analysiert werden (z. B. [[veruntreuen]]) oder ob eine Variante mit Gegenvariante ausgewertet wird (z. B. [[amten / amtieren]]). Es kann also einerseits die Frequenzverteilung einer Variante im Gesamtkorpus oder das Verhältnis zweier (oder mehrerer) Varianten eruiert werden. In beiden Fällen wird die statistische Signifikanz der (un)gleichmässigen Verteilung mit dem Chi-Quadrat-Test evaluiert. Dieser ermöglicht die statistische Beurteilung von Häufigkeitsverteilungen.
 
 
 
Im ersten Fall, also bei Varianten ohne Gegenvariante, wird von einer Nullhypothese ausgegangen, die besagt, dass die beobachteten Werte sich nicht von den erwarteten Werten einer gleichmässigen Verteilung unterscheiden. Der Chi-Quadrat-Test ermittelt einen p-Wert, der ein Indiz dafür ist, wie wahrscheinlich es ist, das vorliegende Ergebnis zu erhalten, falls die Nullhypothese wahr ist. Je kleiner der p-Wert, desto unwahrscheinlicher ist es, dass das Ergebnis sich unter Bestehen der Nullhypothese ergibt. Bei einem festgelegten Signifikanz-Niveau (üblicherweise 5%, also p<=0.05) wird die Nullhypothese verworfen und damit angenommen, dass die ungleichmässige Verteilung statistisch signifikant ist.
 
 
 
Falls eine statistisch signifikante, heterogene Verteilung vorliegt, wird eruiert, welche Teilkorpora (z. B. welche Zeitungen oder Regionen) die Heterogenität massgeblich verursachen. Dies ist einerseits anhand der Analyse der standardisierten Pearson Residuals möglich (absolute Werte von wesentlich mehr als 2 gelten als signifikante Abweichungen). Andererseits können die Belege z. B. eines einzelnen Areals oder einer einzelnen Zeitung mit der Gesamtzahl der Belege aller anderen Areale resp. Zeitungen in einem Chi-Quadrat-Test verglichen werden. Ergibt sich wiederum ein p-Wert <=0.05, kann von einer statistisch signifikanten Abweichung ausgegangen werden.
 
 
 
Im zweiten Fall, bei Varianten mit Gegenvariante, findet ein grundsätzlich analoges Vorgehen statt. Anstatt die Gesamtanzahl Wörter, Sätze oder Artikel in den Teilkorpora als Vergleichsgrösse für den Chi-Quadrat-Test zu nehmen, werden hier die Belegzahlen pro Variante und Teilkorpus direkt miteinander verglichen. Auch hier können die standardisierten Pearson Residuals und Vergleiche von einzelnen Teilkorpora zur Gesamtmenge der restlichen Belege dabei helfen, Teilkorpora zu identifizieren, die die Heterogenität der Verteilung massgeblich bestimmen. Varianten, die eine statistisch signifikante areale Verteilung aufweisen, wurden in die VG aufgenommen.
 
 
 
Eine etwas ausführlichere Beschreibung findet sich unter: [[Arbeitsablauf beim Verfassen von Artikeln]]
 
 
 
== Areale Einordnung der untersuchten Zeitungen und Verteilung der Artikel ==
 
{| class="wikitable"
 
!Region
 
!Artikel
 
!Zeitung
 
!Artikel
 
|-
 
|rowspan="3" style="vertical-align:top;"|{{Kapitälchen|A-west}} 
 
|rowspan="3" style="vertical-align:top;"| 40850
 
|-
 
|Vorarlberg Online|| 34240
 
|-
 
|Tiroler Tageszeitung|| 6610
 
|-
 
|rowspan="7" style="vertical-align:top;"|{{Kapitälchen|A-mitte}} 
 
|rowspan="7" style="vertical-align:top;"| 41612
 
|-
 
|Der Standard|| 16681
 
|-
 
|Oberösterreichische Nachrichten|| 15407
 
|-
 
|Salzburger Nachrichten|| 6761
 
|-
 
|Salzburger Fenster|| 2033
 
|-
 
|Kurier, Oberösterreich|| 724
 
|-
 
|Wirtschaftsblatt|| 6
 
|-
 
|rowspan="6" style="vertical-align:top;"|{{Kapitälchen|A-ost}}
 
|rowspan="6" style="vertical-align:top;"| 12626
 
|-
 
|Niederösterreichische Nachrichten|| 4855
 
|-
 
|Wiener Zeitung|| 3206
 
|-
 
|Kurier, Niederösterreich|| 1748
 
|-
 
|Kurier, Wien|| 1431
 
|-
 
|Kurier, Burgenland|| 1386
 
|-
 
|rowspan="3" style="vertical-align:top;"|{{Kapitälchen|A-südost}} 
 
|rowspan="3" style="vertical-align:top;"| 88634
 
|-
 
|Kleine Zeitung, Steiermark und Kärnten|| 49707
 
|-
 
|Kronen Zeitung, Steiermark und Kärnten|| 38927
 
|-
 
|rowspan="2" style="vertical-align:top;"|BELG 
 
|rowspan="2" style="vertical-align:top;"| 11467
 
|-
 
|GrenzEcho|| 11467
 
|-
 
|rowspan="8" style="vertical-align:top;"|CH 
 
|rowspan="8" style="vertical-align:top;"| 98634
 
|-
 
|Aargauer Zeitung|| 28429
 
|-
 
|St. Galler Tagblatt|| 27247
 
|-
 
|Berner Zeitung|| 13799
 
|-
 
|Basellandschaftliche Zeitung|| 11319
 
|-
 
|1815 – Das Oberwalliser Nachrichtenportal|| 7266
 
|-
 
|Neue Luzerner Zeitung|| 7125
 
|-
 
|Die Südostschweiz|| 3449
 
|-
 
|rowspan="7" style="vertical-align:top;"|{{Kapitälchen|D-nordwest}} 
 
|rowspan="7" style="vertical-align:top;"| 194021
 
|-
 
|Neue Osnabrücker Zeitung|| 87944
 
|-
 
|Weser-Kurier|| 44867
 
|-
 
|Hannoversche Allgemeine|| 29052
 
|-
 
|Hamburger Morgenpost|| 15768
 
|-
 
|Kieler Nachrichten|| 10590
 
|-
 
|Ostfriesen-Zeitung|| 5800
 
|-
 
|rowspan="8" style="vertical-align:top;"|{{Kapitälchen|D-nordost}} 
 
|rowspan="8" style="vertical-align:top;"| 218012
 
|-
 
|Volksstimme|| 61949
 
|-
 
|Nordkurier|| 47548
 
|-
 
|Märkische Allgemeine|| 41847
 
|-
 
|Märkische Online Zeitung|| 33353
 
|-
 
|Der Tagesspiegel|| 31391
 
|-
 
|Schweriner Kurier|| 1065
 
|-
 
|Ostsee-Zeitung|| 859
 
|-
 
|rowspan="7" style="vertical-align:top;"|{{Kapitälchen|D-mittelwest}} 
 
|rowspan="7" style="vertical-align:top;"| 209874
 
|-
 
|Rheinische Post|| 136871
 
|-
 
|Hessische/Niedersächsische Allgemeine|| 25480
 
|-
 
|Neue Westfälische|| 24810
 
|-
 
|Kölner Stadt-Anzeiger|| 10461
 
|-
 
|Rhein-Zeitung|| 6626
 
|-
 
|Darmstädter Echo|| 5626
 
|-
 
|rowspan="7" style="vertical-align:top;"|{{Kapitälchen|D-mittelost}} 
 
|rowspan="7" style="vertical-align:top;"| 248384
 
|-
 
|Thüringer Allgemeine|| 159901
 
|-
 
|Freie Presse|| 29916
 
|-
 
|Mitteldeutsche Zeitung|| 29297
 
|-
 
|Lausitzer Rundschau|| 14205
 
|-
 
|Leipziger Volkszeitung|| 11347
 
|-
 
|Dresdner Neueste Nachrichten|| 3718
 
|-
 
|rowspan="9" style="vertical-align:top;"|{{Kapitälchen|D-südwest}} 
 
|rowspan="9" style="vertical-align:top;"| 203863
 
|-
 
|Schwäbische Zeitung|| 68945
 
|-
 
|Schwarzwälder Bote|| 48623
 
|-
 
|Südkurier|| 23737
 
|-
 
|Stuttgarter Zeitung|| 22830
 
|-
 
|Heilbronner Stimme|| 18159
 
|-
 
|Leonberger Kreiszeitung|| 10565
 
|-
 
|Badische Zeitung|| 7204
 
|-
 
|Marbacher Zeitung|| 3800
 
|-
 
|rowspan="8" style="vertical-align:top;"|{{Kapitälchen|D-südost}} 
 
|rowspan="8" style="vertical-align:top;"| 298477
 
|-
 
|Augsburger Allgemeine|| 87567
 
|-
 
|Nürnberger Nachrichten|| 70497
 
|-
 
|Oberbayerisches Volksblatt|| 40770
 
|-
 
|Mittelbayerische|| 32076
 
|-
 
|inFranken.de|| 28873
 
|-
 
|Passauer Neue Presse|| 25040
 
|-
 
|Frankenpost|| 13654
 
|-
 
|rowspan="2" style="vertical-align:top;"|LIE 
 
|rowspan="2" style="vertical-align:top;"| 4229
 
|-
 
|Liechtensteiner Vaterland|| 4229
 
|-
 
|rowspan="3" style="vertical-align:top;"|LUX 
 
|rowspan="3" style="vertical-align:top;"| 13289
 
|-
 
|Luxemburger Wort|| 7293
 
|-
 
|Tageblatt Online|| 5996
 
|-
 
|rowspan="3" style="vertical-align:top;"|STIR 
 
|rowspan="3" style="vertical-align:top;"| 15143
 
|-
 
|Der Vinschger|| 8986
 
|-
 
|Südtirol Online|| 6157
 
|-
 
|}
 
 
 
== Angaben zu den Arealen ==
 
'''A:''' Österreich:
 
*'''{{Kapitälchen|A-west}}:''' Vorarlberg (Vbg.), Tirol (inkl. Osttirol) (Tir.), Bezirk Zell am See/"Pinzgau" (Bundesland Salzburg)
 
*'''{{Kapitälchen|A-mitte}}:''' Bundesland Salzburg (ohne Bezirk Zell am See/"Pinzgau"), Oberösterreich
 
*'''{{Kapitälchen|A-ost}}:''' Wien, Niederösterreich, Burgenland
 
*'''{{Kapitälchen|A-südost}}:''' Kärnten, Steiermark<br>
 
 
 
'''BELG:''' Belgien<br>
 
'''CH:''' Schweiz<br>
 
'''D:''' Deutschland:
 
*'''{{Kapitälchen|D-nordwest}}:''' Schleswig-Holstein, Hamburg, Bremen, Niedersachsen
 
*'''{{Kapitälchen|D-nordost}}:'''  Mecklenburg-Vorpommern, Brandenburg (ohne Region Niederlausitz), Berlin, Region Altmark (Sachsen-Anhalt), Region Magdeburger Börde (Sachsen-Anhalt), Landkreis Jerichower Land (Sachsen-Anhalt)
 
*'''{{Kapitälchen|D-mittelwest}}:''' Nordrhein-Westfalen, Rheinland-Pfalz (ohne Region Rheinpfalz), Hessen
 
*'''{{Kapitälchen|D-mittelost}}:''' Region Harz (Sachsen-Anhalt), Region Halle (Saale) (Sachsen-Anhalt), Thüringen, Sachsen, Region Niederlausitz (Brandenburg)
 
*'''{{Kapitälchen|D-südwest}}:''' Rheinpfalz (Rheinland-Pfalz), Saarland, Baden-Württemberg
 
*'''{{Kapitälchen|D-südost}}:''' Bayern<br>
 
 
 
'''LIE:''' Liechtenstein<br>
 
'''LUX:''' Luxemburg<br>
 
'''STIR:''' Südtirol<br>
 

Aktuelle Version vom 4. Oktober 2018, 12:00 Uhr

Weiterleitung nach: