Arbeitsablauf beim Verfassen von Artikeln

Aus Variantengrammatik des Standarddeutschen
Wechseln zu:Navigation, Suche

Der testbasierte Standardworkflow

Vg-workflow.png

Beim Verfassen eines Artikels für die Variantengrammatik orientiert sich der Arbeitsablauf an einem zentralen statistischen Signifikanztest, der zur Ermittlung der Signifikanz beobachteter linguistischer Phänomenverteilungen dient. Der Chi-Quadrat-Test stellt einige Anforderungen an die zu Grunde liegende Stichprobe, die direkten Einfluss auf die Struktur eines Artikels haben. Insbesondere gilt der Test als unverlässlich bei kleinen beobachteten Häufigkeiten. Daher wurden innerhalb des Projekts eine Reihe von Schwellenwerten definiert, die helfen sollen, eine korrekte Anwendung der Tests sicherzustellen. Der im Folgenden beschriebene Standard-Arbeitsablauf ist schematisch auch in der nebenstehenden Grafik zusammengefasst.

Grundsätzlich ist das Vorgehen hypothesengeleitet, indem mögliche Kandidaten für Varianten den bisher in der Fachliteratur publizierten Ergebnissen entnommen wurden. Am Anfang der Entstehung eines Artikels steht der Blick auf die absolute Häufigkeitsverteilung des beobachteten Phänomens: Hier wird zunächst geprüft, ob sich zu einem Kandidaten überhaupt in einem Areal mindestens zehn Belege finden. Dabei gilt wie auch für alle folgenden Schwellenwerte von Zählungen, dass bei Varianten mit Gegenvarianten die Häufigkeiten aufsummiert werden. Werden in keinem Areal mindestens 10 Belege gefunden, wird prinzipiell kein Artikel verfasst. Für die Variantengrammatik handelt es sich damit um eine Nicht-Variante, auf die allenfalls in Überblicksartikeln mit Bezug auf die entsprechende Literatur verwiesen werden kann.

Nur wenn die erste notwendige Bedingung erfüllt ist, wird überhaupt die Test-Statistik für den Chi-Quadrat-Test erhoben. Für die Testergebnisse wird wie üblich ein Signifikanzniveau von 0,05 als Schwellenwert benutzt, der unterschritten werden muss, um von einer überzufälligen Ungleichverteilung ausgehen zu können. Trifft dies nicht zu, muss von einem Zufallsbefund ausgegangen werden, und es wird folglich kein Artikel verfasst.

Der nächste Schritt bestimmt den Formkommentar, insoweit als er festlegt, welche Sektorenkürzel dort aufgeführt werden. Ausschlaggebend dafür ist nicht nur das Testergebnis:

Zum einen muss auch die absolute Vorkommenshäufigkeit in einem Areal bei mindestens zehn Vorkommen liegen, damit das Areal im Formkommentar erwähnt werden kann. Bei Varianten mit Gegenvarianten werden die Einzelhäufigkeiten aufsummiert, aber zusätzlich muss eine Einzelvariante zumindest 5 Vorkommen in einem Areal aufweisen, um im Formkommentar berücksichtigt zu werden. In den Tabellen werden Areale, in denen weniger als zehn Belege vorkommen, mit dem Kürzel "u.S." (für "unter Schwellenwert") versehen, im semantischen Kommentar werden sie, sofern auf sie Bezug genommen wird, mit einem Asterisk (*) markiert. Die Erwähnung dieser Areale kann mitunter sinnvoll sein, wenn die umliegenden Areale ähnliche Verteilungen aufweisen.

Zum anderen muss die relative Häufigkeit bei mindestens 5% liegen. Als Bezugsgröße dient dabei entweder die Summe der Belege aller Varianten, sofern mit Gegenvarianten verglichen wird. Oder aber für eine Variante ohne Gegenvarianten die Belegzahlen in allen Arealen, die zu dem Zweck bezüglich Subkorpusgröße der einzelnen Areale normalisiert werden.

Damit gilt als erwiesen, dass eine statistisch auffällige Verteilung der Belege des untersuchten Phänomens vorliegt. Unter Zuhilfenahme von standardisierten Pearson Residuals können nun diejenigen Areale identifiziert werden, die für die Heterogenität verantwortlich sind. Absolute Werte über 2 gelten als klares Indiz für eine Abweichung von dem zu erwartenden Wert. Das Vorzeichen gibt dabei an, ob eine Unter- oder Überrepräsentation vorliegt. Weitere Hinweise liefern Signifikanz-Tests, bei denen ein Areal mit den übrigen Arealen verglichen wird, indem Letztere zu einem einzigen virtuellen Areal zusammengefasst werden. Dann folgt der entscheidende Schritt, die Interpretation der Ergebnisse.

In Ausnahmefällen kann vom hier beschriebenen Ablauf abgewichen werden. Siehe dazu: Abweichungen vom rein statistischen Verfahren