27. März 2026

Ade Statistiksoftware?

Artikel geschrieben von Leo Hamminger in der Kategorie Allgemein

Aus einer Dozentendiskussion zum Statistikunterricht

Die Diskussion über Statistiksoftware (und welche) war voll im Gang als plötzlich die Meldung kam: "Ich stimme mit meinen Vorrednern überhaupt nicht überein. In der Praxis wird kaum mehr mit Statistiksoftware gearbeitet, nur mehr mit chatgpt. Wir sollen unsere Lernenden unterstützen mit chatgpt zu arbeiten".

Als jemand der mit Excel und allen Statistik - Add-Ins groß geworden ist, im Studium intensiv mit SPSS gearbeitet hat, sowie weitere Statistiksoftware wie Minitab und Numiqo gut beherrscht, klang das wie Häresie. Nur mehr mit chatgpt? Wie sollen Lernende Statistik verstehen und anwenden können? Der Kollege blieb allein mit seiner Meinung.

Dieser Gedanke ließ mir keine Ruhe. Ich wollte die Grenzen von chatgpt im Statistikunterricht aufzeigen und beschloß eine Probe aufs Exempel zu machen. Dazu entnahm ich von den Minitab Supportseiten folgende Problemstellung:

Ein Chemotechniker möchte die Härte von vier Lackmischungen miteinander vergleichen. Sechs Stichproben jeder Lackmischung wurden auf ein Metallstück aufgetragen. Der Lacküberzug der einzelnen Metallstücke wurde ausgehärtet. Anschließend wurde für jede der Stichproben die Härte jeder Lackmischung gemessen.

Die Stichprobe mit 4 x 6 Datenwerten ist als Excel - Datei zum Download HIER abrufbar.

Meiner erster Prompt an chatgpt war wie folgt (einschließlich Übergabe der Excel - Datei):

ich möchte wissen ob es einen statistisch signifikanten Mittelwertunterschied für die Variable "Härte" (Spalte B in der Excel Datei) zwischen den verschiedenen Ausprägungen der Variablen "Lack" (Spalte A). Welche Methode verwendest du?

Chatgpt

Um es kurz zu machen: chatgpt gab nicht nur (richtig) an, dass in diesem Fall die Einfaktorielle Varianzanalyse (ANOVA) zu verwenden ist, sondern auch warum. Als Ergebnis wurde neben dem F-Wert der p-Wert mit 0,0043 angegeben. Die Interpretation war, da der p-Wert deutlich unter 0,05 liegt gibt es einen statistisch signifikanten Unterschied zwischen den Mittelwerten der Härte je nach Lacktyp.

Und weiter: Mindestens zwei Gruppen unterscheiden sich, wir wissen aber nicht welche. Dafür brauchst du eine Post-hoc - Test, z.B den Tukey-HSD - Test.

Nach einer Zusammenfassung kam die Frage ob chatgpt einen Tukey-Test rechnen soll. Mit Minitab setze ich immer die Option für den Tukey - Test darum war mein nächster Prompt:

Tukey Test rechnen und grafisch darstellen

Als Antwort kam: Ich habe alle Paarvergleiche zwischen den Lacktypen gerechnet sowie die etwas kryptische Nachricht: Der entscheidende Punkt ist die Spalte „reject“ (= signifikanter Unterschied).

Und als Ergebnis (zusammengefasste Darstellung):

Signifikant unterschiedlich:

Mischung 2 vs. Mischung 4
p = 0,0025
⇒ klar signifikanter UnterSchied

Nicht signifikant:

Alle anderen Kombinationen (p > 0.05)

Schließlich noch als Interpretation:

Obwohl die ANOVA insgesamt signifikant war, zeigt der Tukey-Test:
👉 Der Unterschied wird hauptsächlich durch Mischung 2 und Mischung 4 verursacht
Mischung 4 hat im Schnitt deutlich höhere Härtewerte
Mischung 2 eher niedrigere

Zusammenfassung und Bewertung der chatgpt - Ausgabe

Nicht nur wird mit der ANOVA die richtige statistische Methode verwendet, es wird auch erklärt warum:

eine abhängige Variable (Härte), metrisch
eine unabhängige Variable (Lack), kategorial mit mehreren Gruppen
Ziel: Vergleich von mehr als zwei Gruppenmittelwerten

Wichtigstes Ergebnis: p-Wert = 0,0043 mit der Interpretation, dass es einen statistisch signifikanten Unterschied zwichen den Mittelwerten der Härte je nach Lacktyp gibt, da p < 0,05. Es unterscheiden sich also mindestens zwei (Lacktyp-) - Gruppen - welche, wird von der ANOVA nicht präzisiert.

Bewertung

Positiv ist die Verwendung der richtigen statistischen Methode, besonders auch mit detaillierter Erklärung warum. Für das Ergebnis ist die Angabe des p-Wertes zwar richtig, erfordert aber Vorkenntnisse: die ANOVA ist ein Hypothesentest, welche Hypothese wird getestet? Warum soll p < 0,05 sein? Und grundsätzlich, sind die Voraussetzungen für eine ANOVA gegeben (Unabhängigkeit der Beobachtungen, Normalverteilung der Residuen, da kleine Gruppengrößen)?

Hinweis: Es ist nicht die Normalverteilung der Rohdaten erwünscht (wie sie bspw. der Shapiro-Wilk - Test prüft), sondern die Normalverteilung der Residuen - das sind die Abweichungen der einzelnen Datenwerte vom Mittelwert. Die Rohdaten sollen also möglichst symmetrisch um den Mittelwert sein. Die Normalverteilung der Residuen überprüft man am besten durch eine visuelle Inspizierung des QQ-Plots. Die Punkte sollen möglichst nah an der Diagonal liegen. Wenn die oberen Punkte nach oben abbiegen, so liegt eine rechtsschiefe (linkssteile) Verteilung vor. Wenn die unteren Punkte nach unten abbiegen, so handelt es sich um eine linksschiefe (rechtssteile) Verteilung.

(von chatgpt):

Beispiele von QQ-Plots für Normalverteilung, Schiefe Verteilung (rechts), Schwere Ränder und Ausreißer gibt es HIER.

Claude.ai

Mit dem gleichen Prompt (siehe oben) erhält man mit claude detailliertere Ausgaben als mit chatgpt. Diese sind (zusätzlich zur chatgpt - Ausgabe):

Deskriptive Statistik der Gruppenwerte der vier Lackmischungen (Mittelwert, Standardabweichung, Größe der Stichprobe
Prüfung auf Normalverteilung der Rohdaten durch den Shapiro-Wilk - Test: wie schon argumentiert, dies ist unnötig, da die Residuen normalverteilt sein sollen.
Test auf Varianzhomogenität durch den Levene - Test (nicht wirklich notwendig, da die Gruppen gleich groß sind)
Null- und Alternativhypothese werden angegeben (ohne Hinweis ob einseitig oder zweiseitig)
Es wird darauf hingewiesen, dass ein Post-hoc - Test (Tukey-HSD) notwendig ist um zu sehen, welche Gruppen sich statistisch signifikant unterscheiden. Der Test selbst wurde nicht durchgeführt, dazu war ein weiterer Prompt notwendig (mit erneutem Hochladen der Excel - Datei):

anova rechnen mit tukey-hsd test und visualisieren

Das Ergebnis war beeindruckend (nur die Ausgabe des Tukey - Tests wird hier gezeigt). Zunächst wird festgehalten, dass nur die Mittelwerte der Mischung 2 und Mischung 4 statistisch signifikant verschieden sind (Mischung 1 und Mischung 2 liegen knapp an der Grenze).

Zur Ausgabe gehörten drei Visualisierungen (Boxplot, Tukey - Intervalle und Ergebnistabelle), nachstehend der Boxplot. Alle drei Visualisierung sind HIER ersichtlich.

Nun die Gretchenfrage:

Sind wir glücklich über die Ausgaben von chatgpt und claude? Ersetzen sie die Verwendung von Statistiksoftware im Unterricht oder in der Praxis? Eine Diskussion darüber wäre wünschenswert, gerne unten im Kommentar.

Ein Gedanke zu “Ade Statistiksoftware?”

L Leo sagt:

28. März 2026 um 19:11 Uhr

Was bei beiden Ausgaben (chatgpt und claude) nicht erwähnt wird, warum überhaupt ein Hypothesentest? Wir haben die Daten aus der Stichprobe, können wir nicht gleich daraus die Mittelwerte vergleichen?

Meine Erfahrung nach langjährigem Unterrichten von Statistik ist, dass sich Lernende schwer tun wenn die Konzepte Stichprobe, Grundgesamtheit (Population) und Konfidenzintervalle nicht richtig verstanden wurden.

Antworten