Statistische Ausreißer

Ausreiser untersuchen

1. Wir klicken auf Analysieren > Deskriptive Statistiken > Explorative Datenanalyse.

2. Es öffnet sich das „Explorative Datenanalyse“ Dialogfenster. In der linken Spalte befinden sich alle verfügbaren Variablen. Wir klicken auf eine Variable mit der linken Maustaste und halten diese gedrückt, während wir den Mauszeiger über das Feld Abhängige Variablen bewegen. Dort angekommen lassen wir die Maustaste los. Durch diese Aufheben-und-Loslassen-Technik (Drag and Drop) können wir in SPSS schnell Variablen hin- und herschieben.

Hinweis: Alternativ kann der blaue Knopf mit dem Pfeil verwendet werden, um Variablen in die entsprechenden Felder zu verschieben.

Die zu analysierende Variable wird in das Feld Abhängige Variablen gezogen.

Falls es mehrere Gruppen gibt die wir vergleichen ziehen wir die unabhängige Variable (UV) in das Feld Faktorliste.

3. In der Gruppe Anzeige setzen wir den Marker auf die Option Beide und klicken anschließend auf Diagramme (grüner Pfeil im Bildschirmausschnitt).

4. Im Dialogfenster setzen wir einen Hacken in der Gruppe Deskriptiv auf Histogramm und einen weiteren Haken auf die Option Normalverteilungsdiagramm mit Tests. Bei Boxplots lassen wir die Option Faktorstufen zusammen ausgewählt. Wir klicken auf Weiter um die Eingaben zu bestätigen.

Hinweis: wir setzen an dieser Stelle einen Haken bei Normalverteilungsdiagramm, weil wir den Datensatz im nächsten Kapitel zusätzlich auf die Normalverteilung hin überprüfen wollen. So sparen wir uns etwas Arbeit.

5. Wir klicken auf Weiter und bestätigen im Dialogfenster mit , um die Analyse zu starten.

6. Anschließend erscheinen in der Ausgabe mehrere Berechnungen. Wir suchen weiter unten das Box-Plot-Diagramm. Jeder Datenpunkt, der unverhältnismäßig groß oder klein ist, wird in dieser Ansicht aufgeführt. Falls ein Wert mehr als 1,5 Standardabweichungen vom Mittelwert der Variable entfernt ist, gilt dieser als leichter Ausreißer und wird mit einem kleinen Kreis(°)dargestellt. Sogenannte extreme Ausreißer sind mehr als 3 Standardabweichungen vom Mittelwert entfernt und werden durch einen Stern (*) visualisiert. Die Nummer neben den Symbol zeigt, um welchen Fall es sich handelt. In unserem Beispiel sind die Fälle 91 und 31 Ausreißer.

 

Leichte Ausreißer

 

Dieses Diagramm zeigt zwei leichte Ausreißer

Extreme Ausreißer

Es werden zwei Gruppen verglichen, die mehrere extreme Ausreißer haben.

 

 

SPSS verfügt nur über das einfachste Verfahren, um Ausreißer zu identifizieren. Der Einsatz weiterer Methoden könnte zu anderen und unter Umständen besseren Ergebnissen führen.
Exkurs: Was ist ein Boxplot-Diagramm?

Kleiner Exkurzs zum Boxplot: der gelbgraue Bauch (Box) des Boxplots grenzt das untere und obere Quartil im Datensatz ein. Das bedeutet, dass 50% unserer Daten sich in diesem Bereich befinden. In der Mitte teilt der Median als Strich die Box in zwei Hälften. Er symbolisiert, wo sich jeweils 50% der Daten liegen. Die dünnen Antennen werden als oberer bzw. unterer Whisker bezeichnet und sind von der Länge maximal das 1,5-Fache des Interquartilabsstands (Länge der Box) lang und können unterschiedlich groß sein, weil sie sich an den konkreten Datenpunkten, die sich innerhalb dieser Grenze befinden richten. Werte außerhalb der Whiskers werden als Ausreißer behandelt.

Exkurs Gründe für Ausreißer

Es gibt viele Gründe für Ausreißer und der einfachste Grund ist die natürliche Varianz in der menschlichen Population. Wir Menschen sind nicht alle gleich und unterscheiden uns auf vielfältiger Art und Weise. Eine Gewisse Streuung ist ganz normal. Was am Ende ein Ausreißer ist, hängt darüber hinaus stark von der untersuchten Stichprobe ab. Eine Person, die über zwei Meter groß ist würde für die Variable „Größe“ in einer Stichprobe schnell als Ausreißer deklariert werden. Untersuchen wir jedoch explizit Basketballmannschaften, könnte sich das wieder ändern. Die Forschung interessiert sich in der Regel für den Durchschnitt der Gesellschaft, deren Ergebnisse sich auf so viele Personen wie möglich übertragen lassen. Daher ist es durchaus legitim, bei Variablen, die für die Analyse von Bedeutung sind, auszuschließen. Genauso richtig ist es, diese authentischen Fälle im Datensatz zu behalten. Eine pauschale Antwort kann leider nicht gegeben werden, weil es stets auf den jeweiligen Fall ankommt. Ein kleiner Tipp: Erhöhe die Anzahl der untersuchten Personen. So fallen Ausreißer weniger ins Gewicht und das Ausschließen hat einen geringeren Einfluss.

Menschen machen Fehler, dazu gehört auch falsche Dateneingabe durch Tippfehler die zu absurden folgen führen können. Das gilt auch für Messfehler, die beispielsweise durch eine fehlerhafte Kalibrierung Fehler und damit falsche Daten produzieren. Hier sollte man aufpassen, dass nicht zu viele Daten aufgrund Messfehler erzeugt wurden, da diese als systematische Fehler so häufig im Datensatz vorkommen, dass diese ein Teil der Daten und nicht mehr als Ausreißer identifiziert werden. Aus diesen Gründen sollten Ausreißer aus Dateneingabefehler ausgeschlossen werden.

 

Was machen wir nun mit den Ausreißern?

Falls wir Datenpunkte entdeckt haben, die zu weit gestreut von Mittel des Datensatzes sind, gibt es mehrere Möglichkeiten mit der Analyse fortzufahren:

  • Exklusion: Extreme und/oder leichten Ausreißer werden aus dem Datensatz entfernt. Wir notieren die Anzahl und die Gründe. Zu empfehlen, wenn es ausreichend viele Versuchspersonen bzw. Fälle gibt.
  • Weiter so! Wir dokumentieren, dass es Ausreißer gibt und behalten Sie im Datensatz. Gehe bei leichten und echten Ausreißern, die Teil der natürlichen Streuung der Variable sind, so vor.
  • Systematische Anpassung. Die höchsten und niedrigsten Werte werden mit einem bestimmten Verfahren ersetzt bzw. entfernt.
    Die Truncation (Trimming) Winsorizing
  • Ersetzen: Ausreißer werden mit weniger untypischen Daten bzw. den Mittelwert ersetzt.
    Nicht empfehlenswert, weil weitere wichtige statistische Werte (Signifikanz) ebenfalls manipuliert werden.
  • Nicht-parametrischen Tests anwenden.
    Nicht-Parametrische Test sind anspruchsloser und haben dafür weniger statistische Power.
  • Beenden der Analyse.

In der Regel gilt: Extreme Ausreißer sollten aus dem Datensatz entfernt werden, leichte Ausreißer können, müssen aber nicht entfernt werden. Wie mit Ausreißern umgegangen wird, ist selbst bei den Forschern umstritten. Die Berechnung von Ausreißern basiert zwar auf mathematischen Formeln die eine objektive Bewertung ermöglichen und sind gleichzeitig dennoch, gerade bei kleineren Datenmengen umstritten. Darüber hinaus, können durch zu schnelle Entfernung der Ausreißer die Daten geschönt werden, in dem alle nicht passenden Ergebnisse entfernt werden. Übrigens: Die ersten Ozonlöcher wurden damals auch als statistische Ausreißer ignoriert.

 

Ergebnisse dokumentieren

Nach der Überprüfung werden die Ergebnisse und das Vorgehen dokumentiert. Beispielsweise so:

Keine Ausreißer im Datensatz:

  • Im Datensatz befanden sich keine Ausreißer.
  • There were no outliers in the data.

Ausreißer im Datensatz:

  • Drei Fälle wiesen extreme Werte auf und wurden von der weiteren Datenauswertung ausgeschlossen.
  • Three cases were excluded from further analysis due to extreme values.

 

Setze die Berechnungen fort: