Angenommen, in einem Experiment soll das Gewicht von Laborratten ermittelt werden, und die Werte in Gramm sind 320, 367, 423, 471 und 480. In diesem Fall wird die Spanne einfach als 480-320 = 160 Gramm berechnet.
Einige Einschränkungen der Spanne
Die Spanne ist ein recht nützlicher Indikator dafür, wie weit die Daten gestreut sind, aber sie hat einige ernsthafte Einschränkungen. Dies liegt daran, dass Daten manchmal Ausreißer haben können, die weit von den anderen Datenpunkten entfernt sind. In diesen Fällen gibt der Bereich möglicherweise keinen wirklichen Hinweis auf die Streuung der Daten.
Betrachten wir in unserem vorherigen Fall zum Beispiel ein kleines Rattenbaby, das dem Datensatz hinzugefügt wurde und nur 50 Gramm wiegt. Jetzt wird der Bereich als 480-50 = 430 Gramm berechnet, was wie eine falsche Angabe der Streuung der Daten aussieht.
Diese Einschränkung des Bereichs ist vor allem deshalb zu erwarten, weil der Bereich unter Berücksichtigung von nur zwei Datenpunkten berechnet wird. Daher kann er keine sehr gute Schätzung darüber liefern, wie sich die Daten insgesamt verhalten.
Praktischer Nutzen des Bereichs
In vielen Fällen sind die Daten jedoch eng geclustert, und wenn die Anzahl der Beobachtungen sehr groß ist, kann er einen guten Eindruck von der Datenverteilung vermitteln. Nehmen wir zum Beispiel eine große Erhebung über die IQ-Werte von Universitätsstudenten, die 10.000 Studenten mit unterschiedlichem Hintergrund umfasst. In diesem Fall kann der Bereich ein nützliches Instrument sein, um die Streuung der IQ-Werte unter den Universitätsstudenten zu messen.
Manchmal wird der Bereich so definiert, dass die Ausreißer und Extrempunkte im Datensatz eliminiert werden. So wird beispielsweise der Interquartilsbereich in der Statistik als die Differenz zwischen dem dritten und dem ersten Quartil definiert. Sie können sofort erkennen, dass diese neue Definition des Bereichs robuster ist als die vorherige. Hier spielen die Ausreißer keine Rolle, und diese Definition berücksichtigt die gesamte Verteilung der Daten und nicht nur die Maximal- und Minimalwerte.
Es sei darauf hingewiesen, dass der Bereich trotz einiger Einschränkungen in vielen Fällen eine nützliche Angabe sein kann. Als Student der Statistik sollte man verstehen, welche Arten von Daten sich am besten für eine Definition anhand des Bereichs eignen. Wenn es zu viele Ausreißer gibt, ist dies möglicherweise keine gute Idee. Aber der Bereich gibt einen schnellen und einfach abzuschätzenden Hinweis auf die Streuung der Daten.