Lehrplan PLUS

Direkt zur Hauptnavigation springen, zur Servicenavigation springen, zur Seitennavigation springen, zu den Serviceboxen springen, zum Inhalt springen

Mathematik 7 Abschnitt zur PDF-Sammlung hinzufügen

Gymnasium: Kenngrößen von Daten

Erläuterung zum Lernbereich: „Kenngrößen von Daten“

  • Beschreibende Statistik – Kenngrößen, Boxplots

    Neben dem arithmetischen Mittel (vgl. Jgst. 6) werden in Jgst. 7 weitere Lage- und Streuparameter (Median, Spannweite, Quartile) betrachtet, mit denen bei größeren Datenreihen ein differenzierterer Blick auf diese Daten ermöglicht wird. Der Median stellt einen weiteren Mittelwert der Daten dar, die Spannweite macht eine grobe Aussage zur Streuung der Daten, die Quartile zerlegen in Verbindung mit dem Median die Datenreihe in vier Blöcke und charakterisieren somit auf einfache Art und Weise die Verteilung der Daten. Dieser Lernbereich zielt nicht darauf ab, eine Theorie von Skalen, Lage- und Streuparametern vertieft zu behandeln, vielmehr sollen sich die Schülerinnen und Schüler anhand von Beispielen mit den genannten grundlegenden Begriffen der beschreibenden Statistik vertraut machen, die im Folgenden zunächst erläutert werden. Im Anschluss daran wird anhand des Beispiels 1 („Taschengeld“) auch der Begriff Boxplot näher beleuchtet. Die am Ende präsentierten Beispiele 2 („Körpergröße“) und 3 („Bayerischer Mathematiktest“) dienen der weiteren Illustration.

    Mittels Spannweite, Median und Quartilen kann eine Datenreihe grob bezüglich der Streuung ihrer Werte charakterisiert werden. Median und Quartile ermöglichen es zudem, einen bestimmten Wert grob bezüglich seiner Lage in der Datenreihe einzuordnen.

    • Die Spannweite ist die Differenz zwischen dem größten und dem kleinsten auftretenden Wert in der Datenreihe.
    • Der Median ist bei ungerader Anzahl von Daten der Wert in der Mitte der geordneten Datenreihe, bei gerader Anzahl das arithmetische Mittel der beiden in der Mitte stehenden Werte.
    • Der Median „zerlegt“ die geordnete Datenreihe in zwei gleich große Blöcke, einen unteren und einen oberen Block. Das untere Quartil ist der Median des unteren Blocks der geordneten Datenreihe, das obere Quartil der Median des oberen Blocks. Bei der Bildung der Blöcke kann im Fall einer ungeraden Gesamtzahl von Daten der Median beiden Blöcken oder keinem Block zugeordnet werden.
      • Variante 1: Die Entscheidung, ob der Median den Blöcken zugeordnet wird, ist so zu treffen, dass die Anzahl der Daten eines Blocks ungerade ist.
      • Variante 2: Der Median gehört grundsätzlich zu keinem der beiden Blöcke.
      Beide Varianten können für die Quartile unterschiedliche Werte liefern, falls die Gesamtzahl der Daten kongruent 1 modulo 4 ist.

    Variante 2 bietet den Vorteil, dass sie leichter verständlich ist und zudem dieselben Werte wie die entsprechenden Befehle „Q1()“ und „Q3()“ in GeoGebra liefert, denen das Verfahren von Moore and McCabe (2002) zugrunde liegt. Im Sinne der didaktischen Reduktion ist es daher in Jgst. 7 vertretbar, sich auf Variante 2 der Definition zu beschränken (siehe dazu die untenstehenden „Anmerkungen zur Erläuterung der Kenngrößen und zu Boxplots“).

    • Beispiele zur Bestimmung von Median und Quartilen:
      • geordnete Datenreihe mit 11 Werten (Variante 1 und Variante 2 führen zum gleichen Ergebnis)
        LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-2a
      • geordnete Datenreihe mit 12 Werten
        LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-2b
      • geordnete Datenreihe mit 13 Werten (Variante 1)
        LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-2c
      • geordnete Datenreihe mit 13 Werten (Variante 2)
        LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-2d

    Beispiel 1: Monatliches Taschengeld von Schülerinnen und Schülern einer Klasse

    Zugrunde liegende Daten:

    LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-1

    Nach Ordnung der Daten ergibt sich:

    LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-4

    Während diese Art der Darstellung betont, dass unteres Quartil, Median und oberes Quartil die Datenreihe in (ungefähr) gleich große Teile zerlegen, erlaubt die folgende Art der Darstellung einen differenzierteren Blick auf die Verteilung der einzelnen Werte:

    LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-5

    arithmetisches Mittel: 22,88 (gerundet)

    Mit dieser Darstellung eng verwandt ist die Darstellung der Kenngrößen der Datenreihe mithilfe eines Boxplots (wörtlich „Kastenzeichnung“):

    LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-6

    Zum Boxplot gehören ein Rechteck (die Box), das vom oberen und unteren Quartil begrenzt wird, und zwei Antennen, die vom Rechteck zum kleinsten bzw. größten Wert verlaufen. Innerhalb des Rechtecks wird der Median durch einen senkrechten Strich gekennzeichnet. Die Höhe des Rechtecks ist beliebig.

    Boxplots können außer von Hand auch mit geeigneter Mathematiksoftware gezeichnet werden. So stellt z. B. GeoGebra den einfach zu verwendenden Befehl „Boxplot(…)“ bereit, der zur Darstellung eines Boxplots lediglich die Daten in Form einer Liste benötigt, die mit wenigen Mausklicks aus einer Tabelle generiert oder direkt eingegeben werden kann.

    Anmerkungen zur Erläuterung der Kenngrößen und zu Boxplots:

    • Das untere Quartil bezeichnet man auch als 1. Quartil, den Median als 2. Quartil sowie das obere Quartil als 3. Quartil.
    • Quartile werden in der Wissenschaft nicht einheitlich definiert. Im Hinblick auf die voranstehend vorgeschlagenen zwei Varianten der Definition ist Folgendes zu beachten:
      • Die Anwendung von Variante 1 der Definition impliziert, dass der Median der gesamten Datenreihe den Blöcken, die zur Bestimmung der Quartile dienen, genau dann zuzuordnen ist, wenn die Gesamtzahl der Daten bei der Division durch 4 den Rest 1 hat. Bei Anwendung von Variante 2 hingegen ist der Median der gesamten Datenreihe den Blöcken grundsätzlich nicht zuzuordnen. Dies kann durch geeignete Abbildungen (s. o.) verdeutlicht werden.
      • Die Aussagen „Mindestens ein Viertel der Daten haben einen Wert kleiner oder gleich dem unteren Quartil.“ und „Mindestens ein Viertel der Daten haben einen Wert größer oder gleich dem oberen Quartil.“ sind bei Anwendung von Variante 1 der Definition immer richtig. Wird Variante 2 herangezogen, kann es in den Fällen, in denen die Gesamtzahl der Daten bei Division durch 4 den Rest 1 hat, vorkommen, dass eine dieser Eigenschaften (oder beide) nur auf etwas weniger als ein Viertel der Daten zutrifft (zutreffen). Diese geringfügigen Abweichungen fallen jedoch insbesondere bei größeren Datenreihen, in deren Zusammenhang Quartile i. d. R. verwendet werden, nicht ins Gewicht und sollten deshalb i. d. R. mit Schülerinnen und Schülern nicht thematisiert werden.
      • Excel-Funktionen wie „QUARTILE.EXKL()“ legen bei der Berechnung der Quartile eine Definition zugrunde, die mit keiner der oben angeführten Varianten übereinstimmt.
    • Der Median ist im Vergleich zum arithmetischen Mittel unempfindlich gegenüber „Ausreißern“. Dies kann z. B. anhand der Frage „Wie ändern sich arithmetisches Mittel bzw. Median im obigen Beispiel, wenn die Schülerin bzw. der Schüler mit dem meisten Taschengeld dieses verzehnfacht bekommt und bei allen anderen Schülerinnen und Schülern das Taschengeld gleich bleibt?“ untersucht werden. Welcher der beiden Mittelwerte aussagekräftiger ist, hängt indes von der konkreten Fragestellung ab.
    • Unter „Materialien“ ist die GeoGebra-Datei „LPP-GY-M_740-E_BeschreibendeStatistik.ggb“ hinterlegt, die zur Veranschaulichung und dynamischen Untersuchung der genannten Kenngrößen herangezogen werden kann (direkter Link).
    • Neben „Antenne“ wird in der Literatur auch der Begriff „Whisker“ verwendet. Es gibt verschiedene Definitionen für die Länge der Antennen (z. B.: Länge der Antenne ist höchstens 1,5-mal so groß wie die der Box; weiter entfernte Werte werden als „Ausreißer“ bezeichnet). Im Rahmen des LehrplanPLUS wird die einfachste Definition der Antennenlänge verwendet: „Die Antennen reichen bis zum minimalen bzw. maximalen Wert.“

    Interpretation von Boxplots

    Boxplots zu interpretieren ist eine besondere Herausforderung, sodass es sich auch lohnt, einfachere beschreibende Aussagen einzufordern.

    Zum Beispiel 1 („Taschengeld“) wären in dieser Hinsicht bspw. die unterhalb der folgenden Grafik aufgelisteten (korrekten) Aussagen möglich.

    LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-6

    • „Die Höhe des Taschengelds der Schülerinnen und Schüler liegt im Bereich von 15 bis 40 Euro.“
    • „Bei mindestens einem Viertel der Schülerinnen und Schüler liegt die Höhe des Taschengelds im Bereich von 18 Euro bis 20,50 Euro.“
    • „Mindestens die Hälfte der Schülerinnen und Schüler erhalten ein Taschengeld im Bereich von 18 Euro bis 27 Euro“.

    Anmerkungen zur Interpretation von Boxplots:

    • Mit dem Wort „mindestens“ wird dem Umstand Rechnung getragen, dass die Werte von Quartilen und Median in der Datenreihe mehrfach auftreten können. In der Datenreihe „Taschengeld“ tritt beispielsweise der Wert 18 insgesamt dreimal auf, davon zweimal im unteren Teilblock. Das Wort „mindestens“ ist deshalb bei der zweiten und dritten Aussage für deren mathematische Korrektheit erforderlich.

      Um die mathematische Korrektheit sicherzustellen, sollte zudem bei Aussagen der obenstehenden Art, die sich auf die grobe Einteilung der Datenreihe in Viertel mithilfe von Median und Quartilen beziehen, stets die separierende Kenngröße (also unteres Quartil, Median und/oder oberes Quartil) mit einbezogen werden. Lediglich in den Fällen, in denen die Anzahl der Daten bei Division durch 4 den Rest 1 ergibt, können dann noch, falls Variante 2 der Definition angewendet wird, geringfügige Fehler entstehen, die jedoch, wie weiter oben unter „Anmerkungen zur Erläuterung der Kenngrößen und zu Boxplots“ ausgeführt, insbesondere bei größeren Datenreihen, in deren Zusammenhang Quartile i. d. R. verwendet werden, nicht ins Gewicht fallen.

      Während der erstgenannte Aspekt (mehrfach auftretende Werte) für die Schülerinnen und Schülern noch recht gut nachvollziehbar ist, ist der zweitgenannte Aspekt (betrachtete Teilblöcke enthalten in besonderen Fällen etwas weniger als ein Viertel der Daten) i. d. R. nicht dazu geeignet, im Unterricht der Jgst. 7 besprochen zu werden (s. o., „Anmerkungen zur Erläuterung der Kenngrößen und zu Boxplots“).

      Verwendet man statt „mindestens“ das Wort „etwa“, können beide Aspekte gleichzeitig berücksichtigt werden. Eine solche didaktische Reduktion ist angesichts des Alters der Schülerinnen und Schüler und deren sprachlicher Kompetenz vertretbar und stärkt gleichzeitig die Grundvorstellung, dass die Datenreihe durch den Median und die Quartile in vier etwa gleich große Blöcke zerlegt wird.

    • Bei größeren Datenreihen liegen die zu den Boxplots gehörenden Datentabellen mit Einzeldaten meist nicht vor, sodass diese nicht zur Interpretation herangezogen werden können.

    Beispiel 2: Körpergröße der Schülerinnen und Schüler der fünften Jahrgangsstufe zweier Schulen

    LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-7

    Mögliche korrekte Aussagen dazu:

    • Der Median ist bei Schule B größer als bei Schule A.
    • Die Körpergrößen umspannen bei Schule A einen größeren Bereich als bei Schule B.
    • Die Körpergrößen der mittleren Hälfte der Fünftklässlerinnen und Fünftklässler der Schule B liegen in einem kleineren Bereich um den Median als bei Schule A.
    • Wenn sich die Fünftklässlerinnen und Fünftklässler der Schule A der Größe nach aufstellen, dann ist die Schülerin bzw. der Schüler in der Mitte 1,36 Meter groß, oder das arithmetische Mittel der Körpergrößen der beiden in der Mitte stehenden beträgt 1,36 Meter.
    • Mit einer Körpergroße von 1,30 Meter gehört man bei Schule B noch zum unteren Viertel der nach der Größe geordneten Fünftklässlerinnen und Fünftklässler, bei Schule A bereits zur mittleren Hälfte.
    • Bei Schule A ist mindestens die Hälfte der Fünftklässlerinnen und Fünftklässler 1,36 Meter groß oder größer, während dies bei Schule B auf mindestens drei Viertel zutrifft.

    Beispiel 3: Bayerischer Mathematiktest (BMT)

    Die Abbildung zeigt für drei Jahre die Ergebnisse der jeweiligen achten Klassen eines Gymnasiums beim BMT, bei dem immer 21 Bewertungseinheiten (BE) erreicht werden können.

    LPP-GY-M_740-E_BeschreibendeStatistikBoxplots_Abb-8

    Mögliche Interpretationen der Ergebnisse:

    • 2016 wurden an dieser Schule Ergebnisse im Bereich von 2 bis 19 BE erzielt.
    • 2017 erzielten mindestens drei Viertel der Schülerinnen und Schüler 7 BE oder mehr.
    • Die vollen 21 BE wurden an dieser Schule nur im Jahr 2015 erzielt.
    • Der Median war 2015 und 2017 gleich.
    • Die Ergebnisse umspannten 2016 einen kleineren Bereich als in den anderen beiden Jahren.
    • Die Ergebnisse der jeweils mittleren Hälfte umspannten 2016 einen kleineren Bereich als in den anderen beiden Jahren.
    • Mit 16 BE konnte man sich an dieser Schule in den Jahren 2016 und 2017 zu den besten 25 % zählen, im Jahr 2015 dagegen nicht.

Ergänzende Informationen sind nicht Bestandteil des Lehrplans.