Erfahren Sie, was Box plots sind, wie man sie liest, welche Vor- und Nachteile sie haben und wie Sie Ihre Daten in diese leistungsstarke Visualisierung umwandeln können.
Box plots sind eine weit verbreitete Art der Datenvisualisierung. Als Profi können Sie Box plots verwenden, um einen Überblick über Ihre Daten zu geben, Datensätze zu vergleichen und eine schnelle visuelle Darstellung bereitzustellen, ohne viel Platz zu beanspruchen. In diesem Artikel erfahren Sie mehr darüber, was ein Box plot ist, welche Art von Daten geeignet ist, welche Vor- und Nachteile es hat und wie Sie Ihren eigenen erstellen können.
Was ist ein Box plot?
Box plots oder Box-and-Whisker-Plots sind ein visuelles Tool zur Darstellung der Verteilung eines Datensatzes. Diese Art von Diagramm zeigt wichtige Statistiken Ihrer Daten, einschließlich Median, Quartile und Ausreißer. Sie können Box plots verwenden, um Einblick in einige Aspekte der Häufigkeitsverteilung Ihrer Daten zu erhalten, darunter:
- Zentrale Tendenz: Dieses Maß stellt die gesamte Verteilung der Daten dar. Bei Box plots ist es der Median, der durch eine in Ihre Box gezeichnete Linie angezeigt wird.
- Streuung: Dies ist der Bereich des Datensatzes. In einem Box plot wird dies durch einzelne Punkte angezeigt, die die höchsten und niedrigsten Werte in Ihrem Datensatz darstellen. So können Sie sehen, wie gestreut Ihre Daten sind.
- Variabilität: Dies zeigt, wie gruppiert oder nicht gruppiert Ihre Daten sind. Wenn die Box Ihres Box plots lang ist, zeigt dies, dass die Werte Ihrer Daten sehr variabel sind. Wenn sie kurz ist, können Sie sehen, dass die Datenpunkte stärker um einen bestimmten Wert gruppiert (weniger variiert) sind.
In Box plots verwendete Datentypen
Aufgrund der statistischen Maße, die durch Box plots dargestellt werden, eignen sie sich normalerweise am besten für numerische Daten. Dies liegt daran, dass Sie Metriken wie den Median, das obere und untere Quartil und die Streuung der Daten verwenden, um sie angemessen grafisch darzustellen. Diese Art der visuellen Darstellung erfordert eine natürliche Ordnung der Daten und ist für kategorische Daten oder Daten ohne natürliche Ordnung weniger geeignet.
So lesen Sie einen Box plot
Wenn Sie wissen, wie Sie das Diagramm richtig lesen, können Sie bei einem Box plot relevante Erkenntnisse aus der Darstellung gewinnen. Gehen Sie beim Betrachten der Grafik die folgenden Schritte durch.
1. Nehmen Sie sich Zeit, um die Box zu verstehen.
Sie können mehrere Elemente des Datensatzes finden, indem Sie das Kästchen in der Mitte des Diagramms untersuchen. Das Kästchen stellt die mittleren beiden Quartile der Daten dar, also die mittleren 50 Prozent der Daten. Die Länge des Kästchens ist der Interquartilsabstand (IQR).
Die obere Linie des Felds stellt das 75. Perzentil der Daten dar (Quartil 3 oder Q3), was bedeutet, dass 75 Prozent der Werte im Datensatz unter diesem Wert liegen. Entsprechend stellt die untere Linie des Felds das 25. Perzentil der Daten dar (Quartil 1 oder Q1), wobei 25 Prozent der Daten unter dieser Linie liegen.
Wie oben erwähnt, stellt ein längeres Kästchen eine größere Variabilität in Ihren Daten dar und zeigt, dass die mittleren 50 Prozent der Daten gestreut sind. Ein kürzeres Kästchen zeigt, dass die mittleren 50 Prozent der Daten in den Werten eng beieinander liegen und eine geringere Variabilität aufweisen.
Der Median stellt Ihr Maß für die zentrale Tendenz dar und zeigt den Punkt an, an dem 50 Prozent der Daten darüber und 50 Prozent darunter liegen.
2. Untersuchen Sie die Schnurrhaare.
Sie können die Whiskers finden, die von den Rändern der Box ausgehen. Diese Whiskers reichen bis zum kleinsten und größten Wert Ihres Datensatzes innerhalb des 1,5-fachen IQR. Dies zeigt den Bereich Ihrer Daten, Ausreißer ausgenommen.
3. Suchen Sie nach Ausreißern.
Über die Whiskers hinaus können Sie einzelne Datenpunkte mit einem Punkt oder einer anderen Markierung in Ihrem Diagramm anzeigen. Dadurch wird angezeigt, welche Werte erheblich von den typischen Werten in Ihrem Datensatz abweichen. Sie sollten Ihre Ausreißer sorgfältig prüfen, um sicherzustellen, dass es sich nicht um Fehler in Ihrem Datensatz handelt und dass es sich um tatsächliche, unvoreingenommene Daten handelt.
Vor- und Nachteile von Box plots
Wenn Sie sich für die Verwendung eines Box plots entscheiden, sollten Sie sich der Vor- und Nachteile bewusst sein. Je nach Datentyp und Anforderungen können unterschiedliche Vorteile oder Nachteile für Sie wichtiger sein.
Vorteile von Box plots
- Einfacher Vergleich zwischen Datensätzen: Box plots ermöglichen Ihnen die nebeneinander dargestellte Darstellung numerischer Datensätze, um zu sehen, wie sie sich hinsichtlich Zentralität, Verteilung und Variabilität unterscheiden.
- Schiefe kann visualisiert werden: Durch die Untersuchung der Lage der Quartile und des Medians sowie der Whiskers können Sie erkennen, ob Ihr Datensatz eine bestimmte Schiefe oder Tendenz aufweist.
- Kann große Datensätze darstellen: Da in einem Box plot nur bestimmte Maße des Datensatzes dargestellt werden (z. B. Median, Quartile), können Sie große Datensätze einfach darstellen. Dies kann einem allgemeinen Publikum einen Überblick auf hoher Ebene geben.
Nachteile von Box plots
- Einfache Übersicht über die Daten: Sie können keine genaueren Details zu den Daten erkennen, z. B. ob Ihre Verteilung mehrere Cluster enthält.
- Nicht für alle Datensätze geeignet: Wenn Sie über Daten verfügen, die nicht numerisch sind, nur begrenzte Datenpunkte aufweisen oder nur einen kleinen Wertebereich darstellen, ist ein Box plot möglicherweise nicht die richtige Wahl.
- Kann bei bestimmter Software eingeschränkt sein: Bestimmte Softwarepakete schließen Ausreißer möglicherweise automatisch aus oder stellen die Daten anderweitig falsch dar, wenn Ihre Daten ungewöhnliche Datenpunkte aufweisen. In diesem Fall könnten Ihnen bestimmte Aspekte Ihrer Daten entgehen.
Mehr lesen: 10 häufige interview questions und wie man sie beantwortet
Beginnen Sie mit dem Erstellen Ihres eigenen Box plots.
Das Erstellen eines eigenen Box plots umfasst mehrere Schritte, darunter Berechnungen und Datenvisualisierung. Gehen Sie folgendermaßen vor, um ein Box plot zu erstellen:
- Sammeln Sie Ihre Daten. Stellen Sie sicher, dass Ihr Datensatz vollständig ist und über genügend Datenpunkte in einem numerischen Bereich verfügt, um effektiv dargestellt zu werden. Erwägen Sie, Ihre Daten in aufsteigender oder absteigender Reihenfolge zu ordnen, um sie in Viertel zu unterteilen.
- Berechnen Sie Ihre Schlüsselbox-Statistiken. Sie möchten Ihren Median, Q1, Q3 und IQR berechnen.
- Berechnen Sie Ihre wichtigsten Whisker-Statistiken. Bestimmen Sie die Unter- und Obergrenzen für potenzielle Ausreißer mithilfe des IQR. Die Untergrenze entspricht Q1 – 1,5 * IQR, während die Obergrenze Q3 + 1,5 * IQR entspricht.
- Identifizieren Sie Ihre Ausreißer. Nach der Berechnung Ihrer Whisker-Statistik werden Datenpunkte außerhalb dieses Bereichs normalerweise als Ausreißer klassifiziert.
- Erstellen Sie Ihr Box plot. Sie können dies manuell oder in einer Software wie R oder Excel tun.
Erfahren Sie mehr auf Coursera.
Sie können Ihre Fähigkeiten zur Datenvisualisierung auf Coursera weiter ausbauen. Als Anfänger können Sie an umfassenden Übersichtskursen führender Universitäten und Organisationen wie „ Datenvisualisierung mit fortgeschrittenem Excel“ oder „Datenvisualisierung und Kommunikation mit Tableau“ interessiert sein .