In diesem Review möchte ich Euch das Buch „Praktische Statistik für Data Scientists“ von Peter & Andrew Bruce sowie Peter Gedeck vorstellen. Das Buch ist 2021 im O’Reilly Verlag erschienen, kostet als Taschenbuch 39,90€ und ist auch als Ebook erhältlich.

Inhalte von „Praktische Statistik“

Wie der Titel schon verrät, enthält das Buch eine Übersicht der wichtigsten statistischen Konzepte, mit denen Data Scientisten arbeiten. Dabei unterteilen die Autoren ihr Buch in diese Kapitel:

  1. Explorative Datenanalyse
  2. Daten- und Stichprobenverteilungen
  3. Statistische Versuche und Signifikanztests
  4. Regression und Vorhersage
  5. Klassifikation
  6. Statistisches maschinelles Lernen
  7. Unüberwachtes Lernen

Jedes Kapitel enthält verschiedene Unterkapitel, zu denen auch immer weiterführende Literatur angegeben ist und am Ende eines Kapitels eine Zusammenfassung. Zudem gibt es viele Kästchen mit Schlüsselbegriffen oder den Kernideen. Zudem gibt es Abschnitte mit den typischen O’Reilly Tiersilhouetten mit wertvollen Tipps und Warnungen:

Das gesamte Inhaltsverzeichnis findet ihr auf der hier verlinkten dpunkt-Seite.

Explorative Datenanalyse

In diesem Kapitel werden die Statistik-Basics erklärt, also z.B. was sind Mittelwert, Median und Standardabweichung. Auch einige Visualisierungen wie Boxplot oder Histogramm, natürlich mit zugehörigem Code, werden gezeigt, um die Daten(-verteilung) besser zu verstehen. Schließlich geben die Autoren noch Methoden an, um den Zusammenhang zwischen zwei oder mehr Variablen zu berechnen oder in Grafiken darzustellen.

Daten- und Stichprobenverteilungen

Im Wesentlichen werden die verschiedenen Verteilungen wie Normal-, t-, Binomialverteilung vorgestellt. Besonders wichtig ist aber der Anfang vom Kapitel, in dem über Stichprobengröße, Verzerrungen, Konfidenzintervalle und alles, was dazugehört, berichtet wird. Dieser Part hätte aus meiner Sicht noch ausführlicher sein können, denn da stecken einige der wichtigsten Kernideen der Statistik dahinter, die erfahrungsgemäß Einsteigern Probleme bereiten.

Statistische Versuche und Signifikanztests

Das Kapitel könnte auch Hypothesentests heißen. Es geht also darum, wie man Unterschiede oder Gleichheiten anhand von Stichproben statistisch signifikant beweisen kann. Die wichtigsten Standardtests wie t-Test, Chi-Quadrat-Test oder auch der exakte Test nach Fisher sind aufgeführt.

Regression und Vorhersage

Die Klasse der Regressionsalgorithmen ist eines der Standardwerkzeuge von Data Scientists, denn damit lassen sich Zusammenhänge zwischen Variablen untersuchen, aber auch Prognosen treffen. In diesem Kapitel geht es vor allem um die lineare Regression für metrische Variablen (Größe, Gewicht, Preis) und die Interpretation der zugehörigen Kennzahlen wie Residual Standard Error, R² usw.

Klassifikation

In der Realität hat man es meist nicht mit metrischen Merkmalen zu tun, sondern mit Variablen, die nur einige Ausprägungen haben, z.B. ja oder nein, Kategorien (nominalen oder ordinalen Merkmale). Hierbei kommen Klassifikations-Verfahren wie Naive Bayes oder logistische Regression zum Einsatz.

Statistisches maschinelles Lernen

In diesem Kapitel werden einige Algorithmen vorgestellt, die zur Klasse des überwachten Lernens gehören. Dabei werden anhand eines Trainingsdatensatz die Parameter des Algorithmus so eingestellt, dass Fehlklassifikationen möglichst selten vorkommen. In diesem Kapitel werden k-nearest-neighbor, Entscheidungsbäume und Ensemble-Algorithmen wie Random Forest oder XGBoost erklärt.

Unüberwachtes Lernen

Beim unüberwachtem Lernen geht es allgemein gesagt darum, Muster in den Daten zu finden. Clustering-Algorithmen wie der k-Means-Algorithmus sortieren die Datenpunkt anhand der „Nähe“ zueinander in Klassen einzuteilen.

 „Praktische Statistik für Data Scientists“ in Zahlen

  • Autoren: Peter Bruce, Andrew Bruce, Peter Gedeck
  • Erscheinungsdatum:04.2021 (Übersetzung der 2. Auflage)
  • Seitenanzahl: 374
  • Format: 23,3 x 16,7 cm, 2,5cm dick
  • Verlag: O’Reilly
  • Codebeispiele: R und Python
  • Preis: Taschenbuch 39,90€, Ebook 31,99€
  • ISBNs:
    • Print: 978-3-96009-153-0
    • Bundle (print + digital): 978-3-96010-470-4
    • PDF: 978-3-96010-467-4
    • ePub: 978-3-96010-468-1
    • Mobi: 978-3-96010-469-8
  • Auf Amazon kaufen!

Codebeispiele in R und Python

Zu jedem Konzept gibt es auch immer ein kurzes Codebeispiel in R und in Python. Meine Vermutung ist, dass zuerst die R-Beispiele vorhanden waren und dann eine „Übersetzung“ für Python gemacht wurde, da Python im Data Science Bereich immer populärer wird. Trotzdem ist auch der Python-Code von guter Qualität. Code, der zum Laden der benötigten Pakete und Datensätze nötig ist, ist nicht mit abgedruckt, um Platz zu sparen und Wiederholungen zu vermeiden. Das ist sehr zu begrüßen. Den vollständigen Code findet ihr in einem zugehörigen Githib-Repository.

Um die Beispiel zu verstehen, sollte man schon ein bisschen mit der Programmiersprache gearbeitet haben. Es werden keine Grundlagen wie Datentypen oder Standard-Funktionen von R oder Python erklärt, aber das würde auch den Rahmen sprengen und es gibt genug Quellen dafür. Zum Beispiel hier auf dem databraineo-Blog, zum Beispiel Datentypen in R – einfach erklärt oder Erste Schritte mit Python.

Fazit

Um es vorweg zu nehmen: „Praktische Statistik für Data Scientists“ ist ein sehr gelungenes Buch, dass ich jedem angehenden Data Scientisten empfehlen kann.

Die populärsten, für die Praxis relevanten statistischen Konzepte und Grundzüge des maschinellen Lernens werden angesprochen. Dieser umfassende Ansatz ist vielleicht gleichzeitig ein Nachteil, denn bei diesem Umfang kann nicht groß in die Tiefe gegangen werden. Auf der anderen Seite bekommt man so einen hervorragenden Überblick über dieses umfangreiche Thema. Und das ist vermutlich für die Praxis genau das richtige, denn zuerst muss man wissen, welche Methode oder Algorithmus für die Problemstellung geeignet ist. Will man dann weiter optimieren, betreibt man eh noch einmal Recherche zu dem speziellen Verfahren. Im Prinzip muss jeder selber wissen, ob er lieber mit einem Überblicksbuch arbeiten möchte oder direkt tiefer in weniger Themen einsteigen will.

Bleibt noch zu klären, ob das Buch auch für Statistik-Neulinge geeignet ist. Das fällt mir ehrlich gesagt ein bisschen schwer zu beurteilen, denn man vergisst schnell, welche Mühe einige Konzepte einem am Anfang machen. Beim Lesen des Buchs konnte ich dementsprechend meist einfach nicken und in meiner mentalen Checkliste abhaken, dass die wichtigsten Punkte genannt wurden. Ich denke aber, wenn man das Buch intensiv liest und nicht einfach überfliegt, kommt man auch als Anfänger gut damit klar.

Also mein Fazit: „Praktische Statistik für Data Scientists“ lohnt sich, hier kann man ohne Reue zugreifen.

 

Happy reading, Euer Holger