Hej Leute,

ich werde immer mal wieder gefragt, was denn der Unterschied zwischen einem Data Scientist und einem Data Engineer oder zwischen einem Data Analyst und einem Data Scientist sei. In Jobanzeigen sieht man mal den einen, mal den anderen Begriff, aber auch dort scheint es nicht immer klar abgegrenzt zu sein.

Klar ist, dass es viele Überschneidungen zwischen den drei Tätigkeiten Data Engineering, Data Science und Data Analysis gibt. Und natürlich sind die Begriffe nicht scharf getrennt, so dass es in einem Jobprofil der Data Scientist eigentlich eher ein Data Analyst wäre und umgekehrt. Allerdings sind die Fähigkeiten, die benötigt werden, ziemlich unterschiedlich. Und es fördert Frust, wenn man einen Data Scientist als Data Engineer einsetzt und auch umgekehrt.

Zudem gibt es noch einen Haufen anderer Berufsbezeichnungen wie DevOps, BI-Specialist oder Business Analyst, die mehr oder weniger eng mit den drei genannten verwandt sind. In Jobportalen tauchen gerne auch alle möglichen Kombinationen auf.

Fangen wir aber erstmal damit an, was überhaupt die Aufgabenbereiche sind.

 

Die Aufgaben eines Data Scientists

Im Englischen kann man die Aufgabe ganz gut mit “Advances Analytics” beschreiben, also komplexe Analysen. Dabei gibt es zwei Anwendungsbereiche:

  • zum einen geht es um die Gewinnung von Insights mittels Daten, also die Datenanalyse mit dem Ziel, andere Abteilungen zu unterstützen. Typische Beispiele sind die Verteilung von Marketing-Budget, Betrugserkennung im Finanzwesen (fraud detection) oder auch Absatz-/Bestellprognosen.
  • Der andere Anwendungsbereich ist die (Weiter-) Entwicklung von Produkten, also mit dem Kunden als Anwender, z.B. eine recommendation engine oder welche Beiträge im Feed eines sozialen Netzwerkes landen.

Beide Anwendungsbereiche können je nach Job unterschiedlich stark gewichtet sind bzw. kann ein Job auch nur einen verlangen. Dabei reichen die Ausprägungen von recht einfachen Adhoc-Analysen bis zur Entwicklung von künstlicher Intelligenz. Auch die Datenmenge ist sehr unterschiedlich und eignet sich nicht als Unterscheidungskriterium zwischen Data Analyst und Data Scientist. Manche sagen zwar: Data Analyst=small data, Data Scientist=big data, aber das greift viel zu kurz. Ab welcher Größe spricht man denn von Big Data? Und zudem kann man auch mit Small Data “Advanced Analytics” entwickeln.

 

Im Endeffekt benötigt ein guter Data Scientist die folgenden vier Fähigkeiten:

  • Mathematische und statistische Methoden
  • IT-Skills, insbesondere Programmierung in einer Skriptsprache (Python oder R)
  • Kommunikation inkl. Datenvisualisierung
  • Domain Knowledge

Die ersten drei kann man lernen, Domain Knowledge – modern für Branchenwissen – bekommt man mit der Erfahrung, die man in einer bestimmten Branche arbeitet, z.B. Gesundheitswesen, Digital Marketing oder Retail).

 

Die Aufgaben eines Data Engineers

Grob gesprochen ist der Data Engineer für die Infrastruktur der Daten zuständig. Insbesondere geht es um die saubere und verlässlichen Aufbau der Datenströme. Man spricht dabei von sogenannten data pipelines.

Das ist vor allem bei Big Data alles andere als trivial. Daher ist die Berufsbezeichnung Data Engineer eng mit Big Data verknüpft. Hat man “nur” normale Datenbanken, würde man vermutlich eher vom BI-Developer oder Data Warehouse-Specialist sprechen.

Der Data Engineer sollte sich also mit den modernen Tools für Big Data auskennen, sprich Hadoop, Hive, Spark, NoSQL-Datenbanken etc. Er sorgt im Endeffekt dafür, dass eine Big Data-Infrastruktur vorhanden ist, auf der ein Data Scientist dann die Analytics, z.B. maschinelles Lernen, durchführen kann.

 

Die Aufgaben eines Data Analysts

Der Data Analyst befindet sich zwischen Data Scientist und Business Analyst und ist häufig nur schwer vom Data Scientist abzugrenzen. Der Data Analyst hat seinen Schwerpunkt im Bereich Reporting mit den Tools Excel und SQL bzw. der BI-Anwendung. Vom Data Analyst wird in der Regel nicht erwartet, dass er komplexe statistische Modelle benutzt und programmiert, was typischerweise der Data Scientist macht.

Der Data Analyst arbeitet häufiger in einer Abteilung und hat dementsprechend großes Fachwissen, z.B. Controlling. Der Data Scientist agiert eher projektbasiert und abteilungsübergreifend.

 

Schaubild der Fähigkeiten und Aufgabenbereiche Data Scientist vs Data Analyst vs Data Engineer

 

Weitere Berufsbezeichnungen

Um Euch die Orientierung zu erleichtern, habe ich noch ein paar weitere Berufsbezeichnungen skizziert, die man im Zusammenhang mit Daten häufiger liest.

DevOp – Development und Operations

DevOps ist ein neuer Begriff und vielen ist gar nicht klar, was dieser denn nun bedeutet. Das liegt daran, das DevOps keine Berufsbezeichnung im eigentlichen Sinn ist, sondern eher eine Beschreibung einer IT-Kultur.

Vom Wort ist es erstmal eine Kombination von Development, also Softwarentwicklung, und Operations, also dem Betreiben der Software. Und das beschreibt es schon ganz gut. In der alten IT-Welt gibt es Softwareentwickler, die sich an Pflichten- und Lastenheften halten, und es gibt die Administratoren, die sich um den laufenden Betrieb kümmern. Eine Softwareentwicklung ist irgendwann abgeschlossen und Änderungen (Change Requests) müssen genau definiert, beurteilt, budgetiert, programmiert und dann produktiv gesetzt werden. Mit anderen Worten ein langwieriger Prozess. In der heutigen Zeit (Stichwort Agilität) geht es aber darum, in kurzer Zeit Änderungen am Softwareprodukt/-dienst vorzunehmen, um auf sich verändernde Anforderungen einzustellen. Denkt zum Beispiel mal an Google oder Facebook mit ihren tausend Tests, was denn nun besser funktioniert. DevOps kann darauf als Antwort gesehen werden, denn dabei geht es um die Reduktion der Zeit zwischen einer Änderungsanfrage und der tatsächlichen Änderung im produktiven System.

 

Systemadministrator – Manager von Servern/Computern

Der Systemadministrator lässt sich gut vom Data Engineer abgrenzen. Der Systemadministrator ist zuständig für Verfügbarkeit (uptime), Performance, Sicherheit und Ressourcen von Servern und Computern.

Dabei kommen im SysAdmin-Alltag meist einige der folgenden Tätigkeiten vor:

  • Installation und Konfiguration von neuer Hardware und Software
  • Installation von Updates und Patches des Betriebssystems und vorhandener Software
  • Management von User Accounts (Anlegen, Löschen, Passwörter zurücksetzen)
  • System Logs analysieren, um Probleme zu entdecken
  • Management der Netzwerk-Infrastruktur
  • Analyse und Behebung von berichteten Problemen
  • Anfragen von Usern beantworten
  • Training von Usern

 

Business Analyst – der Geschäftsmodellversteher

Der Business Analyst ist am nächsten am Data Analyst dran, aber die Ausrichtung ist noch mehr in Richtung BWL. Es geht also vor allem um Geschäftsprozesse und Geschäftsentwickung. Dabei sind die IT-Skills meistens begrenzter als die des Data Analysts, sprich es geht vor allem um Excel, Powerpoint und die Anwendung von BI-Software (SAP, Microstrategy, …). Dafür sind Kommunikationsfähigkeiten, Projektmanagement und Domain Knowledge ausgeprägter. Klassischerweise stellt der Business Analyst die Schnittstelle zwischen den Abteilungen und der IT dar und arbeitet projektbasiert als interner Berater. Je nach Größe des Unternehmens macht die Schnittstellenarbeit aber auch ein Data Analyst.

 

Business Intelligence Developer – der BI-System-Spezialist

Der BI Developer ist wie der Business Analyst auch eine Jobbeschreibung, die es schon einige Jahre gibt. Im Wesentlichen ist der BI-Developer für alles zuständig, was mit Reportings aus dem DataWarehouse und BI-System zu tun hat. Je nachdem, wie technisch der Job ausgelegt ist, gehört dazu neben der Arbeit im BI-System auch die Datenbankadministration. Je nach dieser Auslegung ist das Aufgabenprofil recht nacht nah am Data Analyst oder am Data Engineer. In Jobportalen sieht man dementsprechend auch häufiger die Kombination mit einem der beiden Begriffe. Insbesondere wenn es um moderne BI-Tools wie Tableau oder Qlik geht, ist die Nähe zum Data Analysten gegeben.

  • Datenmodelle, Reports und Dashboards im BI-System enwickeln
  • Programmierung und Optimierung von Datenbankabfragen (SQL)
  • Entwicklung und Design des Data Warehouses
  • Zusammenführung von verschiedenen Datenquellen im Data Warehouse
  • Administration von Datenbanken

 

Statistiker – der Statistikexperte

Reine Statistikstellen sind selten, daher beschreibe ich hier eher die Abgrenzung vom Data Scientist zum Statistiker. Am häufigsten sind die Statistiker (noch) in Versicherungen oder der Pharma-Branche, aber auch dort wandelt sich das Bild. In der Pharma-Branche geht es um Studiendesign, Stichprobengröße etc., also wie man die Wirksamkeit eines Medikaments nachweisen kann.

Der Statistiker ist weniger Programmierer als der Data Scientist. Das heißt nicht, dass der Statistiker nicht programmieren kann, denn das muss er durchaus. Im Normalfall sind die Programme aber nicht für den produktiven Einsatz bestimmt, sondern einmalige Analysen.

Man kann auch noch anführen, dass der Data Scientist breiteres Mathematikwissen benötigt (Analysis, Lineare Algebra, Optimierungsmethoden), insbesondere für das Verständnis von Neuronalen Netzen.

Dafür kennt sich der Statistiker natürlich am Besten mit den verschiedensten Verfahren der Statistik aus und hier kann ihm keiner das Wasser reichen. Das ist nicht zu unterschätzen, denn das korrekte Anwenden der Statistik-Methoden erfordert Wissen. Insbesondere der Bereich “Small Samplesize” (kleine Stichproben) ist das Wissen um die entsprechenden Verfahren sehr wichtig.

 

Business Analyst bis Systemadministrator. Data Analyst, Data Scientist und Data Engineer dazwischen

Fazit

Ihr habt gemerkt, dass Jobbeschreibungen keine exakte Wissenschaft sind. Neben großen Überschneidungen und zum Teil unscharfen Definitionen spielt auch noch Trends und wie modisch ein Unternehmen erscheinen will, eine Rolle.

Nichtsdestotrotz macht es Sinn, sich mit Anforderungsprofilen auseinanderzusetzen. Denn auf der einen Seite werden Data Scientisten händeringend gesucht. Auf der anderen Seite erfordern nicht alle Stellen, die für einen Data Scientist ausgeschrieben sind, wirklich einen Data Scientisten.

Was sind Eure Erfahrungen und Jobprofile? Schreibt mir einen Kommentar oder besucht die Data Science Deutschland – Facebookgruppe

Euer Holger (Data Scientist & Blogger)