Big Data in easy words

Mein Freund Tristan Poetzsch betreibt zusammen mit einem Bekannten das Think Tank Framsteg. Dort verfassen die beiden sehr spannende Analysen, Studien und bloggen auch fleißig. Aktuell hat Tristan eine Artikel Serie zu Big Data gestartet. In dieser sollen wichtige Konzepte und Technologien von Big Data vorgestellt und für Laien genauer erläutert werden. Ich werde demnächst dort auch zwei Artikel beisteuern. Einer wird Machine Learning behandeln und der andere den Mythos um den Titel des Data Scientist lüften.

Gerne empfehle ich Tristans erste beiden Artikel seiner neuen Serie. Der erste heißt „Big Data in easy words“ und ist inhaltlich selbsterklärend 🙂 Sein zweiter Artikel stellt das Konzept der relationalen Datenbanken vor und erklärt was eigentlich mit „NoSQL“ gemeint ist.

Viel Spaß beim lesen

R interaktiv in R lernen: mit Swirl :)

R Tutorials gibt es viele, sehr viele. Das Angebot reicht hierbei von R Kursen als Buch, über online Kurse bis hin zu Video Reihen auf YouTube oder Channel 9. Nun gibt es aber auch die Möglichkeit R interaktiv in der Konsole zu lernen. Mit dem R Package Swirl lässt sich R direkt in der R Konsole bzw. in einer R IDE, wie etwa R Studio oder Visual Studio, lernen.

„R interaktiv in R lernen: mit Swirl :)“ weiterlesen

DO’S AND DON’TS OF DATA SCIENCE

Auf dem kleinen Blog „Data Science 101“ bin ich auf folgende Do’s & Dont’s Liste für Data Science gestoßen. Mir gefallen diese kleine Mantras für die richtige Arbeit mit Daten sehr. Die Liste sollte neben jedem Desktop eines Data Scientist hängen. Hier ein kleiner Auszug:

Don’t Start with the Data
Do Start with a Good Question

Don’t think one person can do it all
Do build a well-rounded team

Don’t only use one tool
Do use the best tool for the job

Don’t brag about the size of your data
Do collect relevant data

Don’t ignore domain knowledge
Do consult a subject matter expert

Don’t publish a table of numbers
Do create informative charts

Don’t use just your own data
Do enhance your analysis with open data

Data Science in 5 Fragen

Aktuell wird in der IT Community viel über Data Science und Machine Learing gesprochen. Gerade aber Fachfremde und Anfänger können mit den Begriffen oft nur wenig anfangen. Senior Data Scientist Brandon Rohrer, ebenfalls bei Microsoft, hat deshalb eine kleine Video Reihe aus der Traufe gehoben. Mit „Data Science for Beginners“ versucht er Anfänger die Grundlagen dieses Themas zu vermitteln. Dabei greift er im ersten Teil der Serie auf 5 Fragen zurück, mit denen er den Kern des Thema erläutert. Diese lauten:

  1. Is this A or B?
  2. Is this weird?
  3. How much – or – How many?
  4. How is this organized?
  5. What should I do next?

Ich möchte nicht zu viel vorgreifen, deshalb lasse ich Brandon selbst diese Fragen beantworten 🙂

„R Learning Path“ von KDnuggets Martijn Theuwissen

Gestern bin ich auf dem Data Science Blog KDnuggets über einen sehr guten Artikel für alle, die in R einsteigen möchten. In dem Beitrag „R Learning Path: from beginner to expert in R in 7 steps“ beschreibt Martijn Theuwissen anschaulich einen möglichen Einstieg in R. Dabei erklärt er eingangs mögliche Gründe sich als Entwickler bzw. Anfänger im Bereich Data Science sich mit R zu befassen. Hierbei geht er auch auf Rs wachsende Popularität als Programmiersprache ein. Diese ist auch deshalb beachtlich, da es sich bei R um eine sehr domänenspezifische Sprache handelt. Weder kann man mit R Webanwendungen erstellen, noch für mobile Plattformen schreiben.

Theuwissen geht in seinem Beitrag sowohl auf Besonderheiten von R, als auch das geeignete Tooling für R ein. Anfänger bekommen hierbei wertvolle Tipps und eine Sammlung an weiterführenden Quellen um die ersten Schritte in R zu wagen. Ich selbst kann diese jedem Einsteiger wärmstens empfehlen. Wer durch den Beitrag angefixt worden ist, der sollte auch die anderen Beiträge und Tutorials auf KDnuggets nutzen. Generell bittet der Blog sehr gute Quellen und Nachrichten rund um Data Science, Analytics und Business Intelligence.

Microsoft Data Science Degree

Zusammen mit edu hat Microsoft den Pilot für eine neue Zertifizierung aus der Traufe gehoben. Hierbei können interessierte Entwickler und IT Professionals online eine Zertifizierung zu Data Science erwerben. Diese besteht aus mehreren Modulen, die alle notwendigen Themen behandeln um als Data Scientist zu arbeiten. Hierbei wird neben den statistischen Grundlagen auch wissen zu Programmiersprachen, technischen Verfahren und Methoden vermittelt. Sind die notwendigen Zertifizierungen abgelegt,  dann muss für den Abschluss noch ein eigenes Projekt bestanden werden.

Die Zertifikate kosten zwischen 25$ und 99$, wobei die meisten etwa 49$ kosten. Insgesamt muss für die komplette Zertifizierung mit etwa 500-600$ rechnen. Das folgende Video erklärt das eigentliche Curriculum.

Momentan können die Zertifizierungen auf der edx.org Plattform abgelegt werden. Später soll dies über eine eigene Plattform von Microsoft gehen. Ich  selbst habe bereits den Orientierungskurs und die Einführung in R abgelegt. Insgesamt bin ich mit den gebotenen Inhalten und Aufgaben sehr zufrieden. Die Kurse bestehen meist aus einer Kombination aus Videos, kurzen Quizzen und mehreren Labs, in denen selbstständig Aufgaben bearbeitet werden müssen.

Wer also eine Karriere im Bereich Data Science anstrebt, dem kann ich diese Zertifizierung sehr ans Herz legen. Umgerechnet 500€ sind für das gebotene auch ein fairer Preis, zumal man auch für jedes Modul ein eigenes Zertifikat erhält.