x <- 1:10
x [1] 1 2 3 4 5 6 7 8 9 10
Data Science (engl. data “Daten” und science “Wissenschaft”) ist eine Disziplin, die sich mit der Extraktion von Wissen aus Daten beschäftigt – in der Regel im Kontext von Unternehmensentscheidungen. Es ist damit ein interdisziplinäres Fach, das Methoden aus Mathematik, Statistik, Informatik und Wirtschaftswissenschaften verbindet. Neben dem Verständnis des jeweiligen betriebswirtschaftlichen Kontexts werden Methoden wie Wahrscheinlichkeitsmodelle, Maschinelles Lernen bzw. Künstliche Intelligenz, Datentechnik, Algorithmen und Programmierung hinzugezogen.
Fokus dieser Vorlesung ist der technische Teil von Data Science, d.h. die Programmierung und Implementierung von Algorithmen sowie das praktische Arbeiten mit Daten und Analysen. Hierzu wird die Vorlesung Ihnen das notwendige Handwerkzeug an die Hand geben.
Um Data Science zu betreiben bedarf es spezieller Softwaretools. Eines der bedeutendsten Werkzeuge in diesem Bereich ist die Programmiersprache R. In dieser Vorlesung erlangen Sie Grundkenntnisse in der Programmierung mit R, welche Sie im Laufe des Semesters in den weiteren Veranstaltungen des Erweiterungsmoduls ‘Advanced Data cience’ anwenden und vertiefen werden. Insbesondere dient diese Vorlesung als Vorbereitung auf die Veranstaltung ‘Machine Learning’. Sie werden nach dieser Vorlesung in der Lage sein, eine Vielzahl betriebswirtschaftlicher Problemstellungen mittels Datenanalyse zu lösen.
Die Vorlesung “Programmierung für Data Science” findet als Blockveranstaltung zu folgenden Zeiten statt:
Sage es mir, und ich werde es vergessen;
zeige es mir, und ich werde mich daran erinnern;
beteilige mich, und ich werde es verstehen.Laotse, chinesischer Philosoph
Die Vorlesung folgt dem “Inverted Classroom” Konzept. Das heißt, dass die üblichen Aktivitäten innerhalb und außerhalb des Hörsaals „umgedreht” werden: Sie bekommen das Vorlesungsskript vor der Vorlesung bereitgestellt und die Lerninhalte werden Ihnen nicht mehr vor Ort an der Hochschule vermittelt; vielmehr erarbeiten Sie sich die Inhalte ortsunabhängig, individuell, selbstgesteuert und im eigenen Lerntempo anhand der bereitgestellten Lernmaterialien. Die wertvollen Präsenzzeiten an der Hochschule werden zur gemeinsamen, interaktiven Vertiefung genutzt, z.B. durch gemeinsame Aufgabenbearbeitung, Beantwortung von Fragen und praktische Umsetzung des Gelernten.
Dazu ist es notwendig, dass Sie sich vor den jeweiligen Terminen die dafür vorgesehenen Lerninhalte erarbeiten, indem Sie das Skript studieren und die darin enthaltenen Übungsaufgaben lösen.
Für die drei Termine der Vorlesung sind jeweils folgende Kapitel vorgesehen:
Bitte studieren Sie die Kapitel und lösen Sie die Aufgaben jeweils vor dem Termin der Veranstaltung.
Nach jedem der drei Vorlesungstermine bekommen Sie eine Programmieraufgabe. Diese müssen Sie zu Hause eigenständig lösen und einzeln bis zum angegebenen Termin abgeben. Ihre Lösungen werden nach folgenden Kriterien bewertet:
Für die gestellten Aufgaben werden diese Kriterien jeweils entsprechend der Aufgabenstellung gewichtet.
Das Skript ist in mehreren Formaten verfügbar. Als Webseite, als PDF Dokument und im EPUB Format (für diverse e-Reader). Es wird empfohlen, während des Semesters die Web-Version für das Studium zu nutzen, da basierend auf Ihrem Feedback Änderungen eingepflegt werden. Am Ende des Semesters können Sie dann für Ihre Unterlagen das finale Skript als PDF oder EPUB archivieren.
Die Web-Version des Skripts ist verfügbar unter https://datascience.fh-muenster.io/programming-in-r. Die PDF und EPUB Versionen können auf dieser Webseite über den Download-Button heruntergeladen werden (siehe Abbildung 1).
Im Skript finden Sie verschiedene Boxen mit Warnungen, Tipps und Übungsaufgaben.
Warnungen weisen auf wichtige Aspekte hin, welche häufig zu Fehlern in R Skripten führen. Lesen Sie diese aufmerksam durch, um hohen Zeitaufwand für Debugging zu vermeiden.
Tipps helfen Ihnen, verschiedene Problemstellungen in R möglichst effizient zu lösen. Sparen Sie sich zusätzlichen Aufwand, indem Sie diese Tipps beherzigen.
Verweise auf weitere Quellen bezüglich einzelner Themen können zur weiteren Vertiefung genutzt werden. Besuchen Sie diese Links um mehr über ein Thema zu erfahren.
Übungsaufgaben helfen dabei, das Erlernte zu vertiefen und zu verinnerlichen. Lösen Sie diese Aufgaben im Selbststudium, um den Stoff der Vorlesung praktisch anzuwenden.
Weiterhin enthält das Skript viele Code Beispiele. Diese sind grau hinterlegt, in Monospace Schrift gesetzt und mit Syntaxhighlighting versehen. Wenn das Skript neben dem Code auch die Ausgaben von R zeigt, werden diese direkt darunter ohne Hintergrund angezeigt. Der erste Block enthält dann die Eingaben in R, der zweite die Rückgabe der Ergebnisse durch R. Abbildung 2 zeigt ein Beispiel für einen Codeblock mit Eingabe und Ausgabe.
Dies ist ein Beispiel:
Solche Code-Snippets können Sie leicht kopieren und in R oder RStudio einfügen, um den Code selbst auszuführen und sich so mit der Verwendung vertraut zu machen.
Für die Bearbeitung der Fallstudie können Sie die Untersützung durch Tutoren in Anspruch nehmen. Die Kommunikation erfolgt in der Regel über Teams. Details werden im Laufe der Vorlesung bekannt gegeben.
Um auf die RStudio bzw. Posit Workbench zuzugreifen, müssen Sie sich im Netz der FH Münster befinden. Dazu verbinden Sie sich entweder in den Gebäuden der FH mit dem eduroam WLAN oder greifen Sie von zu Hause aus über die VPN1 Verbindung zu.
Sie haben die Möglichkeit Ihr Methodenwissen und Ihre Kenntnisse in der Anwendung mit R (oder auch Python und SQL) mit Hilfe der Selbstlernplattform DataCamp zu erweitern. Über diesen Einladungslink können Sie der Plattform beitreten: Link.