Data Science 3

Explorative Datenanalyse & Data Mining

Steckbrief

Modulnummer BIO-06.61-035
Modulverantwortliche Dr. Saskia Otto, Dr. Monika Eberhard
Voraussetzungen Data Science 1 und Data Science 2
Lehrform Vorlesung (1 SWS), Übung (1 SWS)

Biologische Daten kommen selten einfach: Sie stammen aus sorgfältig geplanten Experimenten oder aus riesigen, unübersichtlichen Sekundärdatenbanken – und beide Welten stellen unterschiedliche Anforderungen an die Analyse. DS3 vermittelt das methodische Handwerkszeug für beide Szenarien: von mehrfaktoriellen ANOVAs, ANCOVA und multipler Regression über gemischte Modelle und Resampling bis hin zu multivariater Statistik und einem Einstieg ins maschinelle Lernen.

Lernziele

Am Ende dieses Moduls könnt Ihr:

  • die Grundkonzepte der explorativen Datenanalyse und des maschinellen Lernens beschreiben
  • fortgeschrittene lineare Modelle (mehrfaktorielle ANOVA, ANCOVA, gemischte Modelle) anwenden
  • multiple lineare Regressionen durchführen und interpretieren
  • Resampling-Techniken (Bootstrapping, Permutationstests) einsetzen
  • unüberwachte Lernverfahren (Clusteranalyse, PCA) anwenden
  • geeignete Methoden für biologische Fragestellungen auswählen
  • Grundlagen von Open Science anwenden und wissenschaftliche Ergebnisse mit R Markdown bzw. Quarto dokumentieren und kommunizieren

Vorlesungsfolien (WiSe 2025/2026)

Nr. Thema
01 Moduleinführung: was ist EDA, DA, ML und SL?
02 2-faktorielle Varianzanalyse (ANOVA) mit gekreuztem Design
03 Lineare Regressionsmodelle mit fixem Faktor: Kovarianzanalyse (ANCOVA)
04 Lineare Gemischte Modelle (LME) und verschachteltes Design
05 Multiple lineare Regression
06 Konzepte des Open Science & Einführung in RMarkdown und Quarto
07 Resampling-Techniken: Bootstrapping & Permutationstests
08 Unsupervised Learning 1: Clusteranalyse
09 Unsupervised Learning 2: Hauptkomponentenanalyse (PCA)
10 Wiederholung und offene Fragen

Die interaktiven HTML-Vorlesungsfolien wurden von Saskia Otto mit Quarto revealjs erstellt. Beim Betrachten der Präsentation ermöglichen folgende Tastaturkombinationen unterschiedliche Anzeigemodi:

  • o zeigt den Übersichtsmodus an
  • w wechselt in den Breitbandmodus
  • f wechselt in den Vollbildmodus
  • h erlaubt das Hervorheben von Code
  • ctrl (Windows) bzw. cmd (Mac) UND + / - zum rein- und rauszoomen
  • p öffnet ein Pop-up Fenster für zusätzliche Informationen (funktioniert allerdings nicht bei Safari)
  • mit esc kann wieder in den normalen Modus gewechselt werden.

Lizenz der Vorlesungsfolien

Creative Commons License

Diese Arbeit ist lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.

Begleitende Lernmaterialien

DS3 Handbuch Cover
Das DS3 Handbuch ist auf Moodle verfügbar.
  • Moodle-Kurs: UHH MIN Login
  • RStudio Server/Posit Workbench des Fachbereichs Biologie: die URL wird über den Moodle-Kurs bereitgestellt (Zugangsdaten werden per Email im 1. Semester versendet)
  • RStudio Server über JupyterHub der MIN Fakultät: https://code.min.uni-hamburg.de/hub/ (Zugang über die BAN-Kennung)
  • Cheatsheets: Referenzkarten zur Statistik mit R, LaTeX Formeln und Markdown
  • Fallstudien: Showcases aus dem Kurs
  • Open Science Vorlagen: UHHformats, UHHthesis, SCIproj

Buchempfehlungen

  • Deutsch:
    • Bärlocher, F. (1999): Biostatistik – Praktische Einführung in Konzepte und Methoden, Thieme Verlag, 206 S.
    • Dormann, C. (2017): Parametrische Statistik – Verteilungen, Maximum Likelihood und GLM in R, Springer Spektrum, 363 S.
  • Englisch:
    • Crawley, M.J. (2013): The R Book, 2nd edition, Wiley & Sons, West Sussex, UK, 945 S. → Sehr umfangreiches Buch (fast 1000 Seiten!). Deckt sowohl grundlegende Statistiken als auch viele verschiedene statistische Modellierungsansätze ab.
    • Quinn, G.P. & Keough, M.J. (2002): Experimental Design and Data Analysis for Biologists, Cambridge University Press, UK, 553 S.
    • Zuur, A.F., Ieno, E.N., Walker, N.J., Saveliev, A.A. & Smith, G.M. (2009): Mixed Effects Models and Extensions in Ecology with R, Springer, New York, USA, 574 S. Weitere Informationen: highstat.com → Dieses Buch befasst sich mit einfachen linearen Regressionsmodellen und ihren Grenzen und beschreibt alternative Ansätze. Es enthält verschiedene ökologische Fallstudien, in denen der EDA-Zyklus gut beschrieben ist.
    • James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013): An Introduction to Statistical Learning with Applications in R, Springer, 426 S.