Data Science 3 – DSB Start

Steckbrief

Modulnummer	BIO-06.61-035
Modulverantwortliche	Dr. Saskia Otto, Dr. Monika Eberhard
Voraussetzungen	Data Science 1 und Data Science 2
Lehrform	Vorlesung (1 SWS), Übung (1 SWS)

Biologische Daten kommen selten einfach: Sie stammen aus sorgfältig geplanten Experimenten oder aus riesigen, unübersichtlichen Sekundärdatenbanken – und beide Welten stellen unterschiedliche Anforderungen an die Analyse. DS3 vermittelt das methodische Handwerkszeug für beide Szenarien: von mehrfaktoriellen ANOVAs, ANCOVA und multipler Regression über gemischte Modelle und Resampling bis hin zu multivariater Statistik und einem Einstieg ins maschinelle Lernen.

Lernziele

Am Ende dieses Moduls könnt Ihr:

die Grundkonzepte der explorativen Datenanalyse und des maschinellen Lernens beschreiben
fortgeschrittene lineare Modelle (mehrfaktorielle ANOVA, ANCOVA, gemischte Modelle) anwenden
multiple lineare Regressionen durchführen und interpretieren
Resampling-Techniken (Bootstrapping, Permutationstests) einsetzen
unüberwachte Lernverfahren (Clusteranalyse, PCA) anwenden
geeignete Methoden für biologische Fragestellungen auswählen
Grundlagen von Open Science anwenden und wissenschaftliche Ergebnisse mit R Markdown bzw. Quarto dokumentieren und kommunizieren

Vorlesungsfolien (WiSe 2025/2026)

Nr.	Thema
01	Moduleinführung: was ist EDA, DA, ML und SL?
02	2-faktorielle Varianzanalyse (ANOVA) mit gekreuztem Design
03	Lineare Regressionsmodelle mit fixem Faktor: Kovarianzanalyse (ANCOVA)
04	Lineare Gemischte Modelle (LME) und verschachteltes Design
05	Multiple lineare Regression
06	Konzepte des Open Science & Einführung in RMarkdown und Quarto
07	Resampling-Techniken: Bootstrapping & Permutationstests
08	Unsupervised Learning 1: Clusteranalyse
09	Unsupervised Learning 2: Hauptkomponentenanalyse (PCA)
10	Wiederholung und offene Fragen

Die interaktiven HTML-Vorlesungsfolien wurden von Saskia Otto mit Quarto revealjs erstellt. Beim Betrachten der Präsentation ermöglichen folgende Tastaturkombinationen unterschiedliche Anzeigemodi:

o zeigt den Übersichtsmodus an
w wechselt in den Breitbandmodus
f wechselt in den Vollbildmodus
h erlaubt das Hervorheben von Code
ctrl (Windows) bzw. cmd (Mac) UND + / - zum rein- und rauszoomen
p öffnet ein Pop-up Fenster für zusätzliche Informationen (funktioniert allerdings nicht bei Safari)
mit esc kann wieder in den normalen Modus gewechselt werden.

Lizenz der Vorlesungsfolien

Diese Arbeit ist lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.

Begleitende Lernmaterialien

DS3 Handbuch Cover — Das DS3 Handbuch ist auf Moodle verfügbar.

Moodle-Kurs: UHH MIN Login
RStudio Server/Posit Workbench des Fachbereichs Biologie: die URL wird über den Moodle-Kurs bereitgestellt (Zugangsdaten werden per Email im 1. Semester versendet)
RStudio Server über JupyterHub der MIN Fakultät: https://code.min.uni-hamburg.de/hub/ (Zugang über die BAN-Kennung)
Cheatsheets: Referenzkarten zur Statistik mit R, LaTeX Formeln und Markdown
Fallstudien: Showcases aus dem Kurs
Open Science Vorlagen: UHHformats, UHHthesis, SCIproj

Buchempfehlungen

Deutsch:
- Bärlocher, F. (1999): Biostatistik – Praktische Einführung in Konzepte und Methoden, Thieme Verlag, 206 S.
- Dormann, C. (2017): Parametrische Statistik – Verteilungen, Maximum Likelihood und GLM in R, Springer Spektrum, 363 S.
Englisch:
- Crawley, M.J. (2013): The R Book, 2nd edition, Wiley & Sons, West Sussex, UK, 945 S. → Sehr umfangreiches Buch (fast 1000 Seiten!). Deckt sowohl grundlegende Statistiken als auch viele verschiedene statistische Modellierungsansätze ab.
- Quinn, G.P. & Keough, M.J. (2002): Experimental Design and Data Analysis for Biologists, Cambridge University Press, UK, 553 S.
- Zuur, A.F., Ieno, E.N., Walker, N.J., Saveliev, A.A. & Smith, G.M. (2009): Mixed Effects Models and Extensions in Ecology with R, Springer, New York, USA, 574 S. Weitere Informationen: highstat.com → Dieses Buch befasst sich mit einfachen linearen Regressionsmodellen und ihren Grenzen und beschreibt alternative Ansätze. Es enthält verschiedene ökologische Fallstudien, in denen der EDA-Zyklus gut beschrieben ist.
- James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013): An Introduction to Statistical Learning with Applications in R, Springer, 426 S.