Steckbrief
| Modulnummer | BIO-06.61-035 |
| Modulverantwortliche | Dr. Saskia Otto, Dr. Monika Eberhard |
| Voraussetzungen | Data Science 1 und Data Science 2 |
| Lehrform | Vorlesung (1 SWS), Übung (1 SWS) |
Biologische Daten kommen selten einfach: Sie stammen aus sorgfältig geplanten Experimenten oder aus riesigen, unübersichtlichen Sekundärdatenbanken – und beide Welten stellen unterschiedliche Anforderungen an die Analyse. DS3 vermittelt das methodische Handwerkszeug für beide Szenarien: von mehrfaktoriellen ANOVAs, ANCOVA und multipler Regression über gemischte Modelle und Resampling bis hin zu multivariater Statistik und einem Einstieg ins maschinelle Lernen.
Lernziele
Am Ende dieses Moduls könnt Ihr:
- die Grundkonzepte der explorativen Datenanalyse und des maschinellen Lernens beschreiben
- fortgeschrittene lineare Modelle (mehrfaktorielle ANOVA, ANCOVA, gemischte Modelle) anwenden
- multiple lineare Regressionen durchführen und interpretieren
- Resampling-Techniken (Bootstrapping, Permutationstests) einsetzen
- unüberwachte Lernverfahren (Clusteranalyse, PCA) anwenden
- geeignete Methoden für biologische Fragestellungen auswählen
- Grundlagen von Open Science anwenden und wissenschaftliche Ergebnisse mit R Markdown bzw. Quarto dokumentieren und kommunizieren
Vorlesungsfolien (WiSe 2025/2026)
Die interaktiven HTML-Vorlesungsfolien wurden von Saskia Otto mit Quarto revealjs erstellt. Beim Betrachten der Präsentation ermöglichen folgende Tastaturkombinationen unterschiedliche Anzeigemodi:
- o zeigt den Übersichtsmodus an
- w wechselt in den Breitbandmodus
- f wechselt in den Vollbildmodus
- h erlaubt das Hervorheben von Code
- ctrl (Windows) bzw. cmd (Mac) UND + / - zum rein- und rauszoomen
- p öffnet ein Pop-up Fenster für zusätzliche Informationen (funktioniert allerdings nicht bei Safari)
- mit esc kann wieder in den normalen Modus gewechselt werden.
Lizenz der Vorlesungsfolien
Diese Arbeit ist lizenziert unter einer Creative Commons Attribution-ShareAlike 4.0 International License mit Ausnahme der entliehenen und mit Quellenangabe versehenen Abbildungen.
Begleitende Lernmaterialien
- Moodle-Kurs: UHH MIN Login
- RStudio Server/Posit Workbench des Fachbereichs Biologie: die URL wird über den Moodle-Kurs bereitgestellt (Zugangsdaten werden per Email im 1. Semester versendet)
- RStudio Server über JupyterHub der MIN Fakultät: https://code.min.uni-hamburg.de/hub/ (Zugang über die BAN-Kennung)
- Cheatsheets: Referenzkarten zur Statistik mit R, LaTeX Formeln und Markdown
- Fallstudien: Showcases aus dem Kurs
- Open Science Vorlagen: UHHformats, UHHthesis, SCIproj
Buchempfehlungen
- Deutsch:
- Bärlocher, F. (1999): Biostatistik – Praktische Einführung in Konzepte und Methoden, Thieme Verlag, 206 S.
- Dormann, C. (2017): Parametrische Statistik – Verteilungen, Maximum Likelihood und GLM in R, Springer Spektrum, 363 S.
- Englisch:
- Crawley, M.J. (2013): The R Book, 2nd edition, Wiley & Sons, West Sussex, UK, 945 S. → Sehr umfangreiches Buch (fast 1000 Seiten!). Deckt sowohl grundlegende Statistiken als auch viele verschiedene statistische Modellierungsansätze ab.
- Quinn, G.P. & Keough, M.J. (2002): Experimental Design and Data Analysis for Biologists, Cambridge University Press, UK, 553 S.
- Zuur, A.F., Ieno, E.N., Walker, N.J., Saveliev, A.A. & Smith, G.M. (2009): Mixed Effects Models and Extensions in Ecology with R, Springer, New York, USA, 574 S. Weitere Informationen: highstat.com → Dieses Buch befasst sich mit einfachen linearen Regressionsmodellen und ihren Grenzen und beschreibt alternative Ansätze. Es enthält verschiedene ökologische Fallstudien, in denen der EDA-Zyklus gut beschrieben ist.
- James, G., Witten, D., Hastie, T. & Tibshirani, R. (2013): An Introduction to Statistical Learning with Applications in R, Springer, 426 S.