Analyse von großen Datensaetzen in den Lebenswissenschaften (192217)

Terms
  1. Analyse von großen Datensaetzen in den Lebenswissenschaften - SS15

(English version see below)

Inhalt

In den modernen Lebenswissenschaften werden in den letzten Jahren immer
groesser werdende Datensammlungen erzeugt. Die Probleme verschieben sich
dabei von der Datenerzeugung zur Datenanalyse: waren frueher die
biologischen Experimente oder medizinischen Datenerhebungen die langwierigsten Schritte,
sind es heute die Laufzeiten der benutzten Analysealgorithmen.

In diesem Kurs werden wir uns sowohl mit den theoretischen Grundlagen
als auch der praktische Anwendung von aktuellen Techniken zur Modellierung und Analyse
von solchen großen Datensammlungen auseinandersetzen.

In Zusammenarbeit mit dem Forschungscampus MODAL wird es dabei um die
Bearbeitung eines fiktiven, aber realitaetsnahen Projektes gehen, in dem
viele Aspekte einer modernen Analysepipeline betrachtet und praktisch
erarbeitet werden.

Ziele

Nach Besuch dieses Kurses sollen die Studenten in der Lage sein:

  • ein Problem im Bereich der Data Sciences von der Problemdefinition bis zur tatsächlichen Lösung zu bearbeiten. Dabei sollen Fähigkeiten bei der Datensammlung und -prozessierung demonstriert und eine Methoden zur Lösung erstellt und implementiert werden.
  • das entsprechende Material in zwei Präsentationen sinnvoll darzustellen: (a) den Lösungsansatz und (b) die implementierte Lösung.

 

Zielgruppe

Masterstudenten der Mathematik, Bioinformatik und verwandter Disziplinen

Voraussetzungen

Grundlegende Erfahrungen in Statistik und gute Kenntnisse in mindestens einer Programmier- bzw. Skriptsprache (z.B. Java, C, Python, Matlab, R).

-----------

Summary

During this course, students engage in the entire process of solving a real-world data science project: from collecting and processing actual data, to applying a suitable and appropriate analytic method to the problem. Both the problem statements for the project assignments and the datasets orginate from the life-science domain, similar to those that students might typically encounter within industry or academic research.

Topics
  • Fundamental principles of data science that underlie the algorithms, processes, methods, and data-analytic thinking.
  • Statistical and mathematical methods needed in the practice of data science, covering basic methods in probability, statistics, linear algebra, and optimization.
  • Topics in machine learning, pattern recognition, and statistical modeling. While the mathematical methods and theoretical aspects will be discussed, focus is on algorithmic and practical issues.
  • Application of theoretical knowledge acquired during the course to a real project involving actual data in a realistic setting.
  • Practical tools to implement the an actual project.
Big Data Aspects

Big Data requires the storage, organization, and processing of data at a scale and efficiency that go well beyond the capabilities of conventional information technologies. In this course, we will study the state of the art in big data management: we will learn about algorithms, techniques and tools needed to support big data processing.
The projects we will be dealing with will require large data analysis and how it can be implemented on Big Data platforms. There will be programming assignments that will provide students with hands-on experience on building data-intensive applications using existing Big Data platforms.