english | deutsch

Data Analytics (Proseminar)

slide-shadow

Level

Proseminar (Bachelor)
Sprache: Deutsch/Englisch

Professor

Prof. Dr. Walid Maalej 

LEVEL

Bachelor: Informatics, ITMC, Intelligent Adaptive Systems, Information Systems. 
All course material and announcements are located at Moodle

Lehrende

Beschreibung

Das Proseminar „Data Analytics“ führt in die Techniken zur Analyse und Auswertung von großen Datenmengen ein, die für Software und Requirements Engineering relevant sind, mit dem Ziel versteckte Muster, Korrelationen und andere Einblicke zu gewinnen. 

Im Seminar werden insbesondere Methoden für die Analyse und Auswertung von nutzergenerierten Texten vermittelt, wie z.B. Fragen und Antworten auf Stack Overflow, Fehlerberichte auf Bugzilla (Eclipse), oder Nutzerfeedback in bekannten online Software Marktplätzen.  

Es werden gängige und neuartige Ansätze und Werkzeuge zur Acquise, Aufbereitung und Auswertung der Daten innerhalb frei verfügbarer Datensätze diskutiert (z.B., Datensätze von Stack Overflow, Bugzilla, GitHub oder App Stores).

Angestrebte Lernergebnisse und Lernziele

  • Grundkenntnisse über Methoden und Werkzeuge der Datenanalyse, wie sie in der Praxis und Forschung eingesetzt werden. 
  • Grundkenntnisse über das wissenschaftliche Anwenden der Methoden der Datenanalyse in der Forschung.
  • Aufklärung über den Stand der Technik und aktuellen Forschungsthemen.
  • Grundlagen im Umgang mit gängigen Methoden und Werkzeugen wie dem Natural Language ToolKit (NLTK) oder SciKit.

Abgaben

  • Präsentation (in Gruppen von 2-3 Studierende) mit Diskussion. 
  • Kurze schriftliche Ausarbeitung des jeweiligen Themas mit Latex erzeugten PDF-Datei. 
  • Peer Feedback auf EasyChair

Vorgehen

Das übergreifende Lernziel im Laufe des Seminars ist es, die Forschungsfragen, die Methoden, sowie die Datenanalysewerkzeuge in der angegebenen Literatur zu verstehen und weiter zu untersuchen. Studierende behandeln in kleinen Gruppen bestimmte Methoden und Werkzeuge der Datenanalyse auf Basis ausgewählter Publikationen und öffentlich verfügbaren Datensätzen. 

Nach der Vergabe eines individuellen Themas (z.B. Datenakquise) wird von jeder Gruppe eine 20-30 minutige Präsentation vorbereitet und im Seminar präsentiert und diskutiert. Jede Präsentation soll zudem ein Demo beinhalten.  

Die Teams erhalten ein individuelles Feedback zur Präsentation und erarbeiten anschließend als Team einen Bericht von mind. zwei DIN A4 Seiten, der die Anwendung der präsentierten Methode auf einen konkreten Anwendungsfall beschreibt.

Seminargruppe

Das Seminar findet Dienstags von 12:15 bis 13:45 Uhr im Raum C-221 statt.

Termine und Themen

DATUM THEMA RAUM SUBTHEMA / VORTRAGENDE
05.04.2017 Einleitung, Organisation und Basisskills C-221 Vorstellungsrunde, kurze Einführung, Ziele, Teamarbeit, Präsentationstechnik, Wissenschaftliches Arbeiten
12.04.2017 Scientific Work, Leading a Discussion, Introduction to Data Analytics C-221 Wissenschaftliches Arbeiten, Leitung von Diskussionen, Einleitung zu Datenanalysethemen
19.04.2017 Analyzing Text in Software Projects (Chapter 3) C-221 Analyzing text in software projects as requirements specification and/or design documents.
26.04.2017 Synthesizing Knowledge from Software Development Artifacts (Chapter 4) C-221 Making practical use of data.
03.05.2017 Analyzing Usage Data (Chapter 5) C-221 Analyzing developer interactions, categorizing the records and using state models.
10.05.2017 Topic Modeling (Chapter 6) C-221 Classifying text and extract the most important topics from a text document.
17.05.2017 Mining Code Review Data (Chapter 9) C-221 Gaining an in-depth understanding of code review.
24.05.2017 App Mining (Chapter 10) C-221 Collecting sensitive information from users.
31.05.2017 Applying Data Analytics in Industry (Chapter 12) C-221 Discussing best practices and lessons learned for effective software analysis.
14.06.2017 Data Driven Decision Making (Chapter 13) C-221 Using data to make decisions in software engineering. 
21.06.2017 Code Comment Analysis (Chapter 17) C-221 Analyzing the democracy and equality of a code review.
28.06.2017 —– Dies Academicus —- C-221 —– Dies Academicus —-
05.07.2017 Mining Software Logs (Chapter 18) C-221 Mining software logs for goal-driven root cause analysis.
12.07.2017 Lessons Learned C-221 Discussing learned learned from data analytics.

 

VORWISSEN

  • Grundlegende Kenntnisse über Java, Python und R-Project sind hilfreich
  • Große Motivation und Engagement

Literatur

Datenananalyse

  • Bird, C., Menzies, T., & Zimmermann, T. (Eds.). (2015). The Art and Science of Analyzing Software Data. Elsevier.
  • Menzies, T., Williams, L., & Zimmermann, T. (2016). Perspectives on Data Science for Software Engineering. Morgan Kaufmann.
  • Robillard, M. P., Maalej, W., Walker, R. J., & Zimmermann, T. (Eds.). (2014). Recommendation systems in software engineering. Heidelberg: Springer.

Präsentationsfähigkeiten und wissenschaftliches Arbeiten

  • Zelazny, G. (2000). Say It with Presentations: How to Design and Deliver Successful Business Presentations: How to Design and Deliver Successful Business Presentations. McGraw Hill Professional.