english | deutsch

Data Analytics (Proseminar)

slide-shadow

Level

Proseminar (Bachelor)
Sprache: Deutsch/Englisch

Bachelor: Informatics, ITMC, Intelligent Adaptive Systems, Information Systems.
All course material and announcements are located at Moodle.
(Login with your UHH-credentials, e.g., used for Eduroam or your Studium mail address, such as the username “inny700”)

Professor

Prof. Dr. Walid Maalej

Lehrende

Beschreibung

Das Proseminar „Data Analytics“ führt in die Techniken zur Analyse und Auswertung von großen Datenmengen ein, die für Software und Requirements Engineering relevant sind, mit dem Ziel versteckte Muster, Korrelationen und andere Einblicke zu gewinnen.

Im Seminar werden insbesondere Methoden für die Analyse und Auswertung von nutzergenerierten Texten vermittelt, wie z.B. Fragen und Antworten auf Stack Overflow, Fehlerberichte auf Bugzilla (Eclipse), oder Nutzerfeedback in bekannten online Software Marktplätzen.

Es werden gängige und neuartige Ansätze und Werkzeuge zur Akquise, Aufbereitung und Auswertung der Daten innerhalb frei verfügbarer Datensätze diskutiert (z.B. Datensätze von Stack Overflow, Bugzilla, GitHub oder App Stores).

Angestrebte Lernergebnisse und Lernziele

  • Grundkenntnisse über Methoden und Werkzeuge der Datenanalyse, wie sie in der Praxis und Forschung eingesetzt werden.
  • Grundkenntnisse über das wissenschaftliche Anwenden der Methoden der Datenanalyse in der Forschung.
  • Aufklärung über den Stand der Technik und aktuellen Forschungsthemen.
  • Grundlagen im Umgang mit gängigen Methoden und Werkzeugen wie dem Natural Language ToolKit (NLTK) oder SciKit-Learn.

Abgaben

  • Präsentation (in Gruppen von 2-3 Studierende) mit Diskussion.
  • Kurze schriftliche Ausarbeitung des jeweiligen Themas mit Latex erzeugten PDF-Datei.
  • Peer Feedback auf EasyChair

Vorgehen

Das übergreifende Lernziel im Laufe des Seminars ist es, die Forschungsfragen, die Methoden, sowie die Datenanalysewerkzeuge in der angegebenen Literatur zu verstehen und weiter zu untersuchen. Studierende behandeln in kleinen Gruppen bestimmte Methoden und Werkzeuge der Datenanalyse auf Basis ausgewählter Publikationen und öffentlich verfügbaren Datensätzen.

Nach der Vergabe eines individuellen Themas (z.B. Datenakquise) wird von jeder Gruppe eine 20-30 minutige Präsentation vorbereitet und im Seminar präsentiert und diskutiert. Jede Präsentation soll zudem ein Demo beinhalten.

Die Teams erhalten ein individuelles Feedback zur Präsentation und erarbeiten anschließend als Team einen Bericht von mind. zwei DIN A4 Seiten, der die Anwendung der präsentierten Methode auf einen konkreten Anwendungsfall beschreibt.

Seminargruppe

Das Seminar findet Mittwochs von 12:15 bis 13:45 Uhr im Raum D-220 statt.

Termine und Themen

DATUM THEMA RAUM SUBTHEMA / VORTRAGENDE
04.04.2018 Einleitung, Organisation und Basisskills D-220 Vorstellungsrunde, kurze Einführung, Ziele, Teamarbeit, Präsentationstechnik, Wissenschaftliches Arbeiten
11.04.2018 Scientific Work, Leading a Discussion, Introduction to Data Analytics D-220 Wissenschaftliches Arbeiten, Leitung von Diskussionen, Einleitung zu Datenanalysethemen
18.04.2018 Analyzing Text in Software Projects (Chapter 3) D-220 Analyzing text in software projects as requirements specification and/or design documents.
25.04.2018 Synthesizing Knowledge from Software Development Artifacts (Chapter 4) D-220 Making practical use of data.
02.05.2018 Analyzing Usage Data (Chapter 5) D-220 Analyzing developer interactions, categorizing the records and using state models.
09.05.2018 Topic Modeling (Chapter 6) D-220 Classifying text and extract the most important topics from a text document.
16.05.2018 Mining Code Review Data (Chapter 9) D-220 Gaining an in-depth understanding of code review.
30.05.2018 App Mining (Chapter 10) D-220 Collecting sensitive information from users.
06.06.2018 Applying Data Analytics in Industry (Chapter 12) D-220 Discussing best practices and lessons learned for effective software analysis.
13.06.2018 Data Driven Decision Making (Chapter 13) D-220 Using data to make decisions in software engineering.
20.06.2018 Code Comment Analysis (Chapter 17) D-220 Analyzing the democracy and equality of a code review.
27.06.2018 Mining Software Logs (Chapter 18) D-220 Mining software logs for goal-driven root cause analysis.
04.07.2018 Lessons Learned D-220 Discussing learned learned from data analytics.
11.07.2018 tbd D-220 tbd

VORWISSEN

  • Grundlegende Kenntnisse über Java, Python und R-Project sind hilfreich
  • Große Motivation und Engagement

Literatur

Datenananalyse

  • Bird, C., Menzies, T., & Zimmermann, T. (Eds.). (2015). The Art and Science of Analyzing Software Data. Elsevier.
  • Menzies, T., Williams, L., & Zimmermann, T. (2016). Perspectives on Data Science for Software Engineering. Morgan Kaufmann.
  • Robillard, M. P., Maalej, W., Walker, R. J., & Zimmermann, T. (Eds.). (2014). Recommendation systems in software engineering. Heidelberg: Springer.

Präsentationsfähigkeiten und wissenschaftliches Arbeiten

  • Zelazny, G. (2000). Say It with Presentations: How to Design and Deliver Successful Business Presentations: How to Design and Deliver Successful Business Presentations. McGraw Hill Professional.