english | deutsch

Data Analytics Proseminar (Canceled)

slide-shadow

Level

Proseminar (Bachelor)
Sprache: Deutsch/Englisch
Moodle-Raum: Proseminar Data Analytics
STINE-ID: 64-137 Proseminar Data Analytics

Professor

Prof. Dr. Walid Maalej

Lehrende

Beschreibung

Das Proseminar „Data Analytics“ führt in die Techniken zur Analyse und Auswertung von großen Datenmengen ein, die für Software und Requirements Engineering relevant sind, mit dem Ziel versteckte Muster, Korrelationen und andere Einblicke zu gewinnen.

Im Seminar werden insbesondere Methoden für die Analyse und Auswertung von nutzergenerierten Texten vermittelt, wie z.B. Fragen und Antworten auf Stack Overflow, Fehlerberichte auf Bugzilla (Eclipse), oder Nutzerfeedback in bekannten online Software Marktplätzen.

Auf Basis von ausgewählter Publikationen aus bekannten Konferenzen wie die International Conference on Software Engineering (ICSE), die International Working Conference on Mining Software Repositories (MSR) oder die IEEE International Conference on Requirements Engineering (RE) werden gängige und neuartige Ansätze und Werkzeuge zur Acquise, Aufbereitung und Auswertung der Daten innerhalb frei verfügbarer Datensätze diskutiert (z.B., Datensätze von Stack Overflow, Bugzilla, GitHub oder App Stores).

Angestrebte Lernergebnisse und Lernziele

  • Grundkenntnisse über Methoden und Werkzeuge der Datenanalyse, wie sie in der Praxis und Forschung des eingesetzt werden.
  • Grundkenntnisse über das wissenschaftliche Anwenden der Methoden der Datenanalyse in der Forschung.
  • Aufklärung über den Stand der Technik und aktuellen Forschungsthemen.
  • Grundlagen im Umgang mit gängigen Methoden und Werkzeugen wie dem Natural Language ToolKit (NLTK) oder SciKit.

Abgaben

  • Präsentation (in Gruppen von 2-3 Studierende) mit Demo Elementen.
  • Kurze schriftliche Ausarbeitung des jeweiligen Themas mit Latex erzeugten PDF-File.

Vorgehen

Das übergreifende Lernziel im Laufe des Seminars ist es, die Forschungsfragen, die Methoden, sowie die Datenanalysewerkzeuge in den angegebenen Publikationen zu verstehen und weiter zu untersuchen. Studierende behandeln dabei in kleinen Gruppen bestimmte Methoden und Werkzeuge der Datenanalyse auf Basis ausgewählter Publikationen und öffentlich verfügbaren Datensätzen.

Nach der Vergabe eines individuellen Themas (z.B. Datenakquise) wird von jeder Gruppe eine 20-30 minutige Präsentation vorbereitet und im Seminar präsentiert und diskutiert. Jede Präsentation soll zudem ein Demo beinhalten.

Die Teams erhalten ein individuelles Feedback zur Präsentation und erarbeiten anschließend als Team einen Bericht von mind. zwei DIN A4 Seiten, der die Anwendung der präsentierten Methode auf einen konkreten Anwendungsfall beschreibt.

Seminargruppe

Das Seminar findet Dienstags von 10:15 bis 12:15 Uhr im Raum D-220 statt.

Termine und Themen

DATUM THEMA RAUM SUBTHEMA / VORTRAGENDE
25.10.2016 Einleitung, Organisation, Ziele, Teamarbeit D-220 Vorstellungsrunde, kurze Einführung zu Software Requirements
01.11.2016 Einleitung in die Datenanalyse, Präsentationsfähigkeiten und wissenschaftliches Arbeiten D-220 Kurze Einführung und Diskussion
08.11.2016 Datensammlung und Vorverarbeitung D-220 Bereinigung und Vorverarbeitung von Daten für die eine erste explorative Analyse
15.11.2016 Datenexploration und Inhaltsanalyse (NLP) D-220
22.11.2016 Themenmodellierung D-220 Exploration von Datensätzen im Hinblick auf vordefinierte Forschungsfragen
29.11.2016 Klassifikation von Daten und Klusterbildung D-220 Klassifikation von Daten die zur Kategorisierung dienen kann und Clusterbildung
06.12.2016 Regressionsanalyse und Dimensionsreduktion D-220 Quantitive Analyse von Abhängigkeiten von mehreren Variablen in einem Datensatz (zB. Zeit Vs. Erfolg) und Dimensionsreduktion zur Reduktion der Variablenanzahl
13.12.2016 Kommunikation und Visualisierung D-220 Kommunikation und Visualisierung von statistischen Ergebnissen
20.12.2016 Case Study I D-220 Inhaltsanalyse, Kommunikation und Visualisierung
10.01.2017 Case Study II D-220 Inhaltsanalyse und NLP
17.01.2017 Case Study III D-220 tba
24.01.2017 Case Study IV D-220 tba
31.01.2017 Lessons Learned D-220 Zusammenfassung der bearbeiteten Themen und Diskussion

VORWISSEN

  • Grundlegende Kenntnisse über Java, Python und R-Project sind hilfreich
  • Große Motivation und Engagement

Literatur

Datenananalyse

  • Bird, C., Menzies, T., & Zimmermann, T. (Eds.). (2015). The Art and Science of Analyzing Software Data. Elsevier.
  • Menzies, T., Williams, L., & Zimmermann, T. (2016). Perspectives on Data Science for Software Engineering. Morgan Kaufmann.
  • Robillard, M. P., Maalej, W., Walker, R. J., & Zimmermann, T. (Eds.). (2014). Recommendation systems in software engineering. Heidelberg: Springer.

Präsentationsfähigkeiten und wissenschaftliches Arbeiten

  • Zelazny, G. (2000). Say It with Presentations: How to Design and Deliver Successful Business Presentations: How to Design and Deliver Successful Business Presentations. McGraw Hill Professional.

Themen

Datensammlung und Vorverarbeitung

  • Emitza Guzman, Rana Alkadhi and Norbert Seyff. A Needle in a Haystack: What Do Twitter Users Say about Software?
    IEEE Requirements Engineering Conference, 2016.
  • Hauff, C., & Gousios, G. (2015, May). Matching GitHub developer profiles to job advertisements. In Proceedings of the 12th Working Conference on Mining Software Repositories (pp. 362-366). IEEE Press.

Datenexploration und Inhaltsanalyse (NLP)

  • Boltuzic, Filip, and Jan Šnajder. Fill the Gap! Analyzing Implicit Premises between Claims from Online Debates. ACL 2016. 2016.
  • Murgia, A., Tourani, P., Adams, B., & Ortu, M. (2014, May). Do developers feel emotions? an exploratory analysis of emotions in software artifacts. In Proceedings of the 11th Working Conference on Mining Software Repositories (pp. 262-271). ACM.

Themenmodellierung

  • Habernal, Ivan, and Iryna Gurevych. Exploiting Debate Portals for Semi-Supervised Argumentation Mining in User-Generated Web Discourse.” In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2127–37. 2015.
  • Duijn, M., Kučera, A., & Bacchelli, A. (2015, May). Quality questions need quality code: classifying code fragments on stack overflow. In Proceedings of the 12th Working Conference on Mining Software Repositories (pp. 410-413). IEEE Press.

Klassifikation von Daten und Clusterbildung

  • Kreutzer, P., Dotzler, G., Ring, M., Eskofier, B. M., & Philippsen, M. (2016, May). Automatic clustering of code changes. In Proceedings of the 13th International Workshop on Mining Software Repositories (pp. 61-72). ACM.
  • Boltuzic, Filip, and Jan Šnajder. Back up Your Stance: Recognizing Arguments in Online Discussions. In Proceedings of the First Workshop on Argument Mining, Hosted by the 52nd Annual Meeting of the Association for Computational Linguistics, ArgMining@ACL 2014, June 26, 2014.

Regressionsanalyse und Dimensionsreduktion

  • Calefato, F., Lanubile, F., Marasciulo, M. C., & Novielli, N. (2015, May). Mining successful answers in stack overflow. In Proceedings of the 12th Working Conference on Mining Software Repositories (pp. 430-433). IEEE Press.

Kommunikation und Visualisierung

  • Bosu, A., Greiler, M., & Bird, C. (2015, May). Characteristics of useful code reviews: an empirical study at Microsoft. In Proceedings of the 12th Working Conference on Mining Software Repositories (pp. 146-156). IEEE Press.
  • Baysal, Olga, Reid Holmes, and Michael W. Godfrey. Developer dashboards: The need for qualitative analytics.” IEEE software 30.4. 2013

Case Study I

  • Anderson, A., Huttenlocher, D., Kleinberg, J., & Leskovec, J. (2012, August). Discovering value from community activity on focused question answering sites: a case study of stack overflow. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining(pp. 850-858). ACM.

Case Study II

  • Hauff, C., & Gousios, G. (2015, May). Matching GitHub developer profiles to job advertisements. In Proceedings of the 12th Working Conference on Mining Software Repositories (pp. 362-366). IEEE Press.

Case Study III

  • TBA

Case Study IV

  • TBA