| Kriterium | Gewicht | sehr gut (6) | gut (5) | befriedigend (4) | ausreichend (3) | ungenügend (0) |
|---|---|---|---|---|---|---|
| Code: Fachliche Bearbeitung und Umfang der Analysen | 20 % | Aufgabe vollständig gelöst; Deduplikation, PCA, Clusteranalyse und Profilierung fachlich überzeugend umgesetzt, zusätzliche sinnvolle Analysen möglich | Aufgabe gut gelöst; zentrale Analyseschritte korrekt umgesetzt und Ergebnisse nachvollziehbar hergeleitet | Wesentliche Teilprobleme gelöst; fachliche Bearbeitung insgesamt befriedigend, mit kleineren Lücken in Analyse oder Interpretation | Einige Teilprobleme gelöst oder teilweise gelöst; fachliche Umsetzung nur in Teilen tragfähig | Unzureichende Bearbeitung; lediglich Lösungsansätze oder stark unvollständige Analyse |
| Code: Einsatz von Methoden und Werkzeugen aus der Vorlesung | 14 % | Vorbildliche Methodik; geeignete Verfahren aus der Vorlesung angemessen eingesetzt und reflektiert | Gute Methodik; Verfahren passend ausgewählt und Vorgehen insgesamt überzeugend begründet | Methoden aus der Vorlesung grundsätzlich genutzt, aber mit erkennbaren Lücken oder schwächerer Begründung | Teilweise adäquate Nutzung der Methoden und Werkzeuge; Auswahl oder Begründung nur in Ansätzen passend | Kaum oder keine sinnvolle Nutzung von Methoden aus der Vorlesung |
| Code: Selbständigkeit, Eigeninitiative, Kreativität | 14 % | Umfassende Eigeninitiative; selbständige und kreative, zugleich fachlich sinnvolle Analyse | Gute Eigeninitiative und Kreativität bei der Bearbeitung | Grundsätzliche Eigeninitiative und einige eigenständige Entscheidungen erkennbar | Ansätze von Eigeninitiative vorhanden, insgesamt aber wenig eigenständig | Geringe Selbständigkeit |
| Code: Systematik, Gliederung, Dokumentation | 12 % | Sehr gute Strukturierung und Dokumentation des Codes | Gute Strukturierung und Dokumentation des Codes | Wesentliche Elemente einer Systematik und Dokumentation erkennbar | Erste Ansätze einer Systematik und Dokumentation erkennbar | Keine nachvollziehbare Strukturierung des Codes |
| Bericht: Systematik, Gliederung, formale Dokumentation | 14 % | Sehr gute Strukturierung und formale Ausarbeitung; Bericht ist klar gegliedert und sprachlich sehr sauber | Gute Strukturierung und formale Ausarbeitung; Bericht ist vollständig und weitgehend fehlerfrei | Befriedigende Struktur und formale Ausarbeitung; kleinere formale oder sprachliche Mängel | Grundstruktur erkennbar; formale Dokumentation nur teilweise überzeugend | Kaum strukturierter Bericht mit deutlichen formalen Mängeln |
| Bericht: Fachliche Dokumentation | 14 % | Vorbildliche fachliche Dokumentation; Methoden, Ergebnisse und Entscheidungen sind präzise und vollständig erläutert | Gute fachliche Dokumentation; wesentliche Schritte und Ergebnisse sind nachvollziehbar dargestellt | Befriedigende fachliche Dokumentation; zentrale Inhalte sind vorhanden, aber nicht immer präzise ausgearbeitet | Ausreichende fachliche Dokumentation; wichtige Aspekte werden nur teilweise erklärt | Erhebliche Mängel in der fachlichen Dokumentation; zentrale Schritte oder Ergebnisse bleiben unklar |
| Bericht: Strategische und problemorientierte Interpretation | 6 % | Sehr gute strategische Interpretation der Cluster; Implikationen für Playlist-Kuration, Katalognavigation und Musikentdeckung schlüssig abgeleitet | Gute problemorientierte Interpretation; zentrale Implikationen für die Plattform überzeugend herausgearbeitet | Interpretation in Ansätzen überzeugend; strategische Ableitungen zu den wichtigsten Punkten vorhanden | Teilweise problemorientierte Interpretation; Ableitungen bleiben eher allgemein | Kaum problemorientierte oder strategische Interpretation der Ergebnisse |
| Bericht: Kritische Reflexion | 6 % | Sehr gute, ausführliche kritische Reflexion zu Methodenwahl, Limitationen und Alternativen | Gute kritische Reflexion mit nachvollziehbarer Einordnung zentraler Grenzen und Alternativen | Befriedigende kritische Reflexion; wichtige Grenzen werden angesprochen | Mäßige kritische Reflexion; Grenzen oder Alternativen nur knapp erwähnt | Keine oder nahezu keine kritische Reflexion |
Fallstudie in Unsupervised Machine Learning
Song-Archetypen für Playlist- und Katalogstrategie
1 Kontext
Die Streaming-Plattform soundFHlow möchte ihren Musikkatalog künftig nicht mehr nur über klassische Genres und redaktionell kuratierte Playlists strukturieren. Stattdessen sollen klangliche Archetypen identifiziert werden, die Songs mit ähnlichen musikalischen Eigenschaften zusammenfassen und dadurch eine bessere Grundlage für Playlist-Kuration, Katalogstruktur und Musikentdeckung schaffen.
Die Plattform verfügt bereits über eine große Sammlung von Songs mit numerischen Audio-Merkmalen sowie Metadaten zu Playlist-Zuordnungen und Popularität. Ihre Aufgabe besteht darin, aus diesen Merkmalen mittels Dimensionsreduktion und Clusteranalyse eine sinnvolle, interpretierbare Struktur des Katalogs abzuleiten.

2 Datenbasis
Für die Analyse steht Ihnen ein Datensatz als *.csv-Datei zur Verfügung: soundfhlow_songs.csv
Der Datensatz enthält Song-Metadaten, Playlist-Zuordnungen und Audio-Merkmale. In der Rohfassung umfasst er:
- 32.833 Zeilen
- 23 Variablen
- 28.356 eindeutige
track_id
Eine track_id kann mehrfach vorkommen, weil derselbe Song in mehreren Playlists enthalten sein kann. Für die Modellierung ist daher eine saubere Deduplikation auf Song-Ebene erforderlich.
Die lokale Datei basiert auf einem öffentlich verfügbaren Song-Datensatz.
Die Audio-Merkmale sind für dieselbe track_id konsistent. Dubletten entstehen also nicht durch widersprüchliche Songmessungen, sondern durch unterschiedliche Playlist-Kontexte.
Die Variablen lassen sich grob in drei Gruppen einteilen:
- Song-Identifikation und Metadaten
track_id,track_name,track_artist,track_album_name,track_album_release_date
- Playlist-Kontext
playlist_name,playlist_id,playlist_genre,playlist_subgenre
- Audio-Merkmale und Popularität
track_popularity,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms
3 Kurze fachliche Einordnung
3.1 Audio-Merkmale
Die Audio-Merkmale beschreiben verschiedene Eigenschaften von Songs im Zahlenraum. Beispiele:
danceability: Eignung eines Songs zum Tanzen,energy: wahrgenommene Intensität,acousticness: Anteil akustischer Charakteristik,instrumentalness: Wahrscheinlichkeit für instrumentale Anteile,valence: eher positive vs. eher negative Klangwirkung,tempo: Geschwindigkeit in Beats pro Minute.
Diese Variablen sind für PCA und Clusteranalyse gut geeignet, weil sie:
- numerisch vorliegen,
- inhaltlich interpretierbar sind,
- und unterschiedliche Dimensionen musikalischer Struktur abbilden.
3.2 Genre, Subgenre und Popularität
Die Variablen playlist_genre, playlist_subgenre und track_popularity sind für die Fallstudie inhaltlich sehr hilfreich, sollen aber nicht als Input für die Modellierung verwendet werden.
Sie dienen stattdessen dazu,
- die gefundenen Cluster nachträglich zu beschreiben,
- typische Kontexte je Cluster zu identifizieren,
- und zu diskutieren, ob bestimmte Archetypen eher populär oder eher nischig sind.
Verwenden Sie für PCA und Clustering ausschließlich die ausgewählten Audio-Merkmale.
track_popularity, playlist_genre und playlist_subgenre dienen nur der Profilierung und Interpretation.
4 Aufgabenstellung
Ziel dieser Fallstudie ist es, klangliche Song-Archetypen zu identifizieren und diese für die Plattform soundFHlow strategisch nutzbar zu machen.
Gehen Sie dabei wie folgt vor:
4.1 Explorative Analyse der Audio-Struktur
Untersuchen Sie zunächst die Struktur der Audio-Merkmale auf deskriptiver Ebene.
Adressieren Sie dabei insbesondere:
- Verteilungen, Wertebereiche und potentielle Ausreißer,
- Korrelationen zwischen den Audio-Merkmalen,
- erste Projektionen und Visualisierungen,
- sowie die Frage, welche Variablen sich sinnvoll für die Modellierung eignen.
Gehen Sie außerdem auf die Rohdatenstruktur ein:
- Wie viele eindeutige Songs liegen vor?
- Wie häufig treten Dubletten über
track_idauf? - Welche Konsequenzen hat das für die weitere Analyse?
4.2 Datenaufbereitung und Deduplikation
Erstellen Sie aus dem Rohdatensatz eine Modellierungstabelle auf Song-Ebene, also genau eine Zeile pro track_id.
Gehen Sie dabei wie folgt vor:
- Führen Sie eine begründete Deduplikation über
track_iddurch. - Behalten Sie die Playlist-Informationen in einer separaten Hilfstabelle, damit diese später für die Interpretation genutzt werden können.
- Standardisieren Sie die für die Modellierung ausgewählten Audio-Merkmale.
Empfohlene Modellierungsvariablen:
danceabilityenergyloudnessspeechinessacousticnessinstrumentalnesslivenessvalencetempoduration_ms
Nicht als Primärinput verwenden:
track_popularityplaylist_genreplaylist_subgenrekeymode- alle ID- und Textfelder
4.3 Dimensionsreduktion
Wenden Sie eine Hauptkomponentenanalyse (PCA) auf die standardisierten Audio-Merkmale an, um eine niedrigdimensionale, interpretierbare Repräsentation der Songs zu erhalten.
Alternativ oder zusätzlich können Sie eine Faktorenanalyse (FA) anwenden.
Hinweise zur methodischen Umsetzung:
- Die PCA oder FA ist auf den standardisierten Audio-Merkmalen durchzuführen.
- In der Regel sind 4-6 Komponenten ausreichend für die nachgelagerte Clusteranalyse; begründen Sie Ihre konkrete Wahl.
- Interpretieren Sie die Komponenten nicht nur über Ladungen, sondern auch über Songs mit hohen bzw. niedrigen Scores.
Diskutieren Sie kurz:
- welche musikalischen Spannungen oder Pole sich in den Komponenten andeuten,
- welche Variablen besonders stark zusammenhängen,
- und inwiefern die reduzierte Struktur für Clustering geeigneter ist als der Rohraum.
4.4 Clusteranalyse
Nutzen Sie die reduzierten Dimensionen zur Identifikation von Song-Archetypen.
Empfehlungen:
- Verwenden Sie ein geeignetes Clusterverfahren auf die PCA-Scores an.
- Begründen Sie die Wahl der Clusteranzahl u. a. über:
- Elbow-/WSS-Kriterium,
- Silhouette,
- und Interpretierbarkeit der Lösung.
- Eine sinnvolle Lösung wird typischerweise im Bereich von 4-7 Clustern liegen.
4.5 Profilierung und strategische Interpretation der Cluster
Die inhaltliche Profilierung der Cluster ist der zentrale Teil der Fallstudie.
Gehen Sie dabei wie folgt vor:
- Profilierung über Audio-Merkmale
- Ermitteln Sie Cluster-Mittelwerte für die Audio-Merkmale oder PCA-Scores.
- Beschreiben Sie, wie sich die Cluster musikalisch unterscheiden.
- Profilierung über Kontextvariablen
- Untersuchen Sie je Cluster die Verteilung von
playlist_genreundplaylist_subgenre. - Vergleichen Sie die durchschnittliche
track_popularityje Cluster.
- Untersuchen Sie je Cluster die Verteilung von
- Repräsentative Songs
- Identifizieren Sie für jedes Cluster mehrere typische Songs.
- Begründen Sie kurz, warum diese Songs als exemplarisch gelten können.
- Benennung und strategische Ableitung
- Vergeben Sie aussagekräftige Namen für die Archetypen.
- Leiten Sie für soundFHlow konkrete Empfehlungen ab, z. B. für:
- Playlist-Kuration,
- Katalognavigation,
- Musikentdeckung,
- thematische Sammlungen oder Mood-Playlists.
5 Format der Abgabe
Ihre Abgabe besteht aus zwei Bestandteilen:
5.1 Bericht
Erstellen Sie einen Bericht (max. 10 Seiten) mit folgenden Elementen:
- Titel (inkl. Autor:innen),
- Executive Summary (2-5 Sätze),
- Einleitung (Zielsetzung und Kontext),
- Methodik (kurz und präzise),
- Ergebnisse
(Abbildungen und Tabellen nummeriert und im Text referenziert), - Diskussion und Ausblick
(u. a. Limitationen, mögliche Alternativen, Rolle von Genre-Labels und Popularität), - Literatur (falls genutzt),
- Anhang (optional, kein Seitenlimit).
5.2 R-Code
Reichen Sie zusätzlich den von Ihnen erstellten R-Code ein, der:
- die explorative Analyse,
- die Datenaufbereitung und Deduplikation,
- die Dimensionsreduktion,
- die Clusteranalyse,
- sowie die Profilierung der Cluster
reproduzierbar umsetzt.
Der Code sollte:
- lauffähig,
- gut strukturiert,
- nachvollziehbar kommentiert sein.
6 Abgabe
Bitte reichen Sie den Bericht (*.pdf) sowie den R-Code bis zum
25.05.2026, 23:59 Uhr über Teams ein.
7 Bewertungskriterien
Die Bewertung erfolgt anhand der folgenden Rubrik, die auch als Grundlage für die Bewertung in MS Teams dient.
8 Merkmale des Datensatzes
Der bereitgestellte Datensatz soundfhlow_songs.csv enthält die folgenden Variablen:
| Variable | Datentyp | Rolle | Beschreibung |
|---|---|---|---|
| track_id | ID / Text | Identifikation | Eindeutige ID eines Songs; zentrale Variable für die Deduplikation auf Song-Ebene. |
| track_name | Text | Interpretation | Name des Songs. |
| track_artist | Text | Interpretation | Interpret:in bzw. Künstler:in des Songs. |
| track_popularity | Numerisch | Profilierung | Popularitätsmaß des Songs; nur zur nachgelagerten Profilierung verwenden. |
| track_album_id | ID / Text | Identifikation | Eindeutige ID des Albums. |
| track_album_name | Text | Interpretation | Name des Albums. |
| track_album_release_date | Datum / Text | Metadatum | Veröffentlichungsdatum bzw. Veröffentlichungsjahr des Albums. |
| playlist_name | Text | Interpretation | Name der Playlist, in der der Song enthalten ist. |
| playlist_id | ID / Text | Identifikation | Eindeutige ID der Playlist. |
| playlist_genre | Kategorial | Profilierung | Übergeordnetes Genre der Playlist. |
| playlist_subgenre | Kategorial | Profilierung | Feineres Subgenre bzw. thematische Unterkategorie der Playlist. |
| danceability | Numerisch | Modellierung | Maß für die Eignung eines Songs zum Tanzen. |
| energy | Numerisch | Modellierung | Maß für Intensität und wahrgenommene Energie des Songs. |
| key | Diskret numerisch | Nicht als Primärinput | Tonart des Songs, codiert als diskreter Wert. |
| loudness | Numerisch | Modellierung | Relative Lautstärke des Songs. |
| mode | Binär / diskret | Nicht als Primärinput | Modalität des Songs, typischerweise Dur oder Moll. |
| speechiness | Numerisch | Modellierung | Maß für sprachähnliche Anteile im Song. |
| acousticness | Numerisch | Modellierung | Maß für den akustischen Charakter eines Songs. |
| instrumentalness | Numerisch | Modellierung | Maß für die Wahrscheinlichkeit instrumentaler Anteile. |
| liveness | Numerisch | Modellierung | Maß für Live-Charakter bzw. Publikumseindruck. |
| valence | Numerisch | Modellierung | Maß für positive bzw. negative Klangwirkung. |
| tempo | Numerisch | Modellierung | Tempo in Beats pro Minute. |
| duration_ms | Numerisch | Modellierung | Spieldauer des Songs in Millisekunden. |