Fallstudie in Unsupervised Machine Learning

Song-Archetypen für Playlist- und Katalogstrategie

1 Kontext

Die Streaming-Plattform soundFHlow möchte ihren Musikkatalog künftig nicht mehr nur über klassische Genres und redaktionell kuratierte Playlists strukturieren. Stattdessen sollen klangliche Archetypen identifiziert werden, die Songs mit ähnlichen musikalischen Eigenschaften zusammenfassen und dadurch eine bessere Grundlage für Playlist-Kuration, Katalogstruktur und Musikentdeckung schaffen.

Die Plattform verfügt bereits über eine große Sammlung von Songs mit numerischen Audio-Merkmalen sowie Metadaten zu Playlist-Zuordnungen und Popularität. Ihre Aufgabe besteht darin, aus diesen Merkmalen mittels Dimensionsreduktion und Clusteranalyse eine sinnvolle, interpretierbare Struktur des Katalogs abzuleiten.

2 Datenbasis

Für die Analyse steht Ihnen ein Datensatz als *.csv-Datei zur Verfügung: soundfhlow_songs.csv

Der Datensatz enthält Song-Metadaten, Playlist-Zuordnungen und Audio-Merkmale. In der Rohfassung umfasst er:

  • 32.833 Zeilen
  • 23 Variablen
  • 28.356 eindeutige track_id

Eine track_id kann mehrfach vorkommen, weil derselbe Song in mehreren Playlists enthalten sein kann. Für die Modellierung ist daher eine saubere Deduplikation auf Song-Ebene erforderlich.

HinweisHinweis zur Datenstruktur

Die lokale Datei basiert auf einem öffentlich verfügbaren Song-Datensatz.

Die Audio-Merkmale sind für dieselbe track_id konsistent. Dubletten entstehen also nicht durch widersprüchliche Songmessungen, sondern durch unterschiedliche Playlist-Kontexte.

Die Variablen lassen sich grob in drei Gruppen einteilen:

  1. Song-Identifikation und Metadaten
    • track_id, track_name, track_artist, track_album_name, track_album_release_date
  2. Playlist-Kontext
    • playlist_name, playlist_id, playlist_genre, playlist_subgenre
  3. Audio-Merkmale und Popularität
    • track_popularity, danceability, energy, key, loudness, mode, speechiness, acousticness, instrumentalness, liveness, valence, tempo, duration_ms

3 Kurze fachliche Einordnung

3.1 Audio-Merkmale

Die Audio-Merkmale beschreiben verschiedene Eigenschaften von Songs im Zahlenraum. Beispiele:

  • danceability: Eignung eines Songs zum Tanzen,
  • energy: wahrgenommene Intensität,
  • acousticness: Anteil akustischer Charakteristik,
  • instrumentalness: Wahrscheinlichkeit für instrumentale Anteile,
  • valence: eher positive vs. eher negative Klangwirkung,
  • tempo: Geschwindigkeit in Beats pro Minute.

Diese Variablen sind für PCA und Clusteranalyse gut geeignet, weil sie:

  • numerisch vorliegen,
  • inhaltlich interpretierbar sind,
  • und unterschiedliche Dimensionen musikalischer Struktur abbilden.

3.2 Genre, Subgenre und Popularität

Die Variablen playlist_genre, playlist_subgenre und track_popularity sind für die Fallstudie inhaltlich sehr hilfreich, sollen aber nicht als Input für die Modellierung verwendet werden.

Sie dienen stattdessen dazu,

  • die gefundenen Cluster nachträglich zu beschreiben,
  • typische Kontexte je Cluster zu identifizieren,
  • und zu diskutieren, ob bestimmte Archetypen eher populär oder eher nischig sind.
WichtigWichtig

Verwenden Sie für PCA und Clustering ausschließlich die ausgewählten Audio-Merkmale.
track_popularity, playlist_genre und playlist_subgenre dienen nur der Profilierung und Interpretation.

4 Aufgabenstellung

Ziel dieser Fallstudie ist es, klangliche Song-Archetypen zu identifizieren und diese für die Plattform soundFHlow strategisch nutzbar zu machen.

Gehen Sie dabei wie folgt vor:

4.1 Explorative Analyse der Audio-Struktur

Untersuchen Sie zunächst die Struktur der Audio-Merkmale auf deskriptiver Ebene.

Adressieren Sie dabei insbesondere:

  • Verteilungen, Wertebereiche und potentielle Ausreißer,
  • Korrelationen zwischen den Audio-Merkmalen,
  • erste Projektionen und Visualisierungen,
  • sowie die Frage, welche Variablen sich sinnvoll für die Modellierung eignen.

Gehen Sie außerdem auf die Rohdatenstruktur ein:

  • Wie viele eindeutige Songs liegen vor?
  • Wie häufig treten Dubletten über track_id auf?
  • Welche Konsequenzen hat das für die weitere Analyse?

4.2 Datenaufbereitung und Deduplikation

Erstellen Sie aus dem Rohdatensatz eine Modellierungstabelle auf Song-Ebene, also genau eine Zeile pro track_id.

Gehen Sie dabei wie folgt vor:

  • Führen Sie eine begründete Deduplikation über track_id durch.
  • Behalten Sie die Playlist-Informationen in einer separaten Hilfstabelle, damit diese später für die Interpretation genutzt werden können.
  • Standardisieren Sie die für die Modellierung ausgewählten Audio-Merkmale.

Empfohlene Modellierungsvariablen:

  • danceability
  • energy
  • loudness
  • speechiness
  • acousticness
  • instrumentalness
  • liveness
  • valence
  • tempo
  • duration_ms

Nicht als Primärinput verwenden:

  • track_popularity
  • playlist_genre
  • playlist_subgenre
  • key
  • mode
  • alle ID- und Textfelder

4.3 Dimensionsreduktion

Wenden Sie eine Hauptkomponentenanalyse (PCA) auf die standardisierten Audio-Merkmale an, um eine niedrigdimensionale, interpretierbare Repräsentation der Songs zu erhalten.

Alternativ oder zusätzlich können Sie eine Faktorenanalyse (FA) anwenden.

Hinweise zur methodischen Umsetzung:

  • Die PCA oder FA ist auf den standardisierten Audio-Merkmalen durchzuführen.
  • In der Regel sind 4-6 Komponenten ausreichend für die nachgelagerte Clusteranalyse; begründen Sie Ihre konkrete Wahl.
  • Interpretieren Sie die Komponenten nicht nur über Ladungen, sondern auch über Songs mit hohen bzw. niedrigen Scores.

Diskutieren Sie kurz:

  • welche musikalischen Spannungen oder Pole sich in den Komponenten andeuten,
  • welche Variablen besonders stark zusammenhängen,
  • und inwiefern die reduzierte Struktur für Clustering geeigneter ist als der Rohraum.

4.4 Clusteranalyse

Nutzen Sie die reduzierten Dimensionen zur Identifikation von Song-Archetypen.

Empfehlungen:

  • Verwenden Sie ein geeignetes Clusterverfahren auf die PCA-Scores an.
  • Begründen Sie die Wahl der Clusteranzahl u. a. über:
    • Elbow-/WSS-Kriterium,
    • Silhouette,
    • und Interpretierbarkeit der Lösung.
  • Eine sinnvolle Lösung wird typischerweise im Bereich von 4-7 Clustern liegen.

4.5 Profilierung und strategische Interpretation der Cluster

Die inhaltliche Profilierung der Cluster ist der zentrale Teil der Fallstudie.

Gehen Sie dabei wie folgt vor:

  1. Profilierung über Audio-Merkmale
    • Ermitteln Sie Cluster-Mittelwerte für die Audio-Merkmale oder PCA-Scores.
    • Beschreiben Sie, wie sich die Cluster musikalisch unterscheiden.
  2. Profilierung über Kontextvariablen
    • Untersuchen Sie je Cluster die Verteilung von playlist_genre und playlist_subgenre.
    • Vergleichen Sie die durchschnittliche track_popularity je Cluster.
  3. Repräsentative Songs
    • Identifizieren Sie für jedes Cluster mehrere typische Songs.
    • Begründen Sie kurz, warum diese Songs als exemplarisch gelten können.
  4. Benennung und strategische Ableitung
    • Vergeben Sie aussagekräftige Namen für die Archetypen.
    • Leiten Sie für soundFHlow konkrete Empfehlungen ab, z. B. für:
      • Playlist-Kuration,
      • Katalognavigation,
      • Musikentdeckung,
      • thematische Sammlungen oder Mood-Playlists.

5 Format der Abgabe

Ihre Abgabe besteht aus zwei Bestandteilen:

5.1 Bericht

Erstellen Sie einen Bericht (max. 10 Seiten) mit folgenden Elementen:

  • Titel (inkl. Autor:innen),
  • Executive Summary (2-5 Sätze),
  • Einleitung (Zielsetzung und Kontext),
  • Methodik (kurz und präzise),
  • Ergebnisse
    (Abbildungen und Tabellen nummeriert und im Text referenziert),
  • Diskussion und Ausblick
    (u. a. Limitationen, mögliche Alternativen, Rolle von Genre-Labels und Popularität),
  • Literatur (falls genutzt),
  • Anhang (optional, kein Seitenlimit).

5.2 R-Code

Reichen Sie zusätzlich den von Ihnen erstellten R-Code ein, der:

  • die explorative Analyse,
  • die Datenaufbereitung und Deduplikation,
  • die Dimensionsreduktion,
  • die Clusteranalyse,
  • sowie die Profilierung der Cluster

reproduzierbar umsetzt.

Der Code sollte:

  • lauffähig,
  • gut strukturiert,
  • nachvollziehbar kommentiert sein.

6 Abgabe

Bitte reichen Sie den Bericht (*.pdf) sowie den R-Code bis zum
25.05.2026, 23:59 Uhr über Teams ein.

7 Bewertungskriterien

Die Bewertung erfolgt anhand der folgenden Rubrik, die auch als Grundlage für die Bewertung in MS Teams dient.

Tabelle 1: Bewertungskriterien für die Fallstudie
Kriterium Gewicht sehr gut (6) gut (5) befriedigend (4) ausreichend (3) ungenügend (0)
Code: Fachliche Bearbeitung und Umfang der Analysen 20 % Aufgabe vollständig gelöst; Deduplikation, PCA, Clusteranalyse und Profilierung fachlich überzeugend umgesetzt, zusätzliche sinnvolle Analysen möglich Aufgabe gut gelöst; zentrale Analyseschritte korrekt umgesetzt und Ergebnisse nachvollziehbar hergeleitet Wesentliche Teilprobleme gelöst; fachliche Bearbeitung insgesamt befriedigend, mit kleineren Lücken in Analyse oder Interpretation Einige Teilprobleme gelöst oder teilweise gelöst; fachliche Umsetzung nur in Teilen tragfähig Unzureichende Bearbeitung; lediglich Lösungsansätze oder stark unvollständige Analyse
Code: Einsatz von Methoden und Werkzeugen aus der Vorlesung 14 % Vorbildliche Methodik; geeignete Verfahren aus der Vorlesung angemessen eingesetzt und reflektiert Gute Methodik; Verfahren passend ausgewählt und Vorgehen insgesamt überzeugend begründet Methoden aus der Vorlesung grundsätzlich genutzt, aber mit erkennbaren Lücken oder schwächerer Begründung Teilweise adäquate Nutzung der Methoden und Werkzeuge; Auswahl oder Begründung nur in Ansätzen passend Kaum oder keine sinnvolle Nutzung von Methoden aus der Vorlesung
Code: Selbständigkeit, Eigeninitiative, Kreativität 14 % Umfassende Eigeninitiative; selbständige und kreative, zugleich fachlich sinnvolle Analyse Gute Eigeninitiative und Kreativität bei der Bearbeitung Grundsätzliche Eigeninitiative und einige eigenständige Entscheidungen erkennbar Ansätze von Eigeninitiative vorhanden, insgesamt aber wenig eigenständig Geringe Selbständigkeit
Code: Systematik, Gliederung, Dokumentation 12 % Sehr gute Strukturierung und Dokumentation des Codes Gute Strukturierung und Dokumentation des Codes Wesentliche Elemente einer Systematik und Dokumentation erkennbar Erste Ansätze einer Systematik und Dokumentation erkennbar Keine nachvollziehbare Strukturierung des Codes
Bericht: Systematik, Gliederung, formale Dokumentation 14 % Sehr gute Strukturierung und formale Ausarbeitung; Bericht ist klar gegliedert und sprachlich sehr sauber Gute Strukturierung und formale Ausarbeitung; Bericht ist vollständig und weitgehend fehlerfrei Befriedigende Struktur und formale Ausarbeitung; kleinere formale oder sprachliche Mängel Grundstruktur erkennbar; formale Dokumentation nur teilweise überzeugend Kaum strukturierter Bericht mit deutlichen formalen Mängeln
Bericht: Fachliche Dokumentation 14 % Vorbildliche fachliche Dokumentation; Methoden, Ergebnisse und Entscheidungen sind präzise und vollständig erläutert Gute fachliche Dokumentation; wesentliche Schritte und Ergebnisse sind nachvollziehbar dargestellt Befriedigende fachliche Dokumentation; zentrale Inhalte sind vorhanden, aber nicht immer präzise ausgearbeitet Ausreichende fachliche Dokumentation; wichtige Aspekte werden nur teilweise erklärt Erhebliche Mängel in der fachlichen Dokumentation; zentrale Schritte oder Ergebnisse bleiben unklar
Bericht: Strategische und problemorientierte Interpretation 6 % Sehr gute strategische Interpretation der Cluster; Implikationen für Playlist-Kuration, Katalognavigation und Musikentdeckung schlüssig abgeleitet Gute problemorientierte Interpretation; zentrale Implikationen für die Plattform überzeugend herausgearbeitet Interpretation in Ansätzen überzeugend; strategische Ableitungen zu den wichtigsten Punkten vorhanden Teilweise problemorientierte Interpretation; Ableitungen bleiben eher allgemein Kaum problemorientierte oder strategische Interpretation der Ergebnisse
Bericht: Kritische Reflexion 6 % Sehr gute, ausführliche kritische Reflexion zu Methodenwahl, Limitationen und Alternativen Gute kritische Reflexion mit nachvollziehbarer Einordnung zentraler Grenzen und Alternativen Befriedigende kritische Reflexion; wichtige Grenzen werden angesprochen Mäßige kritische Reflexion; Grenzen oder Alternativen nur knapp erwähnt Keine oder nahezu keine kritische Reflexion

8 Merkmale des Datensatzes

Der bereitgestellte Datensatz soundfhlow_songs.csv enthält die folgenden Variablen:

Tabelle 2
Variable Datentyp Rolle Beschreibung
track_id ID / Text Identifikation Eindeutige ID eines Songs; zentrale Variable für die Deduplikation auf Song-Ebene.
track_name Text Interpretation Name des Songs.
track_artist Text Interpretation Interpret:in bzw. Künstler:in des Songs.
track_popularity Numerisch Profilierung Popularitätsmaß des Songs; nur zur nachgelagerten Profilierung verwenden.
track_album_id ID / Text Identifikation Eindeutige ID des Albums.
track_album_name Text Interpretation Name des Albums.
track_album_release_date Datum / Text Metadatum Veröffentlichungsdatum bzw. Veröffentlichungsjahr des Albums.
playlist_name Text Interpretation Name der Playlist, in der der Song enthalten ist.
playlist_id ID / Text Identifikation Eindeutige ID der Playlist.
playlist_genre Kategorial Profilierung Übergeordnetes Genre der Playlist.
playlist_subgenre Kategorial Profilierung Feineres Subgenre bzw. thematische Unterkategorie der Playlist.
danceability Numerisch Modellierung Maß für die Eignung eines Songs zum Tanzen.
energy Numerisch Modellierung Maß für Intensität und wahrgenommene Energie des Songs.
key Diskret numerisch Nicht als Primärinput Tonart des Songs, codiert als diskreter Wert.
loudness Numerisch Modellierung Relative Lautstärke des Songs.
mode Binär / diskret Nicht als Primärinput Modalität des Songs, typischerweise Dur oder Moll.
speechiness Numerisch Modellierung Maß für sprachähnliche Anteile im Song.
acousticness Numerisch Modellierung Maß für den akustischen Charakter eines Songs.
instrumentalness Numerisch Modellierung Maß für die Wahrscheinlichkeit instrumentaler Anteile.
liveness Numerisch Modellierung Maß für Live-Charakter bzw. Publikumseindruck.
valence Numerisch Modellierung Maß für positive bzw. negative Klangwirkung.
tempo Numerisch Modellierung Tempo in Beats pro Minute.
duration_ms Numerisch Modellierung Spieldauer des Songs in Millisekunden.
Zurück nach oben