plops on Fourier transforms and Common Lisp: 10.500 YouTube-Videos visualisiert: Ein Experiment mit Gemini, UMAP und DBSCAN

Einleitung und Anfänge mit Sprachmodellen

Vor ungefähr zwei Jahren habe ich angefangen, Sprachmodelle zu benutzen – anfangs ChatGPT, später Gemini –, um Zusammenfassungen für YouTube-Videos auf deren Webseiten zu erstellen. Zu Beginn war der Kontext auf 4.000 oder 8.000 Token beschränkt. Zusammenfassungen von längeren Videos waren daher qualitativ nicht besonders gut. Ich musste die Videos in 10-Minuten-Blöcke unterteilen, diese einzeln zusammenfassen lassen und am Ende eine Gesamtzusammenfassung erstellen. Das hat leider nicht sehr gut funktioniert.

Der Durchbruch mit Gemini 1.5 Pro

Mit Gemini 1.5 Pro war der Kontext schließlich lang genug, um Videos von 30 bis 60 Minuten Länge in einem Stück zu verarbeiten. Die Kosten waren jedoch relativ hoch; eine Stunde Video zusammenzufassen kostete etwa 50 Cent. Aufgrund dieser Kosten begann ich, die Zusammenfassungen direkt als Kommentar unter die YouTube-Videos zu posten, immer mit dem Hinweis, dass sie mit Gemini 1.5 Pro erstellt wurden.

Gelegentlich erhielten diese Kommentare Likes. Wenn ich ein paar Mal vergaß zu erwähnen, dass eine KI den Text verfasst hat, bekam ich bis zu 60 Likes. Das zeigte mir, dass diese Zusammenfassungen tatsächlich nützlich sind. Doch nicht nur das Feedback von außen war entscheidend: Auch für mich selbst waren die Zusammenfassungen, die ich stets mit den Videos verglich, extrem hilfreich. Manchmal fand ich darin sogar Punkte, die ich beim bloßen Zuhören gar nicht aufgeschnappt hatte.

Motivation für die eigene Plattform und Datenbank

Da ich meine eigenen Kommentare auf YouTube schlecht wiederfinden konnte, wollte ich meine Anfragen inklusive Prompts und Ergebnissen speichern. Es gab jedoch noch einen tiefergehenden Grund für den Aufbau der Datenbank: Ich hatte gelernt, dass das Training (bzw. Fine-Tuning) eines Foundational LLM (Large Language Model) erstaunlich gut funktioniert und sogar in wenigen Tagen auf einer Consumer-Grafikkarte durchgeführt werden kann – vorausgesetzt, man hat ausreichend viele qualitativ hochwertige Beispiele. Um diesen Datensatz zu erstellen, baute ich ein Python-Skript mit einer Webseite.

Die Webseite unterstützt nach wie vor nur Google Gemini. Allerdings absolviere ich zurzeit einen Kurs von Jeremy Howard (fast.ai), in dem ich lerne, wie man mittels Python beliebige LLMs (zum Beispiel über Bibliotheken wie Lisette) nutzen kann. Das Ziel ist es, hier flexibler zu werden.

Visualisierung und Clustering (Embeddings & UMAP)

Nachdem ich etwa 4.000 Zusammenfassungen gesammelt hatte, erstellte ich daraus Embeddings. Google gibt hierfür Vektoren mit 3.072 Dimensionen zurück. Jedes Video entspricht also einem Punkt in diesem hochdimensionalen Vektorraum.

Ich nutzte einen Algorithmus namens UMAP (eine Weiterentwicklung von t-SNE), um diesen Raum auf 2D herunterzubrechen. Die Idee dabei ist, dass die Abstandscharakteristik erhalten bleibt: Punkte, die im hochdimensionalen Raum nah beieinander liegen, sind es auch im 2D-Raum. Das funktionierte gut, und thematische Cluster wurden sichtbar.

Abb. 1: Detailansicht der Cluster-Bildung. Hier ist schön zu sehen, wie medizinische Fachthemen wie Virologie und Parasitologie automatisch gruppiert wurden.

Um die Cluster besser zu trennen und farblich zu markieren, stellte ich fest, dass es effizienter ist, den Vektorraum mittels UMAP auf vier Dimensionen zu reduzieren und dort das Clustering (mit dem Algorithmus DBSCAN) durchzuführen, da es im 2D-Raum zu viele Überlappungen gab. Anschließend nahm ich einen Teil der Punkte eines Clusters, schickte deren Zusammenfassungen an die KI und ließ mir einen passenden Titel vorschlagen.

Abb. 2: Interaktive globale Projektion von über 4.000 YouTube-Video-Zusammenfassungen. Jeder Punkt repräsentiert ein Video, die Farben markieren thematische Zusammengehörigkeiten.

Aktueller Status und Kommerzialisierung

Mittlerweile haben wir etwa 10.500 Einträge auf der Webseite. Meine Idealvorstellung ist, dass jeder Nutzer beim Zusammenfassen eines Videos dessen Position auf der Karte sowie thematisch verwandte Videos in der Nähe sieht.

Da schon mehrere Leute die Webseite nutzen, wird das freie Kontingent von Google manchmal ausgeschöpft. Das ist problematisch, da ich dann keine Pro-Zugriffe mehr machen kann. Ich möchte das Projekt daher gerne so weit kommerzialisieren, dass Nutzer sich einloggen und gegen Bezahlung (z. B. durch Hinterlegen von 5 Dollar Guthaben) Zusammenfassungen erstellen können, ohne durch das kostenlose Kontingent limitiert zu werden. Ein wichtiger Aspekt dabei ist, dass diese Nutzer ihre Zusammenfassungen dann auf Wunsch auch privat halten können.

Das Preis-Leistungs-Verhältnis ist mittlerweile sehr gut: Ein zweistündiges Video lässt sich für zwei bis drei Cent mit einem Pro-Modell zusammenfassen.

Vergleich mit Konkurrenz und Anwendungsfälle

Youtube zeigt inzwischen selbst Zusammenfassungen an, die ich jedoch nicht vergleichbar finde mit dem, was das Script meiner Website erzeugt. Mein Ansatz generiert ein Abstract sowie eine detaillierte Zusammenfassung mit Zeitstempeln. Oft muss man das Video gar nicht mehr schauen oder kann gezielt zu interessanten Stellen springen.

Besonders hilfreich ist das für wissenschaftliche Inhalte. Ich schaue oft "MicrobeTV", wo Ärzte und Virologen Studien diskutieren ("Journal Club"). Das mündliche Gespräch ist oft verständlicher als die Artikel selbst, und durch die Zusammenfassung lassen sich die Informationen schnell einordnen.

Technische Limitationen und Ausblick (Parakeet)

Ein Problem bei YouTube-Transkripten ist die fehlende Sprechererkennung. Während das bei Firmen-Meetings (in Teams) durch getrennte Kanäle gut funktioniert, hat die KI bei Podcasts mit nur einem Audio Kanal mit mehreren Personen oft Schwierigkeiten, die Sprecher zuzuordnen. Eine vielversprechende Option, um YouTube-Summaries mit mehreren Sprechern massiv zu verbessern, wäre der Einsatz von Parakeet. Dabei handelt es sich um ein fortschrittliches Speech-to-Text-Modell, das über eine funktionierende Sprechererkennung (Speaker Diarization) verfügt.

Auch das Fehlen von Bilddaten ist ein Nachteil. Wenn in einem Video visuelle Prozesse gezeigt werden, hilft das reine Text-Transkript wenig. Ein interessanter nächster Schritt wäre daher, auch Bildausschnitte an die KI zu übergeben.

Zusammenfassend halte ich diese Art der Videokartierung und -zusammenfassung für sehr sinnvoll und plane, die Plattform weiter auszubauen.

plops on Fourier transforms and Common Lisp

Monday, November 24, 2025

10.500 YouTube-Videos visualisiert: Ein Experiment mit Gemini, UMAP und DBSCAN