Studie über Timing von Comedians: Die DNS von Stand-up

Either you get it or you don’t: Kaum ein Begriff aus der Welt der Comedy ist so schwer zu fassen wie Timing. Nun versucht sich eine neue Studie daran und will Timing sogar sichtbar machen. Das gelingt – und erklärt rein gar nichts.

Der US-Komiker Milton Berle, einer der ersten Stars der Fernsehgeschichte, soll sich einmal einen Spaß mit dem Publikum erlaubt haben (gewissermaßen also einen Spaß-Spaß). Er tauschte die Punchline eines Witzes gegen eine andere, unlustige aus, eine, die nicht mal Sinn ergab, mithin also gar keine Punchline mehr war. Berle sagte einfach irgendetwas. Aber das Publikum lachte trotzdem. Verrückt.

Oliver Double, der diese Anekdote in seinem im Buch Getting the Joke erzählt, liefert auch eine Erklärung mit. Es sei weniger der Inhalt von Berles Worten gewesen, als vielmehr der “insistent rhythm” der Witze, der den Zuhörer:innen gar keine Wahl mehr ließ, als zu lachen. Was gesagt wird, ist in Comedy gar nicht so entscheidend, dafür umso mehr, wie es gesagt wird. In welchem Rhythmus, in welchem Tempo, mit welchen Pausen – kurz: mit welchem Timing.

Kaum ein Begriff aus der Welt der Stand-up-Comedy ist so wolkig, so unbestimmt, gleichzeitig so ungemein wichtig. Ohne Timing ist alles nichts in Comedy, aber was genau das ist, darüber gehen die Meinungen von Comedians auseinander. Den einen geht es um die Pausen, den anderen darum, um die Lacher aus dem Publikum herumzusprechen, wiederum anderen ist Timing Ebbe und Flut einer Show oder die Bereitschaft, das Publikum auch mal nachdenken zu lassen. Die meisten verlegen sich auf ein schulterzuckendes “I know it when I see it”. Manche werden spirituell. Timing sei “an elusive abstract lubricant that exists in the eternal now”, soll der britische Comedian Tony Allen gesagt haben. Na dann.

Dieser Artikel gehört zur Reihe Noten zur Comedy, in der wir unregelmäßig einen Blick auf ein virulentes Thema rund um Comedy werfen. Ihr könnt die Noten auch als Newsletter abonnieren, dann kommen sie direkt (mit aktueller Presseschau und besonderem Comedytipp) ins Postfach.

Das alles erklärt genau rein gar nichts. Es verschleiert und mystifiziert sogar eher. Und gerade deswegen, so wieder Oliver Double, sei der Begriff so populär als Erklärung für den Zauber einer Stand-up-Show. Menschen sehen einen Menschen auf einer Bühne, der genauso zu sprechen scheint wie alle anderen Menschen, aber aus irgendeinem unerklärlichen Grund lachen alle. “It’s easier to attribute the laughs to some kind of mysterious atomic comic clock in the comedian’s head than to make sense of the whole complex process of what’s going on behind that word or pause to make it funny”, heißt es in Getting the Joke.

Auch in der akademischen Welt haben sich schon viele Gedanken gemacht. Mal wurde die Bedeutung von Pausen und Lautstärkenwechseln hervorgehoben, mal schnelleres Sprechtempo, dann wurde das Rad wieder zurückgedreht. Bekannt ist beispielsweise eine Studie von Salvatore Attardo und Lucy Pickering aus dem Jahr 2011, die empirisch belegen konnte, was Timing nicht ist: Weder waren Punchlines systematisch durch Pausen abgesetzt, noch wurde die Sprechrate signifikant verändert. Attardo/Pickering schlossen daraus (richtig, wie mir scheinen will), dass die Theorie des Comedy-Timings „in serious need of further research“ sei.

Nun versuchen Forscher:innen aus London Abhilfe zu schaffen: Biomediziner und design engineers vom King’s College und Imperial College in London (keine Geisteswissenschaftler) haben Timing structures in live comedy: A matched-sequence approach to mapping performance dynamics vorgelegt. Sie haben eine Methode entwickelt, um zu analysieren, wie Comedians ihre Shows strukturieren, nämlich die Topology Analysis of Matching Sequences (TAMS). Diese markiert einen methodischen Paradigmenwechsel: Statt einzelne phonetische Parameter zu messen (z. B. wie oft sagen Comedians “äh”) oder qualitativ zu interpretieren (wie sind Geschichten strukturiert), visualisiert die Methode Showstrukturen über viele Performances hinweg. Sie ist deskriptiv statt hypothesentestend. Und da empirische wissenschaftliche Studien über Stand-up eher selten sind, möchte ich die Arbeit vorstellen.

“Deskriptiv statt hypothesentestend”, was soll das bitteschön heißen?

TAMS testet keine Hypothese, formuliert also nicht vorab eine Annahme, zum Beispiel “Das Publikum lacht nur, wenn der Comedian 2.7 Sekunden Pause vor der Punchline macht”, sammelt dann Daten, prüft statistisch, ob die Annahme zutrifft. Das macht TAMS nicht. TAMS ist eine Visualisierungsmethode. Es entsteht ein dichter Teppich, der zeigt, wie sich Witze und überhaupt Äußerungen im Set eines Comedians entwickeln, verschieben oder neu anordnen. Die Visualisierung selbst besagt nichts, sie muss von einem Menschen interpretiert werden.

Was lernen wir also über Stand-up?

Erst einmal: nichts. Es gibt kein Ergebnis oder vielmehr: TAMS ist das Ergebnis. Die Forscher:innen haben eine Methode entwickelt und führen am Beispiel von zwei Comedians (A und B genannt) vor, wie der Einsatz in der Praxis aussehen kann. Das heißt: Man darf aus den Ergebnissen nicht schließen „so funktioniert Stand-up“, sondern nur: „TAMS kann gewisse Strukturen sichtbar machen, wenn sie vorhanden sind.“ Die Demonstrationsbefunde über A und B für generalisierbare Einsichten über Stand-up-Comedy zu halten, wäre ein Fehler.

Aha. Und wie funktioniert dieses TAMS?

Das wissen ganz genau wohl nur die Forscher:innen selber. Aber ganz grob gesagt geht es um das Aufspüren von matching sequences, also übereinstimmenden Sequenzen über mehrere Shows hinweg. Ein Algorithmus vergleicht Transkripte von Comedyshows und sucht die längsten identischen zusammenhängenden Wortfolgen, also Sequenzen, die in beiden Shows in exakt derselben Formulierung vorkommen. Das Ergebnis ist eine Liste von Passagen, die in zwei Shows identisch sind, mit Zeitstempeln.

Und das macht Timing sichtbar???

Moment. Die Zeitstempel werden normalisiert, weil ja nicht jede Show gleich lang ist. Jede Matching-Sequenz hat in beiden Shows einen Zeitstempel. Diese werden normalisiert – also nicht in Sekunden, sondern als Anteil der Gesamtshowlänge (0 bis 1). Dann wird für jedes Matching-Paar die Differenz zwischen den Startzeitpunkten in beiden Shows berechnet. Ist die Differenz null, wurde die Sequenz im gleichen relativen Showmoment gespielt. Ist sie positiv oder negativ, wurde sie früher oder später platziert. Alle übereinstimmenden Paare einer Show haben so eine Differenz, das kann man mit langen und kurzen Strichen visualisieren, die in verschiedene Richtungen zeigen. So ergibt sich ein Muster, der oben erwähnte Teppich. Horizontale Streifen bedeuten zum Beispiel, dass mehrere Sequenzen mit gleichem zeitlichen Abstand zueinander gespielt wurden.

Viele Comedians spielen ihre Bits immer gleich, aber manchmal ändert sich ja doch was. Dann ist da ein “äh” drin oder halt doch mal ein zusätzliches Wort…

Ein einzelnes zusätzliches „Äh“ würde eine Sequenz schon formal brechen, da ist der Algorithmus sehr hart. Die übereinstimmenden Sequenzen sind die, in denen wirklich alles übereinstimmt, also auch Ähs oder sonstige Unterbrechungen. Das erklärt auch, warum in den Beispielanalysen aus der Studie nur gut 40 Prozent einer Show matchen. Das wirkt kontraintuitiv – uns als normalen Comedyzuschauern kommt viel mehr an einer Show gleich vor, wahrscheinlich auch den Comedians. Aber wer ganz streng misst, stellt fest, dass sich das meiste unterscheidet. Die 40 Prozent sind also eher ein Maß für: Welcher Anteil einer Show ist dermaßen in Fleisch und Blut übergegangen, dass der Comedian es wortwörtlich reproduzieren kann? Und nicht: Welcher Anteil ist wiedererkennbar?

Puh, ergibt das wirklich so viel Sinn, Comedy auf diese Weise zu analysieren?

Würde man erst einmal nicht vermuten. Und das Verfahren stammt auch aus anderen Disziplinen, wo das eher einleuchtet. In der Genetik zum Beispiel versucht man, Übereinstimmungen in DNS- oder Proteinsequenzen zu finden. Oder, dann schon ein bisschen näher an der Kultur, in der sogenannten Musikperformanceanalyse. Dann werden etwa unterschiedliche Interpretationen eines Musikstücks verglichen, zum Beispiel: Wie vielen Dutzende Pianisten Schumanns Träumerei? So kann man verstehen, welche Timing-Entscheidungen persönlicher Stil sind und welche durch das Stück selbst erzwungen werden. Wenn alle Pianisten an einer bestimmten Stelle eine Pause machen, liegt das wohl an irgendetwas, was der Komponist gemacht hat.

Ok, ich erkenne die Analogie. Aber es gibt ja in Comedy keinen “Komponisten”, der einen Witz schreibt, den andere dann nachspielen!

Beim Musikstück hat man Noten, der Dirigent hat seine Partitur als Referenz. Bei Comedy gibt es keine Partitur – das Matching-Verfahren erzeugt nun so etwas in der Art. Eine Partitur für ein Comedyset. Aber eben im Nachhinein und sehr viel flüchtiger. Es ist eher eine Ausgrabung und Rekonstruktion einer unbekannten Struktur. Aber der Vergleich ist im Grunde nicht so verkehrt: TAMS macht sichtbar, wo die “Pflichtpassagen” eines Sets liegen und wo eher Freiheit oder Anarchie herrschen.

Du sagst, es wurden nur zwei Comedians untersucht?

Genau, zwei anonyme britische Comedians, in jeweils fünf Shows aus den Jahren 2017 und 2018. Comedian A ist etabliert und spielt eine konstante Tourneeshow. Comedian B ist eher aufstrebend und entwickelt eine Show über mehrere Monate.

Und was für Beobachtungen haben die Forscher mit TAMS gemacht?

60 Prozent einer Show variieren, darüber ging es oben schon. Auch interessant: Bei einer “Trockenübung” im Studio ohne Publikum kollabierte das Timing eines Comedians komplett. Es wurde offensichtlich, wie sehr der Künstler auf das Publikum angewiesen war. Außerdem interpretierten die Forscher:innen ihre Ergebnisse so, dass neues Material organisch um funktionierende Kerne anwächst, also die Comedians einen neuen, zu testenden Joke nicht in ein Sandwich funktionierender Witze packen. Außerdem orientieren sich, wie vermutet wird, die Comedians stärker an ihren Pausen als am Lachen des Publikums. Das sind alles aber schon Interpretationen der Visualisierungen. Am besten macht man sich selbst ein Bild.

Aber das weiß ich doch schon alles…?

Ja, der Korpus ist mit zwei Comedians etwas dünn. Aber es ging eben zunächst mal darum, TAMS überhaupt erst vorzustellen. Es ist ein Werkzeug, das sichtbar macht, an welchen Stellen einer Show ein Comedian immer dasselbe sagt, wie diese Stellen zeitlich verteilt sind, wie veränderbar die Struktur ist, wo Improvisation systematisch eingebaut wird, welche Passagen besonders eng getaktet sind. Und das wusstest du alles nicht. Es geht darum, Dinge sichtbar zu machen, von denen wir vielleicht wissen, dass sie wahr sind, die wir aber bislang vielleicht nur gefühlt haben.

Hat die Studie auch Schwächen?

Die kleine Stichprobe macht es schwer, überhaupt Hypothesen über die unterschiedlichen Teppich aufzustellen. Die analysierten Shows von Comedian B (der noch nicht etablierte) liegen zeitlich weit auseinander, die von Comedian A folgen schnell aufeinander. Wenn man nur die Shows betrachtet, die kurz aufeinander folgen, sehen die Profile der beiden Comedians fast gleich aus. Da ist blöd, dass die Forscher den Unterschied zunächst durch die unterschiedliche Erfahrung und Expertise erklären. Und dass im Studio das Timing kollabierte, hatte ich oben erwähnt – aber da weisen die Autor:innen auch darauf hin, dass das daran liegen könnte, dass das Studio-Setting für den Kollegen einfach zu ungewohnt war.

Das heißt, die Interpretation der Analyse ist immer noch die Hauptschwierigkeit?

Genau. Die Methode erkennt ein Muster – das ist die Leistung. Aber das Muster erklärt sich nicht selbst.

Da steht auch etwas davon, dass die Arbeit gegen Witzklau durch Künstliche Intelligenz helfen soll. Bitte was?

Ja, das steht im “Significance Statement”, in dem sich Autor:innen meist gegenüber Förderern und Drittmittelgebern rechtfertigen müssen, wie unglaublich relevant ihre eigene Forschung ist. Da schreibt man natürlich nicht “Wir wissen selber nicht genau, was herauskommt, aber wir mögen Comedy”, sondern in der heutigen Zeit natürlich irgendwas mit KI. Was treibt Comedians oft um? Jokeklau? Jokeklau durch KI?! Bingo! Aber im Ernst: Theoretisch wollen die Autor:innen darauf hinaus, dass man bei einem KI-generierten Witz durch TAMS erkennen können soll, dass sich die KI an bestimmten spezifischen Strukturmustern bedient hat, die eindeutig auf Comedian XY zurückzuführen sind. Aber die Arbeit zeigt ja erst einmal nur: Timing-Muster sind visualisierbar. Sie sagt nichts darüber aus, ob diese Muster individuell genug für eine Identifikation sind, ob eine KI sie ohne Plagiat reproduzieren könnte oder wie ein Rechtsrahmen aussehen würde.

Jokeklau durch KIs? Is it really a thing?

Wir spekulieren hier natürlich nur, aber ich denke nicht. Oder noch nicht, wer weiß. Paradox ist, dass man auch gegenteilig argumentieren könnte, dass TAMS den Witzklau durch KI erst möglich macht. TAMS kartiert ja den Teil einer Show (die 40 Prozent Wiederholung), der am leichtesten reproduzierbar ist. Ein großer Teil einer Show besteht aus exakt wiederholten Sequenzen, also aus formelhaftem, vorhersehbarem Material. (Nicht dass das Material langweilig wäre, eher im Sinne: Kenne ich eine Show, kenne ich alle.) 40 Prozent einer Show sind so stabil, dass sie algorithmisch identifizierbar und – möglicherweise – imitieren sind. TAMS macht nicht Einzigartigkeit sichtbar, sondern Wiederholung. Der einzigartige, improvisierte Teil ist methodisch unsichtbar.

Was bleibt also von den “timing structures”?

TAMS ist eine ungewöhnliche methodische Neuerung. Es werden Strukturen sichtbar, die bisher vielleicht gefühlt wurden. Auf die umfassenden Langzeituntersuchungen mit diesem Werkzeug darf man gespannt sein. Aber ich bin auch insoweit Romantiker, dass ich daran glauben möchte, dass wenn Kunst gut ist, ein irgendwie kleiner Rest Magie sich jeder um Erkenntnis bemühten Betrachtung widersetzt. Feuilletonistische Kritik über Stand-up wird immer ihren Platz haben.

Und Timing ist jetzt was?

Nichts mystisches. Sondern komplexe, nachweisbare Strukturen.

Und wie funktionieren die?

Hm.

Ein Kommentar

DirkNB

5. März 2026

Mein liebstes Beispiel zum Thema Timing ist eine Preisverleihung im Rahmen einer Folge von RTL Samstag Nacht. Rüdiger Hoffmann wurde mit einem Preis geehrt, ich weiß leider nicht mehr, wer aus dem Team der Gratulant war. Auf die Frage, welcher seiner Eigenschaften er seinen großen Erfolg verdankt, entsteht eine gefühlt 30 Sekunden lange Pause, in der RH überlegt und der SN-Cast sinnlos in der Gegend rumguckt. Plötzlich sagt RH: „Meine Spontanität.“ 🙂 [nacherzählt vermutlich nicht ganz so lustig wie „live“ (also damals beim gucken)]

Antworten

Die DNS der Stand-up-Comedy