Skip to content
Alle Beiträge

Omnimodalität — Wenn LLMs mehr als nur Text verstehen

Omnimodalität in der KI

Large Language Models (LLMs) können längst nicht mehr nur mit Text umgehen. Sie lernen zunehmend, auch andere Arten von Daten zu verstehen und zu erzeugen, zum Beispiel Bilder, Ton oder Videos. Dabei spricht man von verschiedenen „Modalitäten“. 

Diese Entwicklung ist nur logisch: Wir Menschen nehmen unsere Umwelt ja auch über viele Sinne gleichzeitig wahr. Wir lesen, interpretieren Grafiken, sehen Bilder, hören Geräusche oder Worte — und wir können genauso gut sprechen, schreiben oder zeichnen. 

Früher konnten LLMs nur Texte lesen und schreiben. Sie konnten aber zum Beispiel keine Bildinhalte erkennen oder das Hundegebell in einer Sprachnachricht identifizieren. Das ändert sich gerade: Heute gibt es KI-Modelle, die ein Foto beschreiben, Text aus einem Bild lesen oder sogar den Sprecher in einem Meeting erkennen können. Genauso sind sie in der Lage, Bilder zu erzeugen oder einen norddeutschen Dialekt nachzuahmen. 

Warum das wichtig ist? 

Ganz einfach: Je mehr Modalitäten eine KI versteht, desto mehr kann sie. Denn sie hat Zugriff auf deutlich mehr Daten. Ein reines Textmodell kann zum Beispiel nur mit Artikeln, Büchern oder Chats trainiert werden. Ein multimodales Modell dagegen kann auch Videos, Serien oder Podcasts nutzen. So lernt es deutlich mehr — und oft auch auf eine Art, die mehr der menschlichen Wahrnehmung ähnelt. 

Ein Beispiel: Stell dir vor, du lässt ein Glas fallen. Du siehst es fallen, hörst es zerspringen und weißt, dass die Scherben wehtun können. Eine multimodale KI könnte in Zukunft genau solche Zusammenhänge ebenfalls lernen: Wie verhält sich ein Glas beim Fallen? Wie klingt es beim Aufprall? Was passiert danach? 

Und was ist mit Riechen oder Schmecken? 

Wir Menschen können sogar noch mehr: riechen, schmecken, tasten. Doch diese Sinne sind für KI heute noch schwerer zu erfassen. Im Internet gibt es kaum Daten dazu — und Computer sind bisher nicht dafür gebaut, solche Eindrücke aufzunehmen und zu verarbeiten. 

Aber auch hier gibt es spannende Ideen: Künftig könnten KIs in Robotern stecken, die sich in unserer Welt bewegen. Diese Roboter würden ihre Umgebung direkt „erleben“ — sehen, hören, fühlen — und daraus lernen. Diese Forschungsrichtung nennt man im Übrigen „Embodied AI“. 

Wie nah das schon an menschliches Denken herankommt? Und wie lange es noch dauert, bis das so verbreitet ist wie ChatGPT? Gute Frage — aber es bleibt spannend.

Dr. Konstantin Kobs
konstantin.kobs@anacision.de
Konstantin Kobs 2