TL;DR: Bei der multimodalen Suche können Kund*innen Text, Sprache, Bilder oder Videos (oft zusammen) verwenden, um das zu finden, wonach sie suchen (anstatt nur Stichwörter einzugeben). Dieser neue Ansatz bei der Suche verändert die Art und Weise, wie und wo Marken entdeckt werden, da die Kund*innen nun zwischen Geräten und Suchmodi wechseln, während sie nach Waren und Dienstleistungen suchen.
Knowledge Center
Multimodale Suche
Multimodale Suche
Was ist multimodale Suche und wie verändert sie die Art und Weise, wie die Kund*innen Marken finden? Erfahren Sie außerdem Strategien, um bei der multimodalen Suche gefunden zu werden.
Was ist multimodale Suche?
Multimodale Suche bezieht sich auf die Fähigkeit der Kund*innen, mit Suchmaschinen und KI-Tools zu interagieren, indem sie „mehrere" Typen oder „Modi" der Eingabe verwenden, manchmal Text-, Sprach-, Bild- und Videomodi in einer Suche kombinierend.
Die multimodale Suche stellt eine grundlegende Abkehr von der traditionellen Suche dar und verändert, wie, wo und wann die Entdeckung stattfindet. Da die Suche nicht mehr auf ein einziges Gerät oder einen einzigen Modus beschränkt ist („Frag Alexa" oder Google-Stichwortsuche), verändert die Umstellung auf die multimodale Suche auch die Art und Weise, wie Marken auftreten müssen, um in der KI-Suche entdeckt zu werden.
Warum ist die multimodale Suche so wichtig?
Die multimodale Suche verbindet Eingabe und Absicht. Kund*innen können Siri befragen, mit Google Lens ein Foto aufnehmen oder mithilfe eines Videos nach Claude suchen – alles, bevor sie überhaupt auf einen Link klicken. Diese neue Reise zwingt Marketingfachkräfte zu einem Umdenken in Bezug auf Attribution, Optimierung und Content-Strategie: Es gibt kein Zurück zu isolierten, textbasierten Suchanfragen oder zum Durchforsten der blauen Links von Google.
Beispiel für eine multimodale Suche
Ein Mann stellt fest, dass er sonnenbedingte Hautschäden im Gesicht und an den Armen hat, und überlegt, wie er seine Haut besser pflegen kann. Er führt eine multimodale Suche durch, indem er eine visuelle Suche mit hochgeladenen Fotos, eine textbasierte Websuche und Sprachanfragen kombiniert, während er zwischen den Apps auf seinem Handy, seinem Laptop und seinem Sprachassistenten wechselt.
So sieht eine multimodale Suche aus:
Gerät: Handy / Modus: Sprache
Er öffnet seine Google-App und führt eine Sprachsuche nach „beste Sonnencreme für Männer mit empfindlicher Haut und Sonnenschäden 2025" durch und findet in einem Artikel von Men's Health ein Produkt, das er ausprobieren möchte. Er kopiert den Link in seine Notizen-App.
Gerät: Handy / Modus: Text
Er gerät auch in ein Reddit-Rabbithole, weil er mit „beste Gesichtsseren für Männer 2025" anfängt, sich dann mehr YouTube-Hautpflegevideos ansieht, als er zugeben möchte, und entdeckt, dass er online eine Hautpflegeanalyse bekommen kann, also …
Gerät: Handy / Modus: Bild
Er macht klare, gut beleuchtete Fotos von seinem Gesicht und seinen Unterarmen, auf denen er Sonnenflecken und Probleme mit der Textur erkennt. Dann lädt er die Bilder in KI-gestützte Hautanalysetools hoch und wird zum Kunden von Thea Care und PerfectCorp, obwohl er seine Suche nicht mit dieser Absicht begonnen hat. Diese Apps analysieren seine Fotos und empfehlen ihm auf der Grundlage der Ergebnisse gezielte Hautpflegeprodukte, die ihn zu seiner ursprünglichen Absicht zurückführen, als er sich die Ergebnisse per E-Mail zusendet.
Gerät: Laptop / Modus: Text
Er nutzt ChatGPT, um die Ergebnisse und Empfehlungen in den erhaltenen Berichten zu vergleichen, und beschließt dann, sich nach einigen Produkten umzusehen und einen Termin bei einem Hautarzt zu vereinbaren.
Gerät: Amazon Alexa / Modus: Sprache
Er öffnet seine Notizen-App und fordert Alexa auf, die Bewertungen von zwei Produkten zusammenzufassen, die ihm ins Auge gefallen sind. Schließlich macht er seinen ersten Klick, legt eine der Sonnencremes in seinen Warenkorb und bestellt sie.
Seine Reise geht weiter, als er Alexa bittet, auf einer Website für die Arztsuche nach „den drei besten Dermatologen in meiner Nähe" zu suchen, die gesetzlich versicherte Patient*innen behandeln, und ihm deren Kontaktdaten zu schicken.
Er schließt diese Phase seiner Suche mit einer Sprachnotiz ab, in der er um eine Erinnerung bittet, die Recherche nach Dermatologen morgen abzuschließen.
Wie werden Marken in der multimodalen Suche entdeckt?
Da die multimodale Suche immer verbreiteter wird und die KI-Suche die Kundenerwartungen und die gesamte Suchlandschaft weiter verändert, müssen Marken ihre Content-Strategie neu überdenken und eine Datenstrategie einbeziehen.
Es gibt einige wichtige Elemente der Datenstrategie, die Marken verstehen müssen, um sich an die multimodale Suche anzupassen – und das schnell:
#1 RAG-Systeme (Retrieval-Augmented Generation) machen multimodale Suchergebnisse relevant und dialogorientiert.
RAG ist wie eine KI, die bei der Beantwortung Ihrer Fragen in Echtzeit nachschlagen kann, anstatt nur zu raten oder aus dem Gedächtnis zu schöpfen (alte indizierte Seiten). RAG-Systeme durchsuchen Texte, Bilder, Videos und Audio („Welches Lied ist das, Siri?"). Die Systeme suchen nach Daten und nutzen diese Daten (oder das, was sie für Daten halten), um Fragen auf eine dialogorientierte Weise zu beantworten.
#2 Wissensgraphen helfen RAG, die Wahrheit herauszufinden, damit die Kund*innen gute Informationen erhalten.
Tools wie Wissensgraphen bieten einen Raum, um Informationen über Marken, Produkte, Anbieter*innen usw. zu organisieren und zu verknüpfen. Sie helfen der KI, über die Verbindungen zwischen allen Einträgen im Wissensgraphen „nachzudenken" und die Datenwelt des Wissensgraphen zu verstehen. Wenn er richtig verwaltet wird, liefert ein Wissensgraph faktische, markenbezogene und aktuelle Informationen an RAG-Systeme und zeigt dem RAG-System, wie die Markeninformationen zusammenpassen.
#3 Strukturierte Daten sind die Karte innerhalb eines Wissensgraphen, damit multimodale Suchergebnisse relevant bleiben.
Stellen Sie sich strukturierte Daten als eine sehr, sehr detaillierte Karte vor, welche die Welt der im Wissensgraphen vorhandenen Daten beschreibt. Strukturierte Daten sorgen dafür, dass Ihre Markeninformationen „echt" und auf dem neuesten Stand sind. Wenn die einzelnen Datenpunkte auf der Karte nicht korrekt und die Verbindungen zwischen allen Datenpunkten veraltet sind, kann der Wissensgraph nicht die richtigen Informationen mit externen Apps, Publishern, der traditionellen Suche und KI-Suchplattformen teilen.
#4 Schema-Markup funktioniert wie Beschriftungen auf der Landkarte, sodass multimodale Suchergebnisse kontextreich und für die Kund*innen ansprechend sind.
Schema Markup, oder Schema, ist eine standardisierte Reihe von Regeln und Bezeichnungen, die zur „Kennzeichnung" von Webseiten und den darin enthaltenen Daten verwendet werden. Dadurch wissen Suchmaschinen und KI-Tools genau, was jeder Teil bedeutet. Schema zeigt Dinge an wie „dies ist ein Bild" und „dies ist das Produkt, das gezeigt wird". Mithilfe dieser Bezeichnungen kann die KI den Kund*innen kontextreiche, direkte Antworten bieten, weil sie den KI-Tools helfen zu verstehen, welche Inhalte sich wo befinden, worum es geht, wie sie auf einer Website oder Webseite priorisiert sind usw.
Trotz des Standards und des seit langem anerkannten Werts von Schema für die Suchmaschinenoptimierung wird es bei der Marken-, Daten- und Inhaltsstrategie oft übersehen. Das macht Schema Markup zu einer noch wertvolleren Möglichkeit für Marken, für AAIO, AEO, ASO, GEO und LLMO zu optimieren.
Wie hat die multimodale Suche die Suche und Entdeckung verändert?
Die multimodale Suche, wie KI-Suche und KI-Agenten, ist eine Umwälzung für den Sales-Funnel. Sie entwickelt sich schnell zur Norm, da sich die Suche von einem linearen, einspurigen Prozess zu einem mehrspurigen Prozess wandelt, der Bekanntheit, Überlegung und Konversion zu einem mehrschichtigen, plattformübergreifenden Sucherlebnis verbindet.
Ebenso verändert die multimodale Suche auch die Art und Weise, wie Marken Sichtbarkeit verstehen – sie erschwert die Sichtbarkeitsstrategie:
Traditionelle SEO- und Reporting-Methoden funktionieren hier im multimodalen Suchbericht nicht.
Die Markenerkennung lässt sich nicht mehr über ein einziges Dashboard verfolgen, sondern ist über verschiedene Formate und Geräte hinweg fragmentiert.
Spracheingaben, bildbasierte Prompts und KI-Agenten umgehen den klassischen Funnel komplett.
Marketer brauchen eine moderne Strategie für die Sichtbarkeit, die nicht sichtbare Sucheingaben und eine Customer Journey berücksichtigt, die für die einzelnen Kund*innen sehr unterschiedlich ist.