Yext präsentiert Forschung zur „Knowledge Injection“ mit großen Sprachmodellen

Auf der Extended Semantic Web Conference 2023 präsentierte Yext einen Vortrag über die Verwendung der Yext-Plattform für Knowledge Injection zur Generierung von Bewertungsantworten mithilfe von großen Sprachmodellen (Large Language Models, LLMs).

By -

Juli 27, 2023

6 min

Im Mai präsentierte Yext auf der Extended Semantic Web Conference (ESWC) 2023 einen Vortrag zum Thema „Knowledge Injection with Large Language Models (LLMs)“. Das Whitepaper „Knowledge Injection to Counter Large Language Model (LLM) Hallucination“, das von den Yext-Datenwissenschaftlern Ariana Martino, Michael Iannelli und Coleen Truong, Senior Data Analyst bei Yext, verfasst wurde, ist die zweite veröffentlichte und von Experten evaluierte Forschungsarbeit der Forschungs- und Entwicklungsabteilung von Yext. In diesem Artikel werden die Ergebnisse der Verwendung von verwandten Entitätsdaten aus Yext Content mit LLMs für die automatische Generierung von Bewertungsantworten untersucht. Diese Forschungsarbeit trug zur Entwicklung der Funktion der Inhaltsgenerierung für die Beantwortung von Bewertungen bei, die Teil des Sommer-Release 2023 ist.

Lesen Sie weiter, um die wichtigsten Erkenntnisse aus dem Whitepaper zu erfahren.

Abschnitt 1: Yext-Plattform und -Branche

Unsere Forschungsarbeit entstand aus einer von Yext durchgeführten Studie, die zeigte, wie sich die Beantwortung von Online-Bewertungen auf den Ruf von Unternehmen auswirken kann. Unternehmen, die auf mindestens 50 % der Bewertungen reagieren, erhalten im Durchschnitt eine um 0,35 Sterne höhere Bewertung.* Dadurch wird der Ruf eines Unternehmens online verbessert – insbesondere in den Suchergebnissen. Frühere Untersuchungen haben zudem gezeigt, dass die Beantwortung von 60-80 % der Bewertungen optimal ist.** Je nach dem Bewertungsvolumen eines Unternehmens kann dieser manuelle Prozess der Überprüfung und Inhaltserstellung mehrere Stunden oder sogar Tage der Arbeitszeit einer Vollzeitkraft beanspruchen. So wollten wir herausfinden, ob wir die aufstrebende Technologie der LLMs nutzen können, um den Prozess der Beantwortung von Bewertungen für Unternehmen durch unsere Reviews-Plattform zu automatisieren und zu optimieren.

Ein LLM bzw. großes Sprachmodell ist ein KI-Algorithmus, der auf großen Datensätzen trainiert wird und eine Vielzahl von Aufgaben zur Verarbeitung natürlicher Sprache ausführen kann, so z. B. die Generierung von Text oder die Beantwortung von Fragen in einer dialogorientierten Art und Weise. (Wenn Sie schon einmal mit Jasper oder ChatGPT experimentiert haben, wissen Sie das wahrscheinlich bereits.) LLMs werden bereits in anderen Abschnitten der Yext-Plattform eingesetzt, beispielsweise in den Funktionen Chat und Content Generation. Wir wollten herausfinden, ob KI und LLMs auch für Reviews verwendet werden können.

Die Grundlage unserer Forschung ist Yext Content, das auf der Wissensgraph-Technologie basiert, in der von der Marke freigegebene Informationen gespeichert werden. Yext Content zeichnet sich durch vier Hauptmerkmale aus:

1. Beibehaltung eines flexiblen Schemas

Content ermöglicht die Anpassung der Plattform an die Anforderungen und die betriebliche Struktur jedes einzelnen Unternehmens. So würde zum Beispiel ein Gesundheitssystem Entitätstypen benötigen, die medizinische Fachkräfte, Krankenhausstandorte, medizinische Spezialgebiete und Artikel zum Thema Gesundheit widerspiegeln. Dagegen würde ein Restaurant Speisekarten, Filialstandorte und besondere Veranstaltungen verwenden. Das KG-Schema kann im Laufe der Zeit auch geändert werden, um es an die sich entwickelnden Geschäftsanforderungen und -strukturen anzupassen.

2. Definiert Beziehungen zwischen Entitäten

Content bietet auch Definitionen zu den Beziehungen einzelner Entitäten untereinander. Zum Beispiel: Doktor A arbeitet in der Praxis am Union Square. Diese zusätzliche Information liefert dem LLM einen wichtigen Kontext, um die Beziehungsstruktur zwischen zwei Objekten zu verstehen.

3. Enthält bi-direktionale Beziehungsverbindungen

Basierend auf der Graphtechnologie kann Content bi-direktionale Verbindungen erstellen. Beispielsweise könnte ein Arzt in der Praxis am Union Square arbeiten. Über dieselbe Beziehungsverbindung können wir ableiten, dass in der Praxis am Union Square der Arzt A arbeitet. Diese zusätzliche Kontextebene bietet eine Fülle von Informationen, um komplexe Verbindungen zwischen Entitäten herzustellen.

Diese Verbindungen gehen über die in Content hinzugefügten Entitäten hinaus und erstrecken sich auf Daten, die über unsere anderen Produktlinien wie Reviews, Pages, Search und Chat an die Yext-Plattform zurückgegeben werden. Speziell für Bewertungen werden die Bewertungsdaten von allen verfügbaren Publishern für jede einzelne Entität zusammengefasst und in die Yext Review Monitoring-Plattform zurückgegeben. Diese Inhalte können dann von einem Mitarbeiter der Marke überprüft werden, um manuell eine angemessene Antwort auf die Bewertung zu erstellen, die dann an die Website des Drittanbieters zurückgesendet wird.

4. Multi-Hop-Beziehungen

Durch die Verknüpfungen zwischen Entitäten können wir mit Zuversicht relationale Verknüpfungen zwischen Entitäten herstellen, die nicht direkt miteinander verbunden sind. Wenn es zum Beispiel einen Arzt gibt, der auf pädiatrische Gastroenterologie spezialisiert ist, und Termine für pädiatrische Gastroenterologie nur in der Praxis am Union Square vergeben werden, wissen wir, dass der Arzt in der Praxis am Union Square arbeitet.

Hypothese

Unsere Hypothese war, dass die Aufnahme von Informationen zu verwandten Entitäten in den Eingabeaufforderungstext zu einer generierten Antwort mit den relevanten Geschäftsinformationen führen würde. Wir haben Knowledge Injection als das Einfügen von Informationen über verwandte Entitäten in den Eingabeaufforderungstext für ein LLM definiert.

Abschnitt 2: Die Forschung

Um die generierten Antworten von LLMs zu verbessern, haben wir eine Eingabeaufforderungstechnik namens „Knowledge Injection“ entwickelt, um kontextbezogene Daten über Entitäten, die für eine Aufgabe relevant sind, aus einem Wissensgraphen in den Textraum für die Aufnahme in eine LLM-Eingabeaufforderung zu übertragen. Markenexperten prüften die Aussagen (z. B. Angabe eines Ortsnamens, Erreichbarkeit unter einer Telefonnummer oder Webadresse, Eigentümer des Markennamens oder Standort an der Adresse des Ortes) innerhalb einer generierten Antwort auf Richtigkeit. Zusätzlich wurden die generierten Antworten auf ihre Gesamtqualität bewertet, um die Übereinstimmung mit den Markenstandards für Bewertungsantworten zu beurteilen.

Experiment 1:

Um zu testen, ob die Verwendung von Knowledge Injection die Halluzinationen in generierten Antworten reduziert, haben wir bloom-560m auf Paarungen von Bewertungsantworten als Datensatz für unsere Kontrollgruppe trainiert. Anschließend haben wir das Modell mit Eingabeaufforderungen, die Informationen zu verwandten Entitäten enthielten, mit diesen Paarungen in bloom-560m für ein KI-gestütztes LLM erneut ausgeführt.***

Markenexperten überprüften dann die Modellausgabe zu verwandten Entitätsdaten in Yext Content und kennzeichneten die Aussagen in jeder generierten Antwort anhand der folgenden Kriterien:

Falsche Aussage (halluziniert): Unwahre Informationen, denen der Wissensgraph widerspricht, wie z. B. die Anweisung an Kunden, eine fiktive Telefonnummer anzurufen Korrekte Aussage: Aussagen, die nicht anderweitig als falsch gekennzeichnet sind

In diesem Experiment haben wir festgestellt, dass die Verwendung von Knowledge Injection zu weniger Halluzinationen führte und die Anzahl der korrekten Aussagen in den generierten Antworten um 205 % erhöhte.

Experiment 2:

Um zu testen, ob die Verwendung von Knowledge Injection die Gesamtqualität der generierten Antworten auf einem kleineren Basismodell verbessert, haben wir ein Experiment durchgeführt, in dem wir die generierten Antworten von OpenAI text-davinci-003 und bloom-560m verglichen haben, die mit KI optimiert wurden. Zu beachten ist, dass OpenAI text-davinci-003 fast 300 Mal so viele Parameter bzw. Knoten im neuronalen Netzwerk wie bloom-560m hat.****

Markenexperten bewerteten dann die generierten Antworten auf einer Skala von 1 (schlecht) bis 3 (hervorragend) auf der Grundlage einer Vielzahl von qualitativen Faktoren, die von den Markenexperten als relevant eingestuft wurden.

In diesem Experiment haben wir festgestellt, dass die Verwendung von Knowledge Injection bei kleineren Basismodellen zu qualitativ hochwertigeren generierten Antworten führt und größere Basismodelle ohne KI übertrifft.

Beide Experimente zeigen, dass KI für Aufgaben in Unternehmen wie beispielsweise die Beantwortung von Bewertungen nützlich ist, die bei menschlicher Bearbeitung manuell und kostspielig sind, aber einen sachlichen Kontext über das Unternehmen erfordern, um einen vertrauenswürdigen Text zu generieren. KI hilft den Modellen dabei, die generierten Antworten mit den Markenstandards des Unternehmens in Einklang zu bringen. Die Feinabstimmung mit KI könnte Unternehmen zu Kosteneinsparungen verhelfen, indem sie ein kleineres Modell trainieren und hosten, während sie gleichzeitig qualitativ hochwertigere Antworten erzeugen und die Geschwindigkeit der Ableitung verbessern. KI benötigt einen gut gefüllten und faktenbasierten Wissensgraphen, um qualitativ hochwertige LLM-Eingabeaufforderungen zu erstellen. Vor diesem Hintergrund ist die kontinuierliche Aktualisierung von Inhalten der Schlüssel zur effektiven Nutzung von KI für die automatisierte Beantwortung von Bewertungen und LLM-basierte Aktivitäten in Unternehmen.

Abschnitt 3: Präsentation bei der ESWC

Die Co-Autorinnen Ariana Martino (Data Scientist, Data Science) und Coleen Truong (Data Strategist, Data Insights) vertraten Yext auf der ESWC und präsentierten die Forschungsergebnisse. Die Präsentation wurde von Forscherkollegen und Datenwissenschaftlern aus der ganzen Welt und einer Vielzahl von Unternehmen positiv aufgenommen und war eine der am besten besuchten Präsentationen der Konferenz.

Weitere Einzelheiten zu unserer LLM-Forschung finden Sie in der ausführlichen Studie, die über die Website der ESWC verfügbar ist. Zudem sollten Sie sich dieses Video ansehen, in dem die Ergebnisse erläutert werden.

*Yext-Studie (2020)

**Chamberlain, L.: How Responding To Online Reviews Affects Your Business Reputation (2019).

*** Scao, T.L., et al.: Bloom: A 176b-parameter open-access multilingual language model (2022). https://doi.org/10.48550/ARXIV.2211.05100, https://arxiv.org/abs/2211.05100

****Sharir, O., Peleg, B., Shoham, Y.: The cost of training nlp models: A concise overview. arXiv preprint arXiv:2004.08900 (2020)

Share this Article