Kundenauswahl
Wir bei Yext wählen unsere Kunden sorgfältig aus, was das Risiko für die Einspeisung ethisch fragwürdiger Inhalte in die KI erheblich reduziert. Wir veröffentlichen keine von Endnutzern generierten Inhalte, die auf Social-Media-Websites (z. B. Facebook oder Twitter) gefunden werden können und oft ethisch problematisch sind. Zwar müssen unsere KI-Modelle in der Lage sein, auf Eingaben von Endverbrauchern zu reagieren, aber unser Input für diese Modelle stammt von seriösen Unternehmen, die keine ethisch bedenklichen Inhalte produzieren.
Charakteristika der Trainingsdaten
Es ist wichtig zu verstehen, dass nicht alle Bereiche der Sprache gleichermaßen anfällig für Befangenheiten, vor allem für Befangenheiten ethischer Natur (d. h. Voreingenommenheiten im Zusammenhang mit Faktoren wie Geschlecht, ethnischer Herkunft oder Alter) sind. Bei der überwiegenden Mehrheit der Daten, die wir bei Yext annotieren und für maschinelles Lernen (ML) verwenden, handelt es sich um konkrete, verifizierbare und spezifische Informationen über Unternehmen und Institutionen, die von diesen Organisationen selbst bereitgestellt werden (online auf ihrer eigenen Webseite oder in Form von digitalisierter interner Dokumentation).
Im Gegensatz zur allgemeinen Benutzersuche, die im Web über sämtliche verfügbare Ressourcen stattfindet, also über Tools wie die Google-Suche oder Bing, agiert Yext in der Domäne der Unternehmenssuche, d. h. der Suche ausschließlich innerhalb eines bestimmten Unternehmens/einer bestimmten Institution und deren Wissensdatenbank. Angesichts dieser einzigartigen Geschäftsausrichtung von Yext sind ethisch aufgeladene Themen oder Konzepte in den Materialien, die für das KI-Training verwendet werden, die Ausnahme. Daher ist es höchst unwahrscheinlich, dass eine bestimmte Annotation durch Befangenheiten in die eine oder andere Richtung beeinflusst wird. Die Annotatoren sind stets angehalten, sich an einer in den Labeling-Richtlinien ausgewiesenen, externen „Quelle der objektiven Wahrheit“ auszurichten. Bei Unklarheiten haben Mitarbeiter die Möglichkeit, eine bestimmte Labeling-Aufgabe an ihren Manager weiterzuleiten, der ihnen sowohl aus sprachlicher als auch aus inhaltlicher Sicht Rat gibt und bei Bedarf weitere Fachleute hinzuzieht.
Zudem trainieren unsere Datenwissenschaftler die maschinellen Lernalgorithmen stets auf Basis ausreichend großer Datenvolumen, die repräsentativ für die Szenarien sind, für welche der Algorithmus bereitgestellt werden soll. Auf diese Weise verhindern wir, dass die statistische Mustererkennung, mittels derer die KI-Algorithmen erzeugt werden, durch Ungenauigkeiten oder Vorurteile verzerrt wird.
Datenauswahl
Der Großteil der Annotationsaufgaben beginnt mit der Erfassung von Datensätzen aus Suchprotokollen. Bei der Erstellung eines zu annotierenden Datenkorpus wird darauf geachtet, dass nicht mehr als 40 % der Daten von einem einzelnen Kunden stammen und mindestens vier Kunden im Datensatz vertreten sind – es sei denn, es gibt einen guten Grund, der für eine andere Vorgehensweise spricht (z. B. wenn es um das Training eines kundenspezifischen Modells geht).
Labeling-Verfahren und Überprüfungsmechanismen
Damit für die annotierten Daten die höchstmögliche Qualität gewährleistet werden kann, müssen für jede Labeling-Aufgabe klare schriftliche Annotationsrichtlinien vorliegen, die die Projektziele widerspiegeln und detailliert erläutern, welche Labels auf welche Weise verwendet werden sollen. Diese Leitlinien sind das Ergebnis der Zusammenarbeit eines Linguistikexperten/Data-Labeling-Managers, eines Datenwissenschaftlers und eines Produktmanagers.
Jedes Labeling-Projekt wird zunächst an einer kleinen Datenmenge getestet, um Feedback für eine konkretere Ausarbeitung der Richtlinien zu erhalten. Danach wird das Labeling-Projekt an die Annotatoren weitergegeben, die in ständigem Kontakt mit dem Labeling-Manager stehen. Die Aufgabe des Managers ist es, alle Probleme, Mehrdeutigkeiten oder Unklarheiten, die von den Annotatoren während des gesamten Prozesses angemerkt werden, zu beseitigen und die angewandten Lösungen in den Labeling-Richtlinien festzuhalten, damit sie auch in Zukunft konsequent eingesetzt werden können.
Kennzeichnung problematischer Daten als beschädigt
Im Rahmen der Umsetzung der vier oben genannten ethischen Hauptziele werden die Annotatoren angewiesen, alle Anfragen und/oder Antworten, die vulgären, obszönen oder ethisch fragwürdigen Inhalt enthalten, als beschädigt zu markieren. Daten mit diesem Tag werden aus dem KI-Training ausgenommen. Dasselbe gilt für Wortfolgen, die personenbezogene (PII) oder anderweitig beschädigte Daten (die bedeutungslos oder irrelevant für den jeweiligen Geschäftsbereich sind) enthalten.
Konsens zwischen mehreren Annotatoren
Um die Auswirkungen unerwünschter Voreingenommenheiten zu vermeiden, wird der Großteil der Daten, die für das Training des KI-Modells oder die Search-Performance-Analyse verwendet werden, von mindestens zwei Annotatoren bearbeitet. Besteht bezüglich des gewählten Labels Uneinigkeit, wird die Aufgabe zur „Klärung von Uneinigkeiten“ an einen weiteren Annotator weitergeleitet, der von beiden Labels das geeignetere auswählt. Bei Zweifeln darüber, welches Label das passende ist, wird die Aufgabe an den Labeling-Manager übergeben, der die optimale Lösung mit allen am Prozess beteiligten Annotatoren erörtert. Kann keine Einigung erzielt werden (was nur selten geschieht), wird der Datenpunkt verworfen.
Abschließende Überprüfung
Als zusätzlichen Schutz vor Verzerrungen und unerwünschten Fehlern, die die Qualität der annotierten Daten beeinträchtigen könnten, werden die meisten Labels, die während des primären Annotationsprozesses zugewiesen wurden, von erfahreneren Annotatoren manuell überprüft*. Die systematische Implementierung des Überprüfungsprozesses ist seit März 2022 möglich, seitdem Yext in die Unternehmensversion von Label Studio investiert hat. Dabei handelt es sich um eine hochmoderne Labeling-Software für großangelegte Annotationsprozesse, über die derzeit alle unsere Labeling-Aufgaben stattfinden.