Bild AI generiert by midjourney.com
Moderation ist keine Konversation
GPT3 zeigt große Exzellenz, wenn es darum geht sinnvollen Text zu generieren. Kommentar Moderation ist keine Aufgabe, wo es Text zu generieren gilt. Vielmehr ist Moderation eine Ja/Nein Entscheidung, ob ein Kommentar der Netiquette entspricht oder nicht. Dabei fehlt es oft an ausführlicher Kontextinformation und in den Graubereichen sind diese Entscheidungen durch Menschen meist sehr unscharf und oft widersprüchlich. Technisch beschrieben ist automatische Moderation ein Klassifikationsmodell. Trainiert werden solche Modelle mit verfügbaren, teilweise inkonsistenten Daten. Evaluiert werden diese Modelle dann wiederum mit anderen, teilweise inkonsistenten Daten.
Moderation durch Prompt Design
Der naheliegende Ansatz wäre, GPT3 zu fragen '"Ist dieser Kommentar akzeptabel: '...'?". Dies liefert in der Regel brauchbare Antworten und auch Begründungen (sinnvolle Textgeneration!). Aber lassen sich diese Antworten in Moderationsentscheidungen übersetzen? Nicht unbedingt. Die zuständige Completions-API von OpenAI bietet zahlreiche Möglichkeiten, die Antworten zu tunen und dem Klassifikationsfall anzunähern: (i) arbeite mit den verfügbaren Parametern der API (z.B. model, temperature) (ii) verbessere die natürlichsprachliche Beschreibung von dem, was klassifiziert werden soll (iii) nenne die Werte zwischen denen entschieden werden soll, (iv) liefere Beispiele, wenn nicht offensichtlich ist, was gemeint ist. Schließlich kann man (v) auch noch die Fine Tuning API nutzen, um eigene Modelle systematisch mit Trainingsdaten zu füttern.
Wir konnten mit keinem Prompt Design eine automatische Moderation herstellen, die auch nur entfernt einem menschlichen Moderationsverhalten entspricht. Der Ansatz neigt insgesamt stark zum "Übergenerieren". Die Konsequenz daraus – zu viele Kommentare werden abgelehnt.
Moderation durch Content Filter
Ein anderer Ansatz ist die Verwendung der OpenAI Moderations-API, welche Content gegen die OpenAI Policies prüft. Technisch handelt es sich um eine echte Multilabel Klassifikation mit Scoring. Dafür kann das Modell nicht wirklich beeinflusst werden und es gibt eine klare Schwäche für die Verwendung in deutscher Sprache.
Auch mit OpenAI Content Filtern konnte für Deutsch keine adäquate Automoderation modelliert werden. Zwar sind die Zurückweisungen selten falsch, aber (im Gegensatz zum Prompt Design) "untergeneriert" dieser Ansatz erheblich. Die Folge ist, dass viele äußerst problematische Kommentare zugelassen werden.
Fazit
Eine vollständig automatische Moderation von nutzergenerierten Kommentaren in Deutsch (bzw. mit deutschsprachigen Anteilen) ist nicht zu empfehlen. Vor allem dann, wenn das Ergebnis möglichst fehlerfrei sein soll.
Mit steigendem Kommentarvolumen und Kommentaren mit hoher Textlänge, steigen auch die Kosten für die flexible Benutzung der OpenAI-Modelle wesentlich.
Im Community Management hingegen, kann GPT3 vor allem mit seiner generativen Stärke hilfreich sein. Das beinhaltet z. B. die Klassifikation von Teilmengen im Verbund mit anderen Modellen, die prosaische Einschätzung von Kommentaren oder Antwortvorschläge.
Übrigens – genau wie von vollständiger automatischer Moderation mit GPT abzuraten ist, empfiehlt es sich ebensowenig Antwortkommentare umfassend automatisch zu generieren. Persönliche Antworten sind zu wichtig, um mittelmäßig zu sein. Eine Community, wo Bots auf andere Bots antworten, wird bald keine menschlichen Nutzer mehr haben.
Conversario nutzt GPT3 als Baustein für adaptierbare Automoderation
Conversario ist Spezialist für automatische und assistierte Kommentar Moderation und trainiert laufend auf aktuellen News und Social Media Kommentaren. Wir nutzen GPT3 als Baustein für eine smarte Moderation. Dabei werden die generativen Ergebnisse von GPT3 von aufsetzenden Domainmodellen in zuverlässigere Moderationsentscheidungen klassifiziert. Ein optimiertes Tool UI erlaubt zudem die effiziente Kontrolle der laufenden Moderation.