Clio: Ein KI-Nutzungserkennungssystem für den Schutz der Privatsphäre
Wofür werden KI-Modelle verwendet? Trotz der schnell wachsenden Beliebtheit großer Sprachmodelle haben wir bisher nicht genau verstanden, wie sie eingesetzt werden.
Das ist nicht nur eine Frage der Neugierde oder gar der soziologischen Forschung. Zu verstehen, wie Menschen Sprachmodelle tatsächlich nutzen, ist für die Sicherheit von entscheidender Bedeutung: Dienstanbieter führen vor der Bereitstellung umfangreiche Tests durch und verwenden Vertrauens- und Sicherheitssysteme, um Missbrauch zu verhindern. Die Vielfalt und der Umfang der Funktionen, die Sprachmodelle ausführen können, machen es jedoch schwierig, ihre Verwendung zu verstehen - von einer umfassenden Sicherheitsüberwachung ganz zu schweigen.
Es gibt einen weiteren Schlüsselfaktor, der einem klaren Verständnis der Nutzung von KI-Modellen im Wege steht: der Datenschutz. Bei Anthropic, unserem Claude ModellvorgabenVerwendet keine Benutzerdialogdaten für das Trainingund wir nehmen den Schutz der Nutzerdaten sehr ernst. Wie können wir also die Nutzung unserer Systeme untersuchen und beobachten und gleichzeitig die Privatsphäre der Nutzer streng schützen?
Claude insights und observations, oder kurz "Clio", ist unser Versuch, diese Frage zu beantworten. Clio ist ein automatisiertes Analysewerkzeug, das eine datenschutzkonforme Analyse der realen Nutzung des Sprachmodells ermöglicht. Ähnlich wie Google Trends gibt es uns Einblicke in die alltägliche Nutzung von claude.ai und hilft uns, unsere Sicherheitsmaßnahmen zu verbessern. In diesem Beitrag (mitVollständiges Forschungspapier), werden wir Clio und einige seiner vorläufigen Ergebnisse beschreiben.
Wie Clio funktioniert: eine groß angelegte Analyse zur Wahrung der Privatsphäre
Traditionelle Top-Down-Ansätze für die Sicherheit (z. B. Evaluierung und Red-Team-Tests) setzen voraus, dass man im Voraus weiß, wonach man suchen muss. Clio verfolgt einen anderen Ansatz und ermöglicht eine Bottom-Up-Mustererkennung, indem es Konversationen in abstrakte, leicht verständliche Themencluster zerlegt. Gleichzeitig wird die Privatsphäre der Nutzer geschützt: Die Daten werden automatisch anonymisiert und aggregiert, so dass nur die übergeordneten Cluster-Informationen für menschliche Analysten sichtbar sind.
Skizzenhaftes Beispiel für den Schritt der Clio-Analyse, illustriert anhand eines fiktiven Dialogbeispiels.
Im Folgenden finden Sie einen kurzen Überblick über das mehrstufige Clio-Verfahren:
- Eigenschaften extrahierenFür jede Konversation extrahiert Clio mehrere "Attribute" - spezifische Eigenschaften oder Metadaten, wie das Thema der Konversation, die Anzahl der Roundtrips in der Konversation oder die verwendete Sprache.
- semantisches ClusteringAutomatische Gruppierung ähnlicher Dialoge nach Themen oder allgemeinen Themen.
- Cluster BeschreibungJedes Cluster erhält einen beschreibenden Titel und eine Zusammenfassung, die gemeinsame Themen aus den Rohdaten herausdestilliert und private Informationen ausschließt.
- Aufbau einer hierarchischen StrukturDie Cluster werden in einer mehrschichtigen Struktur organisiert, die die Erkundung erleichtert. Sie können dann in einer interaktiven Schnittstelle präsentiert werden, die die Analysten von Anthropic nutzen können, um Muster in verschiedenen Dimensionen (Themen, Sprachen usw.) zu untersuchen.
Diese vier Schritte werden vollständig von Claude durchgeführt, nicht von menschlichen Analysten. Dies ist Teil des Datenschutzkonzepts von Clio, das mehrere Ebenen der "Verteidigung in der Tiefe" vorsieht. So ist Claude beispielsweise angewiesen, private Details auszuschließen, wenn er relevante Informationen aus einer Unterhaltung extrahiert. Außerdem gibt es Mindestschwellen für die Anzahl der einzelnen Nutzer oder Unterhaltungen, um sicherzustellen, dass Themen mit geringer Häufigkeit, die für eine bestimmte Person spezifisch sein können, nicht versehentlich aufgedeckt werden. Schließlich überprüft Claude, dass die Cluster-Zusammenfassungen keine übermäßig spezifischen oder identifizierbaren Informationen enthalten, bevor sie menschlichen Nutzern angezeigt werden.
Alle unsere Datenschutzmaßnahmen wurden ausgiebig getestet und sind ausführlich beschrieben unterForschungsarbeiten.
Wie Menschen Claude nutzen: Einblicke von Clio
Mit Clio konnten wir einen umfassenden Einblick in die tatsächliche Nutzung von claude.ai gewinnen. Während Menschen wie WildChat im Gesang antworten LMSYS-Chat-1M Öffentliche Datensätze wie dieser liefern nützliche Informationen über die Nutzung von Sprachmodellen durch die Menschen, aber sie erfassen nur bestimmte Kontexte und Anwendungsfälle. Clio gibt uns eine Vorstellung von der gesamten Bandbreite der Szenarien, in denen claude.ai in der realen Welt genutzt wird (die sich aufgrund der unterschiedlichen Nutzerpopulationen und Modelltypen von der Nutzung anderer KI-Systeme unterscheiden kann).
Die wichtigsten Anwendungsfälle von Claude.ai
Wir haben mit Clio 1 Million Konversationen auf claude.ai (sowohl in der kostenlosen als auch in der Pro-Version) analysiert, um die Hauptaufgaben zu identifizieren, für die die Nutzer Claude verwenden. Dabei zeigt sich, dass sich die Nutzer besonders auf programmierbezogene Aufgaben konzentrieren: Die Kategorie "Web- und mobile App-Entwicklung" macht mehr als 10% aller Konversationen aus. Softwareentwickler verwenden Claude für Aufgaben, die vom Debuggen von Code bis hin zum Erklären von Git-Vorgängen und -Konzepten reichen.
Die häufigsten Arten von Gesprächen, die Nutzer mit Claude führen, über alle Sprachen hinweg. Die Fläche des Kreises entspricht dem Prozentsatz der Gespräche; die Überschriften sind Zusammenfassungen, die von Clio nach der Analyse von 1 Million zufällig ausgewählter Gespräche erstellt wurden.
Eine weitere wichtige Kategorie ist der Bildungsbereich, auf den mehr als 7% der Gesamtzahl der Dialoge entfallen und der hauptsächlich das Lehren und Lernen umfasst. Auf den Bereich Unternehmensstrategie und -betrieb (einschließlich Aufgaben wie das Verfassen professioneller Mitteilungen und die Analyse von Geschäftsdaten) entfielen fast 6% der Dialoge.
Clio identifiziert auch Tausende kleinerer Dialog-Cluster, die die vielfältigen Verwendungsmöglichkeiten von Claude aufzeigen. Einige dieser Verwendungen mögen überraschend sein, darunter:
- Träume deuten;
- Analyse von Fußballspielen;
- Vorbereitung auf den Katastrophenfall;
- Bietet Hinweise auf Kreuzworträtsel;
- Dungeons & Dragons Spiele;
- Zähle die Buchstaben "r" im Wort "Erdbeere".
Die Verwendung von Claude variiert von Sprache zu Sprache
Die Verwendung von Claude ist in den einzelnen Sprachen sehr unterschiedlich und spiegelt die verschiedenen kulturellen Kontexte und Bedürfnisse wider. Wir haben die grundsätzliche Häufigkeit des Auftretens jeder Sprache im Gesamtdialog berechnet und daraus bestimmte Themen ermittelt, die in bestimmten Sprachen deutlich häufiger vorkamen. Einige Beispiele für Spanisch, Chinesisch und Japanisch sind unten aufgeführt.
Erkenntnisse aus Clio über Dialogthemen, die in den drei ausgewählten Sprachen häufiger vorkamen (im Verhältnis zur zugrunde liegenden Häufigkeit der jeweiligen Sprache).
Wie wir Clio zur Verbesserung unseres Sicherheitssystems eingesetzt haben
Wir trainieren nicht nur unsere Sprachmodelle, um schädliche Anfragen abzulehnen, sondern setzen auch spezielle Systeme zur Durchsetzung von Vertrauen und Sicherheit ein, um Anfragen zu erkennen, zu blockieren und zu beantworten, die möglicherweise gegen unsere Richtlinien verstoßen. Verwendungspolitik Clio hat zu dieser Arbeit beigetragen und uns geholfen zu verstehen, wo wir diese Systeme verbessern und erweitern können.
Wir haben strenge Zugangskontrollen für den Datenschutz bei der Nutzung von Clio eingeführt, um unsere Richtlinie weiter zu stärken, da dies die Überprüfung einzelner Konten erfordern kann. Unser Vertrauens- und Sicherheitsteam kann durch die Überprüfung von Themenclustern Bereiche identifizieren, die auf einen Verstoß gegen unsere Nutzungsrichtlinie hindeuten könnten. Zum Beispiel beschreibt ein Cluster mit dem Titel "Generieren von irreführenden Spenden-E-Mail-Inhalten" oder "Anstiftung zu hasserfülltem Verhalten" Aktivitäten, die wir verbieten. Unser Vertrauens- und Sicherheitsteam kann diesen Bottom-up-Überprüfungsansatz nutzen, um einzelne Konten zu identifizieren, die einer weiteren Überprüfung bedürfen und gegebenenfalls Maßnahmen in Übereinstimmung mit unseren Bedingungen und Richtlinien erfordern. Wir beschränken solche Überprüfungen strikt auf diejenigen, die einen legitimen Bedarf an Vertrauen und Sicherheit haben. Unser Forschungsarbeiten Enthält weitere Informationen über diese Prozesse.
Wir sind noch dabei, Clio auf alle unsere Exekutivsysteme auszuweiten, aber bisher hat es sich als nützlicher Teil unseres Sicherheitstools erwiesen, der uns hilft, Bereiche zu identifizieren, in denen wir unsere Schutzmaßnahmen verschärfen müssen.
Erkennen und Beenden von koordiniertem missbräuchlichem Verhalten
Clio ist äußerst effektiv bei der Erkennung von koordinierten, komplexen Missbrauchsmustern, die aus einzelnen Konversationen allein nicht zu erkennen sind und sich einfacheren Erkennungsmethoden entziehen können. Ende September entdeckten wir beispielsweise eine Reihe automatisierter Konten, die eine ähnliche Prompt-Struktur verwendeten, um Spam-Inhalte für SEO-Zwecke zu generieren. Zwar verstießen keine einzelnen Konversationen gegen unsere VerwendungspolitikWir haben diese Gruppe von Konten entfernt, aber das Verhaltensmuster zwischen den Konten zeigte eine Form des koordinierten Plattformmissbrauchs, den unsere Richtlinie ausdrücklich untersagt. Wir haben Clio auch genutzt, um andere Konten zu identifizieren, die von unseren Verwendungspolitik Verbotene Aktivitäten, wie z. B. der Versuch, den unbefugten Zugang zu Claude weiterzuverkaufen.
Verstärkte Überwachung von Hochrisikoereignissen
Clio hilft uns auch bei der Überwachung neuer Nutzungsmuster und potenzieller Risiken in Zeiten der Unsicherheit oder bei risikoreichen Ereignissen. Zum Beispiel während der Einführung unseres neuen Computereinsatz Vor der Einführung der Funktion haben wir umfangreiche Sicherheitstests mit Clio durchgeführt, um neue Funktionen und Gefahren zu erkennen, die möglicherweise übersehen wurden. Clio hat uns zusätzliche Sicherheitstests und Erkenntnisse geliefert, die uns helfen werden, unsere Sicherheitsmaßnahmen bei der Einführung der Funktion und in künftigen Versionen des Systems kontinuierlich zu verbessern.
Clio hilft uns auch bei der Überwachung unbekannter Risiken im Vorfeld großer öffentlicher Ereignisse, wie z. B. Wahlen oder wichtiger internationaler Ereignisse. In den Monaten vor den US-Wahlen 2024 werden wirClio verwenden Die Fähigkeit von Clio, unbekannte Unbekannte" aufzuspüren, ergänzt unsere proaktiven Sicherheitsmaßnahmen und hilft uns, schnell auf neue Herausforderungen zu reagieren, indem es Aktivitätscluster im Zusammenhang mit politischen, Wahl- und verwandten Themen in den USA identifiziert und mögliche Risiken oder Missbrauch verhindert.
Verringerung von falsch-negativen und falsch-positiven Ergebnissen
In der Regel stimmen Clio und unsere bestehenden Vertrauens- und Sicherheitsklassifikatoren bei der Risikobestimmung von Sitzungsclustern überein. Allerdings gibt es bei bestimmten Clustern Unstimmigkeiten. Eine Verbesserungsmöglichkeit besteht darin, falsch negative Ergebnisse zu reduzieren (d. h. das System kennzeichnet Sitzungen, die tatsächlich schädlich sein könnten, nicht als potenziell schädliche Inhalte). Wenn beispielsweise ein Nutzer Claude bittet, von einer Sprache in eine andere zu übersetzen, versäumt es unser System manchmal, den anstößigen Inhalt zu kennzeichnen, und Clio erkennt diese Sitzungen.
Das Streudiagramm zeigt Sitzungscluster (ein Punkt steht für ein Cluster) und das Ausmaß, in dem sie vom Trust & Safety Classifier (x-Achse) und von Clio (y-Achse) als riskant eingestuft werden. In der oberen linken Ecke befinden sich Cluster, die vom Trust & Safety Classifier als riskant unterschätzt werden könnten: Falsch-Negative, die besorgniserregende Inhalte enthalten, aber nicht als solche gekennzeichnet sind. In der unteren rechten Ecke befinden sich Cluster, die möglicherweise zu hoch eingestuft werden: Falsch-Positive, die möglicherweise keine besorgniserregenden Inhalte enthalten. Die Gesamtkorrelation zwischen dem Trust & Safety Classifier und der Clio-Klassifizierung beträgt r = 0,71, was auf eine hohe Gesamtübereinstimmung zwischen den beiden hinweist.
Wir verwenden Clio auch, um falsch positive Ergebnisse zu untersuchen, eine weitere häufige Herausforderung bei der Entwicklung von Vertrauens- und Sicherheitsklassifizierern, bei denen der Klassifizierer harmlose Inhalte fälschlicherweise als schädlich einstuft. So werden zum Beispiel Sitzungen, in denen Arbeitssuchende um Ratschläge für ihren Lebenslauf bitten, manchmal fälschlicherweise als persönliche Informationen eingestuft. Programmierprobleme im Zusammenhang mit Sicherheit, Netzwerken oder Web-Crawling werden manchmal fälschlicherweise als potenzieller Hacking-Inhalt eingestuft. Selbst die oben genannten Dungeons & Dragons In-Game-Sitzungen über Kampfstatistiken können auch unser Gefahrenerkennungssystem auslösen. Wir setzen Clio ein, um diese Fehlalarme hervorzuheben, damit unser Sicherheitssystem nur bei Inhalten ausgelöst wird, die gegen unsere Richtlinien verstoßen, und gleichzeitig der Eingriff in die rechtmäßige Nutzung durch den Nutzer auf ein Minimum beschränkt wird.
Ethische Erwägungen und Abhilfemaßnahmen
Clio bietet wertvolle Einblicke in die Verbesserung der Sicherheit von großen Sprachmodellen, die eingesetzt werden. Allerdings warf es während seiner Entwicklung auch einige wichtige ethische Überlegungen auf, die wir bewertet und entsprechend umgesetzt haben:
- Falsch positive Ergebnisse: Im Zusammenhang mit Vertrauen und Sicherheit haben wir wichtige Sicherheitsvorkehrungen gegen potenzielle Fehlalarme getroffen. So verwenden wir die Ausgabe von Clio derzeit nicht für die automatische Durchführung von Maßnahmen und haben seine Leistung unter verschiedenen Datenverteilungen umfassend validiert, einschließlich der in unserem Papier beschriebenen mehrsprachigen Tests.
- Clios Risiko des Missbrauchs: Systeme wie Clio können in unangemessener Weise zu Überwachungszwecken eingesetzt werden. Neben strengen Zugangskontrollen und Datenschutztechniken verringern wir dieses Risiko durch eine strikte Politik der Datenminimierung und -aufbewahrung: Wir erheben und bewahren nur das Minimum an Daten auf, das für Clio erforderlich ist.
- Privatsphäre der Benutzer: Obwohl Clio in unseren Datenschutzbewertungen gut abschneidet, können wie bei jedem realen Datenschutzsystem bestimmte Arten von privaten Informationen unerkannt bleiben. Um dieses potenzielle Risiko zu mindern, überprüfen wir regelmäßig den Datenschutz und die Bewertungen von Clio, um sicherzustellen, dass die Schutzmaßnahmen den Erwartungen entsprechen. Im Laufe der Zeit planen wir auch, das neueste Claude-Modell in Clio zu verwenden, um die Leistung dieser Schutzmaßnahmen kontinuierlich zu verbessern.
- Vertrauen der Nutzer: Trotz des umfassenden Datenschutzes, den wir bieten, können einige Nutzer Systeme wie Clio als aufdringlich empfinden oder ihre Nutzung von Claude beeinträchtigen. Wir haben uns dafür entschieden, die Verwendung von Clio, seine Möglichkeiten und Grenzen sowie die Erkenntnisse, die wir daraus gewinnen, transparent darzustellen. Wie bereits erwähnt, identifiziert Clio in unserem Standard-Sicherheitsklassifikator falsch-positive Ergebnisse (d.h. Aktivitäten, die scheinbar gegen die Nutzungsrichtlinien verstoßen, es aber in Wirklichkeit nicht tun), was es uns ermöglichen könnte, weniger einzugreifen, wenn es um die legitime Nutzung des Modells geht.
ein Urteil fällen
Clio ist ein wichtiger Schritt auf dem Weg zu empirisch gestützter KI-Sicherheit und Governance. Durch die Unterstützung datenschutzfreundlicher Analysen der KI-Nutzung in der realen Welt können wir besser verstehen, wie diese Systeme tatsächlich genutzt werden. Letztlich können wir Clio nutzen, um KI-Systeme sicherer zu machen.
KI-Anbieter tragen eine doppelte Verantwortung: die Sicherheit ihrer Systeme und den Schutz der Privatsphäre der Nutzer. Clio zeigt, dass sich diese beiden Ziele nicht gegenseitig ausschließen - bei sorgfältiger Konzeption und Implementierung können wir beides gleichzeitig erreichen. Indem wir Clio öffentlich diskutieren, wollen wir eine positive Norm für die verantwortungsvolle Entwicklung und Nutzung solcher Tools setzen.
Wir entwickeln und verbessern Clio ständig weiter und möchten, dass andere es ausbauen. Um mehr über die technischen Details von Clio zu erfahren, einschließlich unserer Methoden zur Überprüfung des Datenschutzes und zur Bewertung, siehe Vollständiges Forschungspapier.
Wir suchen derzeit Verstärkung für das Social Impact Team. Wenn Sie sich für Clio oder verwandte Forschungsfragen interessieren, freuen wir uns auf Ihre Bewerbung. Für weitere Informationen über die Stelle besuchen Sie bittedieser Link.
Fußnoten
^1 ^ In unseren Sicherheitsumfragen lassen wir Clio auch auf einem Teil unseres API-Datenverkehrs von Erstanbietern laufen, wobei die Ergebnisse auf autorisierte Mitarbeiter beschränkt sind. Bestimmte Konten sind von der Analyse ausgeschlossen, darunter vertrauenswürdige Organisationen, mit denen wir keine Aufbewahrungsvereinbarungen getroffen haben. Weitere Informationen zu unseren Richtlinien finden Sie in Anhang F des Forschungspapiers.