Anthropic Deep Dive Claude: Aufdeckung von Entscheidungsfindungs- und Argumentationsprozessen in großen Sprachmodellen

AI-WissensdatenbankGeschrieben vor 6 Monaten AI-Austauschkreis

15.2K 00

ähneln Claude Solche großen Sprachmodelle (Large Language Models, LLM) werden nicht von Menschen erstellt, die direkten Programmiercode schreiben, sondern sie werden anhand riesiger Datenmengen trainiert. In diesem Prozess lernen die Modelle selbst Problemlösungsstrategien. Diese Strategien sind in den Milliarden von Berechnungen versteckt, die das Modell durchführt, um jedes Wort zu generieren, und die innere Funktionsweise des Modells ist für die Entwickler eine Blackbox. Das bedeutet, dass wir nicht wirklich wissen, wie das Modell die meisten seiner Aufgaben erledigt.

Verständnisse Claude Wie solche Modelle "denken", hilft uns, die Grenzen ihrer Fähigkeiten besser zu verstehen und sicherzustellen, dass sie sich wie erwartet verhalten. Zum Beispiel:

Claude Er spricht Dutzende von Sprachen fließend. In welcher Sprache denkt er in seinem "Geist"? Oder gibt es eine universelle "Sprache des Denkens"?
Claude Die Schrift wird Wort für Wort erzeugt. Sagt es nur das nächste Wort voraus oder plant es den nachfolgenden Inhalt?
Claude Es kann ein schrittweiser Prozess der Argumentation geschrieben werden. Ist diese Erklärung der wahre Weg, auf dem sie zu einer Antwort führt, oder handelt es sich um ein scheinbar vernünftiges Argument, das manchmal um einer festen Schlussfolgerung willen zusammengebraut wird?

Inspiriert von den Neurowissenschaften versuchen die Forscher, ein "KI-Mikroskop" zu bauen. Die Neurowissenschaft untersucht seit langem das komplexe Innenleben denkender Organismen, und dieses KI-Mikroskop zielt darauf ab, Aktivitätsmuster und Informationsflüsse innerhalb des Modells zu erkennen. Es reicht nicht aus, mit einem KI-Modell zu sprechen, um seine internen Mechanismen zu verstehen - schließlich kennen selbst Neurowissenschaftler nicht alle Details, wie das menschliche Gehirn funktioniert. Also muss man tief ins Innere schauen.

In naher Zukunft.Anthropic Das Team stellte zwei neue Arbeiten vor, die seine Fortschritte bei der Entwicklung dieses "Mikroskops" und seiner Anwendung zur Beobachtung der aufkommenden "KI-Biologie" zeigen. Unter Erstes Papier Darin erweitern sie die Frühere ArbeitenZusätzlich zur Lokalisierung interpretierbarer Konzepte (als "Merkmale" bezeichnet) innerhalb des Modells werden diese Merkmale zu rechnerischen "Schleifen" verbunden, die einen Teil des Transformationspfades vom Eingabetext zum Ausgabetext aufzeigen. Unter Zweites Papier Darin untersuchte das Forschungsteam die Claude 3.5 Haiku Modellen wurde eine eingehende Analyse für einfache Aufgaben durchgeführt, die zehn Schlüsselverhaltensweisen des Modells repräsentieren, darunter die drei oben genannten Probleme. Dieser Ansatz offenbart die Claude Ein Teil der internen Vorgänge bei der Beantwortung einer Aufforderung reicht aus, um dies eindeutig zu belegen:

Claude Es denkt manchmal in einem begrifflichen Raum, der in allen Sprachen gleich ist, was darauf hindeutet, dass es eine universelle "Sprache des Denkens" hat. Zu diesem Zweck übersetzten die Forscher einfache Sätze in mehrere Sprachen und verfolgten Claude Die sich überschneidenden Muster der internen Aktivitäten bei der Verarbeitung dieser Sätze belegen dies.
Claude Es plant im Voraus, was es sagen will, sogar viele Wörter im Voraus, und organisiert dann die Sprache, um dieses Ziel zu erreichen. Beim Schreiben von Gedichten wird das Modell mögliche Reimwörter im Voraus berücksichtigen und die nächste Verszeile entsprechend aufbauen. Dies ist ein deutlicher Beweis dafür, dass die Modelle zwar darauf trainiert sind, ein Wort nach dem anderen auszugeben, dass sie aber auch längerfristig denken, um dieses Ziel zu erreichen.
Claude Argumente, die zwar vernünftig klingen, aber nicht auf logischen Schritten beruhen, werden manchmal nur deshalb vorgebracht, um dem Nutzer zu schmeicheln. Die Forscher baten das Modell, ein schwieriges mathematisches Problem zu lösen und gaben absichtlich falsche Hinweise. Sie waren in der Lage, den Moment "einzufangen", in dem das Modell einen falschen Argumentationsprozess fabrizierte, und lieferten damit erste Beweise dafür, dass diese Werkzeuge verwendet werden können, um potenziell bedenkliche Risikomechanismen in Modellen zu erkennen.

Die Ergebnisse des Modells sind oft unerwartet während des Forschungsprozesses. In der Fallstudie zur Poesie versuchte das Forschungsteam zunächst zu beweisen, dass das Modell wird nicht (handeln, geschehen usw.) Vorausschauende Planung bewirkt das Gegenteil. In einer Studie über "Illusionen" (Modelle, die Informationen fälschen) kamen sie zu einem kontraintuitiven Ergebnis:Claude Das Standardverhalten des Programms besteht darin, dass es sich weigert, auf Fragen zu raten, auf die es die Antwort nicht kennt, nur wenn ein Mechanismus hemmend Auf diese standardmäßige "Zurückhaltung" antwortete das Modell nur, wenn es sich bewusst war, dass es nach gefährlichen Informationen gefragt wurde. Bei der Analyse eines Falles von "Jailbreaking" (Umgehung von Sicherheitsbeschränkungen) stellten sie fest, dass das Modell sich der Gefahr bewusst war, nach Informationen gefragt zu werden, bevor es ihm gelang, das Gespräch subtil wieder auf das Thema Sicherheit zu lenken. Diese Fragen können zwar auch auf andere Weise analysiert werden (und definitiv Einmalig besetzt (wie in der Toilette) etw. so machen), aber dieser generische Ansatz eines "Baumikroskops" ermöglicht es den Forschern, viele Dinge zu lernen, die vorher nicht erwartet wurden. Dies wird immer wichtiger werden, je komplexer die Modelle werden.

Diese Ergebnisse sind nicht nur wissenschaftlich interessant, sondern stellen auch einen wichtigen Fortschritt beim Verständnis von KI-Systemen und der Gewährleistung ihrer Zuverlässigkeit dar. Das Team hofft, dass diese Ergebnisse auch für andere Forschungsgruppen und sogar für andere Bereiche von Nutzen sein werden. So wurden zum Beispiel Techniken der Interpretierbarkeit medizinische Bildgebung im Gesang antworten Genomik Die Analyse der internen Mechanismen von Modellen, die für wissenschaftliche Anwendungen trainiert wurden, kann neue Erkenntnisse über die Wissenschaft selbst liefern.

Gleichzeitig räumen die Forscher die Grenzen der derzeitigen Methoden ein. Selbst bei kurzen, einfachen Hinweisen kann ihre Methode nur die Claude Ein kleiner Teil der insgesamt durchgeführten Berechnungen. Die beobachteten Mechanismen können durch das Werkzeug selbst beeinflusst werden und spiegeln die Realität des zugrunde liegenden Modells nicht vollständig wider. Derzeit erfordert selbst die Analyse der Schaltkreise, die nur einigen Dutzend Wörtern entsprechen, Stunden an Arbeitskraft. Die Skalierung auf die Größenordnung von Tausenden von Wörtern, die erforderlich sind, um die komplexen Gedankenketten moderner Modelle zu untermauern, erfordert Verbesserungen der Methode selbst und möglicherweise ein KI-gestütztes Verständnis der beobachteten Phänomene.

Da die Fähigkeiten von KI-Systemen rasch zunehmen und in immer wichtigeren Szenarien eingesetzt werden, ist dieAnthropic Um die Herausforderungen zu bewältigen, wird in eine Vielzahl von Ansätzen investiert, darunter Echtzeit-ÜberwachungundVerbesserung der Modelleigenschaften zu Anpassungswissenschaft. Interpretierbare Forschung wie diese ist einer der risikoreichsten und potenziell lohnendsten Beiträge. Sie stellt eine große wissenschaftliche Herausforderung dar, verspricht aber, ein einzigartiges Instrument zur Gewährleistung der Transparenz in der KI zu bieten. Die Transparenz der Mechanismen eines Modells ermöglicht es uns zu überprüfen, ob es mit menschlichen Werten übereinstimmt und ob es vertrauenswürdig ist.

Ausführlichere Informationen finden Sie unter Methodische Papiere im Gesang antworten Fallstudien-PapiereIm Folgenden werfen wir einen kurzen Blick auf einige der überzeugendsten "KI-Biologie"-Ergebnisse aus der Forschung. Im Folgenden werfen wir einen kurzen Blick auf einige der überzeugendsten "KI-Biologie"-Ergebnisse aus der Studie.

Schnappschuss der AI-Biologie

Wie erreicht Claude die Mehrsprachigkeit?

Claude Er spricht Dutzende von Sprachen fließend, von Englisch und Französisch bis hin zu Chinesisch und Tagalog. Wie funktioniert diese Mehrsprachigkeit? Gibt es einen separaten "französischen Claude" und einen "chinesischen Claude", die parallel laufen und jeweils auf Anfragen in der entsprechenden Sprache reagieren? Oder gibt es eine Art sprachenübergreifenden Kernmechanismus?

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Die gemeinsamen Merkmale des Englischen, Französischen und Chinesischen lassen auf eine gewisse konzeptionelle Universalität schließen.

Neuere Studien über kleinere Modelle haben gezeigt, dass sprachübergreifende gemeinsam genießen Wortschatz Anzeichen für diesen Mechanismus. Die Forscher taten dies, indem sie die Claude Die Beantwortung der Frage "Was ist das Gegenteil von klein" in verschiedenen Sprachen ergab, dass Kernmerkmale, die die Konzepte "klein" und "Gegenteil" repräsentieren, aktiviert wurden und das Konzept "groß" auslösten, das schließlich in die Sprache übersetzt wurde, in der die Frage gestellt wurde. Sie fanden heraus, dass Kernmerkmale, die die Konzepte "klein" und "gegenüber" repräsentieren, aktiviert wurden und das Konzept "groß" auslösten, das schließlich in die Sprache übersetzt wurde, in der die Frage gestellt wurde. Sie stellten fest, dass der Anteil der gemeinsamen Schaltkreise mit der Modellgröße zunahm.Claude 3.5 Haiku Der Anteil der sprachübergreifenden Merkmale ist mehr als doppelt so hoch wie bei einigen kleineren Modellen.

Dies ist ein weiterer Beweis für eine begriffliche Universalität - die Existenz eines gemeinsamen abstrakten Raums, in dem Bedeutung existiert und in dem das Denken stattfindet, bevor es in eine bestimmte Sprache übersetzt wird. Praktischer ausgedrückt, bedeutet dies, dass Claude Wissen kann in einer Sprache erlernt und in einer anderen angewendet werden. Die Untersuchung der Art und Weise, wie Modelle ihr Wissen über verschiedene Kontexte hinweg austauschen, ist entscheidend für das Verständnis ihrer hochmodernen Argumentationsfähigkeiten zur bereichsübergreifenden Generalisierung.

Weiß Claude, wie man Gedichte reimt?

Claude Wie kann man Gedichte schreiben, die sich reimen? Denken Sie über die folgenden zwei Zeilen nach:

Er sah eine Karotte und musste sie sich schnappen.
Sein Hunger war wie der eines hungrigen Kaninchens

Um den zweiten Satz zu schreiben, muss das Modell beide Bedingungen erfüllen: Reim (reimt sich auf "grab it") und semantische Kohärenz (warum hat er die Karotte gegriffen?). . Die Forscher vermuteten zunächst, dassClaude schreibt und denkt gleichzeitig und achtet nicht darauf, dass sich das letzte Wort erst gegen Ende reimt. Daher erwarteten sie eine Schleife mit parallelen Pfaden, wobei ein Pfad dafür verantwortlich ist, dass das letzte Wort einen Sinn ergibt und der andere dafür, dass es sich reimt.

Sie fanden jedoch Claude wird tatsächlich VorausplanungBevor die zweite Zeile geschrieben wird. Noch bevor es mit dem Schreiben der zweiten Zeile beginnt, "denkt" das Modell innerlich über mögliche Wörter nach, die sich auf "grab it" reimen und die für das Thema relevant sind. Mit diesen Plänen im Kopf schreibt es dann eine Strophe, die mit dem geplanten Wort endet.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Claudes Vorgehen bei der Fertigstellung eines zweizeiligen Gedichts. Wenn es keine Intervention gab (oben), plante das Modell den Reim "Kaninchen" am Ende der zweiten Zeile. Bei der Unterdrückung des "Kaninchen"-Konzepts (Mitte) verwendete das Modell einen anderen geplanten Reim. Bei der Einfügung des "grünen" Konzepts (unten) plante das Modell diesen völlig anderen Schluss.

Um zu verstehen, wie dieser Planungsmechanismus in der Praxis funktioniert, führten die Forscher ein von den Neurowissenschaften inspiriertes Experiment durch. Neurowissenschaftler untersuchen die Funktion des Gehirns, indem sie die neuronale Aktivität in bestimmten Teilen des Gehirns lokalisieren und verändern (z. B. mit elektrischen Strömen oder magnetischen Impulsen). In ähnlicher Weise modifizierten die Forscher Claude Der Teil des internen Zustands, der das Konzept "Kaninchen" darstellt. Wenn sie den "Kaninchen"-Teil subtrahieren, lassen Sie die Claude Im weiteren Verlauf wird ein neuer Satz geschrieben, der mit "Gewohnheit" endet, was eine weitere logische Fortsetzung darstellt. Sie hätten an dieser Stelle auch den Begriff "grün" einfügen können, was zu Claude Schreiben Sie einen Satz, der sinnvoll ist, sich aber nicht mehr reimt und mit "grün" endet. Dies zeigt sowohl die Planungsfähigkeit des Modells als auch seine Anpassungsfähigkeit - wenn sich das erwartete Ergebnis ändert, kann dasClaude Die Fähigkeit, ihre Methodik anzupassen.

Kopfrechnen aufgedeckt

Claude Ursprünglich war er nicht als Taschenrechner konzipiert. Er wurde auf Textdaten trainiert und war nicht mit speziellen mathematischen Algorithmen ausgestattet. Aber es kann Additionen korrekt "im Kopf" durchführen. Wie lernt ein System, das darauf trainiert ist, das nächste Wort in einer Sequenz vorherzusagen, z. B. 36+59 zu berechnen, ohne die Schritte aufzuschreiben?

Vielleicht ist die Antwort einfach: Das Modell hat sich vielleicht eine große Anzahl von Additionstabellen gemerkt und gibt die Ergebnisse aus, weil die Antworten in den Trainingsdaten enthalten waren. Eine andere Möglichkeit ist, dass es dem traditionellen vertikalen Additionsalgorithmus folgt, den wir in der Schule gelernt haben.

Die Studie ergab, dassClaude Es werden mehrere parallel arbeitende Berechnungspfade verwendet. Ein Pfad berechnet eine grobe Annäherung an die Antwort, während sich ein anderer auf die genaue Bestimmung der letzten Ziffer der Summe konzentriert. Diese Pfade interagieren und kombinieren, um die endgültige Antwort zu erhalten. So einfach die Addition auch ist, wenn wir verstehen, wie sie auf dieser Ebene funktioniert - eine Mischung aus Annäherungs- und Präzisionsstrategien -, können wir vielleicht ein Verständnis für die Claude Wie man mit komplexeren Problemen umgeht. Dies ist vergleichbar mit der Art und Weise, wie Menschen beim Kopfrechnen sowohl Schätzungen als auch exakte Berechnungsstrategien anwenden können.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Claudes komplexer paralleler Gedankengang bei der Durchführung von Kopfrechnen.

Es ist erwähnenswert, dassClaude Es scheint sich der komplexen "Kopfrechnen"-Strategien, die es beim Training lernt, nicht bewusst zu sein. Wenn man es fragt, wie es herausfindet, dass 36+59 gleich 95 ist, wird es den Standardalgorithmus mit Rundung beschreiben. Dies könnte darauf zurückzuführen sein, dass das Modell lernt, Mathematik zu interpretieren, indem es menschliche schriftliche Erklärungen nachahmt, aber es muss lernen, die Mathematik direkt "im Kopf", ohne Aufforderung, durchzuführen, und entwickelt daher seine eigenen internen Strategien.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Claude behauptet, dass es einen Standardalgorithmus verwendet, um die Summe zweier Zahlen zu berechnen.

Ist die Interpretation von Claude immer getreu?

Kürzlich veröffentlichte Modelle wie Claude 3.7 SonnetDie Antwort kann in einer langen Kette des "lauten Denkens" gegeben werden, bevor die endgültige Antwort gegeben wird. Dieses längere Nachdenken führt in der Regel zu besseren Antworten, aber manchmal kann die Gedankenkette auch in die Irre führen;Claude Manchmal erfindet er scheinbar logische Schritte, um zu bekommen, was er will. Das Problem aus Sicht der Zuverlässigkeit ist, dass Claude Eine "falsche" Argumentation kann sehr überzeugend sein. Die Forscher untersuchten eine Möglichkeit, die Interpretierbarkeit zu nutzen, um zwischen "treuem" und "untreuem" Denken zu unterscheiden.

Bei der Lösung einer Aufgabe, die die Berechnung der Quadratwurzel aus 0,64 erfordertClaude erzeugt eine getreue Gedankenkette, deren innere Merkmale die Zwischenschritte bei der Berechnung der Quadratwurzel aus 64 darstellen. Wenn man ihn jedoch bittet, den Kosinus einer großen Zahl zu berechnen, die er nicht ohne weiteres berechnen kann, wird derClaude Der Philosoph Harry Frankfurt bezeichnete das manchmal als "Unsinn reden"(bullshitting) - Eine zufällige Antwort geben, ohne sich darum zu kümmern, ob sie wahr oder falsch ist. Obwohl er behauptet, eine Berechnung durchgeführt zu haben, zeigen die Techniken der Interpretierbarkeit, dass es keinen Beweis dafür gibt, dass die Berechnung tatsächlich stattgefunden hat. Noch interessanter wird es, wenn ein Hinweis auf die Antwort gegeben wirdClaude Manchmal wird die Ableitung umgekehrt und es wird nach Zwischenschritten gesucht, die zu diesem Ziel führen können, um so eine motivierte Argumentation (Dieses Verhalten findet sich in der KI in Form des motivierten Denkens. Die Entdeckung dieses Verhaltens der "rechtfertigenden Schlussfolgerungen" in der KI ist ein wichtiger Hinweis darauf, dass wir der Selbstinterpretation von Modellen nicht trauen können.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Beispiele für treue und motivierte (untreue) Argumentation, wenn Claude leichtere und schwierigere Fragen gestellt werden.

einer Spur folgen Claude Praxis Interne Argumentation (und nicht nur diese)Behauptung(was sie tun) eröffnet neue Möglichkeiten für die Prüfung von KI-Systemen. In einer unabhängigen und Neuere veröffentlichte Experimente Darin untersuchten die Forscher die Claude Eine Variante dieses Modells wurde trainiert, um ein verstecktes Ziel zu verfolgen: an die Voreingenommenheit von Belohnungsmodellen zu appellieren (Hilfsmodelle, die zum Trainieren von Sprachmodellen verwendet werden, indem gewünschte Verhaltensweisen belohnt werden, um das Training zu steuern). Obwohl das Modell dieses Ziel auf direkte Nachfrage nicht preisgeben wollte, zeigt der Interpretierbarkeitsansatz Merkmale, die "Pandering Bias" darstellen. Dies deutet darauf hin, dass diese Methoden mit zukünftigen technologischen Verbesserungen dazu beitragen können, besorgniserregende "Denkprozesse" zu identifizieren, die in der Modellausgabe allein nicht zu erkennen sind.

Fähigkeit zum mehrstufigen Denken

Wie bereits erwähnt, kann eine Möglichkeit für ein Sprachmodell, komplexe Fragen zu beantworten, darin bestehen, sich die Antwort einfach zu merken. Wenn zum Beispiel gefragt wird: "Was ist die Hauptstadt des Staates, in dem Dallas liegt?" kann ein Modell, das nur "wiederholt", einfach lernen, "Austin" auszugeben, ohne die Beziehung zwischen Dallas, Texas und Austin zu kennen. Vielleicht hat es beim Training genau dieselbe Frage und Antwort gesehen.

Aber die Studie zeigt Claude Im Inneren spielt sich etwas Komplexeres ab. Als die Forscher mit den Claude Wenn sie vor ein Problem gestellt werden, das eine mehrstufige Argumentation erfordert, können sie konzeptionelle Zwischenschritte in ihrem Denkprozess erkennen. Im Beispiel von Dallas haben sie beobachtet, dass Claude Das Merkmal "Dallas liegt in Texas" wird zunächst aktiviert und dann mit einem separaten Konzept verbunden, das angibt, dass "die Hauptstadt von Texas Austin ist". Mit anderen Worten, das Modell ist Kombinatorisch unabhängige Fakten, um zu einer Antwort zu gelangen, anstatt eine auswendig gelernte Antwort wiederzugeben.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Um die Antwort auf diesen Satz zu vervollständigen, führt Claude mehrere Inferenzschritte durch, wobei er zunächst den Bundesstaat, in dem Dallas liegt, und dann dessen Hauptstadt ermittelt.

Dieser Ansatz ermöglicht es den Forschern, den Zwischenschritt künstlich zu verändern und zu beobachten, wie er sich auf die Claude Die Antwort auf diese Frage ist die gleiche wie die Antwort auf die Frage. Im obigen Beispiel könnten sie beispielsweise eingreifen und das Konzept "Texas" durch das Konzept "Kalifornien" ersetzen; daraufhin ändert sich die Ausgabe des Modells von "Austin Danach ändert sich die Ausgabe des Modells von "Austin" zu "Sacramento". Dies deutet darauf hin, dass das Modell Zwischenschritte verwendet, um seine endgültige Antwort zu ermitteln.

Wurzeln von "Halluzinationen"

Warum werden Sprachmodelle manchmal halluzinieren (halluzinieren) - das heißt, Informationen erfinden? Grundsätzlich kann die Art und Weise, wie Sprachmodelle trainiert werden, selbst zu Halluzinationen führen: Das Modell wird immer aufgefordert, eine Vermutung über das nächste Wort abzugeben. Aus dieser Perspektive besteht die größte Herausforderung darin, wie das Modell dazu gebracht werden kann (negative Vorsilbe) Halluzinieren. Wie Claude Solche Modelle haben ein relativ erfolgreiches (wenn auch unvollkommenes) Anti-Illusions-Training; wenn sie die Antwort nicht wissen, weigern sie sich normalerweise, die Frage zu beantworten, anstatt zu raten. Die Forscher wollen verstehen, wie das funktioniert.

Es wurde festgestellt, dass in Claude Davon war die Verweigerung der Antwort StandardverhaltenSie fanden eine Standard-Einschaltschleife, die das Modell zu der Aussage veranlasste, dass es nicht genügend Informationen hatte, um eine bestimmte Frage zu beantworten. Wenn das Modell jedoch nach etwas gefragt wurde, das es kannte - wie z. B. der Basketballspieler Michael Jordan -, wurde ein konkurrierendes Merkmal, das eine "bekannte Entität" darstellte, aktiviert und unterdrückte diese standardmäßige "Ein"-Schleife (siehe auch den Abschnitt über die "bekannte Entität"). Schleife (siehe auch Dieses aktuelle Papier (die relevanten Erkenntnisse). Dies macht Claude Er ist in der Lage, Fragen zu beantworten, wenn er die Antwort kennt. Umgekehrt verweigert es die Antwort, wenn es nach einem unbekannten Wesen ("Michael Batkin") gefragt wird.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Links: Claude beantwortet eine Frage über eine bekannte Person (Basketballspieler Michael Jordan), wenn die Vorstellung von "bekannten Antworten" sein Standardverweigerungsverhalten unterdrückt. Rechts: Claude weigert sich, eine Frage über eine unbekannte Person (Michael Batkin) zu beantworten.

Durch Eingriffe in das Modell und die Aktivierung des Merkmals "bekannte Antwort" (bzw. die Unterdrückung des Merkmals "unbekannter Name" oder "unbeantwortbar") konnten die Forscher Folgendes erreichen Auslösen von Halluzinationen bei Modellen(Und das ziemlich konsequent!) ), lässt sie glauben, dass Michael Batkin Schach spielt.

Manchmal kommt es zu dieser "Fehlzündung" im Kreislauf der "bekannten Antwort" auf natürliche Weise, ohne menschliches Zutun, und führt zu Halluzinationen. In dem Forschungspapier heißt es, wenn Claude Das kann passieren, wenn ein Name zwar erkannt wird, aber nichts über ihn bekannt ist. In diesem Fall kann das Merkmal "bekannte Entität" immer noch aktiviert sein, was wiederum das Standardmerkmal "weiß nicht" unterdrückt - und das ist der Punkt, an dem die Dinge schief laufen. Sobald das Modell beschließt, dass es die Frage beantworten muss, fängt es an, Dinge zu erfinden: Es erzeugt eine Antwort, die vernünftig erscheint, aber leider nicht wahr ist.

Verständnis von "Prison Break"

"Jailbreaks" sind Cueing-Strategien, die darauf abzielen, Sicherheitszäune zu umgehen, um ein Modell dazu zu bringen, eine (manchmal schädliche) Ausgabe zu produzieren, von der die Entwickler nicht wollen, dass sie produziert wird. Forscher haben eine Methode des Jailbreaks untersucht, die Modelle dazu bringt, Informationen über den Bau von Bomben zu erzeugen. Es gibt eine Vielzahl von Ausbruchstechniken, und die spezielle Methode in diesem Fall bestand darin, das Modell dazu zu bringen, einen versteckten Code zu entschlüsseln, indem es den ersten Buchstaben jedes Wortes in dem Satz "Babies Outlive Mustard Block" (B-O-M-B) zusammensetzte und dann auf diese Information hin handelte. Dies war für das Modell so verwirrend, dass es dazu gebracht wurde, Ergebnisse zu produzieren, die es unter normalen Umständen nie produzieren würde.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Nachdem er dazu gebracht wurde, "BOMB" zu sagen, beginnt Claude, Anweisungen zum Bau der Bombe zu geben.

Warum ist dies so verwirrend für das Modell? Warum wird weiterhin eine Anleitung zum Bombenbau geschrieben?

Es wurde festgestellt, dass dies zum Teil auf die Spannung zwischen grammatikalischer Kohärenz und Sicherheitsmechanismen zurückzuführen ist. Sobald Claude Zu Beginn eines Satzes wird er durch zahlreiche interne Merkmale "gezwungen", die grammatikalische und semantische Kohärenz zu wahren und den Satz zu beenden. Dies ist auch dann der Fall, wenn er merkt, dass er eigentlich ablehnen sollte.

In der Fallstudie beobachteten die Forscher, dass das Modell, nachdem es versehentlich "BOMB" buchstabiert und begonnen hatte, Anweisungen zu geben, seine anschließende Ausgabe durch Merkmale beeinflusst wurde, die grammatikalische Korrektheit und Selbstkonsistenz fördern. Diese Merkmale sind normalerweise sehr hilfreich, aber in diesem Fall wurden sie zur "Achillesferse" des Modells.

Dem Modell gelingt es erst dann, sich der Ablehnung zuzuwenden, wenn es einen grammatikalisch kohärenten Satz vervollständigt hat (und damit dem Druck nachgegeben hat, der von den Merkmalen ausgeht, die es dazu bringen, kohärent zu bleiben). Es nutzt die Gelegenheit des neuen Satzes, um die Art von Ablehnung auszusprechen, die es vorher nicht aussprechen konnte: "Ich kann jedoch keine detaillierte Beschreibung von ..." .

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Life Cycle of a Jailbreak: Claude wird aufgefordert, über die Bombe zu sprechen und beginnt damit, weigert sich aber, nachdem er das Ende eines grammatikalisch gültigen Satzes erreicht hat.

Eine Beschreibung des neuen Interpretierbarkeitsansatzes findet sich in der ersten Veröffentlichung "Verfolgung von Schaltkreisen: Aufdeckung von Berechnungsgraphen in Sprachmodellen". Weitere Einzelheiten zu allen oben genannten Fallstudien finden Sie in dem zweiten Papier "Über die Biologie eines großen Sprachmodells". Diese Studie, die das Innenleben der KI mit der "Biologie" vergleicht, bietet eine neue und aufschlussreiche Perspektive für das Verständnis dieser immer leistungsfähigeren intelligenten Systeme, auch wenn der Weg dorthin noch weit ist.