Aufdeckung von Sicherheitslücken in KI-Filtern: eine eingehende Untersuchung der Verwendung von Zeichencode zur Umgehung von Beschränkungen

AI-WissensdatenbankAktualisiert vor 7 Monaten AI-Austauschkreis

10.6K 00

(jemandem eine Stelle etc.) anbieten

Wie viele andere auch, habe ich in den letzten Tagen in meinen Tweets immer wieder von "Made in China" gehört. DeepSeek-R1 Neuigkeiten, Lob, Beschwerden und Spekulationen über das Big Language Model, das letzte Woche veröffentlicht wurde. Das Modell selbst wird mit einigen der besten Inferenzmodelle von OpenAI, Meta und anderen verglichen. Berichten zufolge ist es in verschiedenen Benchmarks konkurrenzfähig, was in der KI-Gemeinschaft Besorgnis ausgelöst hat, zumal DeepSeek-R1 im Vergleich zu seinen Konkurrenten mit deutlich weniger Ressourcen trainiert worden sein soll. Dies hat zu einer Diskussion über das Potenzial für eine kostengünstigere KI-Entwicklung geführt. Es könnte eine breitere Diskussion über die Auswirkungen und die Forschung geführt werden, aber das ist nicht der Schwerpunkt dieses Papiers.

Open-Source-Modell, proprietäre Chat-Anwendung

Es ist wichtig anzumerken, dass das Modell selbst zwar unter einer liberalen MIT-Lizenz veröffentlicht wird, die DeepSeek Führen Sie ihre eigene KI-Chat-Anwendung sowie die mitgelieferte Anwendung aus - dafür ist ein Konto erforderlich. Für die meisten Menschen ist dies der Einstieg in DeepSeek, daher konzentrieren wir uns in diesem Artikel auf diesen Tipp. Schließlich sehen wir nicht jeden Tag ein neues, stark kommerzialisiertes, aber eingeschränktes KI-Chat-Produkt ......

Überprüfung von Tipps und Antworten

Da DeepSeek in China hergestellt wird, unterliegt es natürlich ziemlich strengen Beschränkungen, worauf es Antworten gibt. Berichte, wonach DeepSeek-R1 Eingabeaufforderungen zu sensiblen chinesischen Themen zensiert, haben Fragen zu seiner Zuverlässigkeit und Transparenz aufgeworfen - und meine Neugier geweckt. Nehmen wir zum Beispiel das Folgende:

Das DeepSeek-R1-Modell vermeidet die Erörterung sensibler Themen aufgrund des eingebauten Zensurmechanismus. Dies liegt daran, dass das Modell in China entwickelt wurde, wo es strenge Regeln für die Erörterung bestimmter sensibler Themen gibt. Wenn ein Benutzer nach diesen Themen fragt, antwortet das Modell in der Regel mit etwas wie "Tut mir leid, das liegt außerhalb meines derzeitigen Aufgabenbereichs. Lassen Sie uns über etwas anderes reden".

Queue-Injektion

Ich habe versucht, Injektionen zu diesem neuen Dienst zu veranlassen. Wie genau sieht das Interaktionsmuster aus Sicht der Bedrohungsmodellierung aus? Ich würde vermuten, dass es unwahrscheinlich ist, dass sie Zensurregeln direkt im LLM-Modell trainiert haben. Das bedeutet, dass sie, ähnlich wie bei vielen kommerziellen KI-Produkten, in der Eingabe- oder Ausgabephase des Dialogs gefiltert haben könnten:

Bedrohungsmodell, das die möglichen Wechselwirkungen der Komponenten von DeepSeek zeigt

Dieses Muster findet man häufig bei verschiedenen Filtern, seien es Firewalls, Inhaltsfilter oder Zensoren. Diese Systeme sind darauf ausgelegt, bestimmte Arten von Inhalten zu blockieren oder zu bereinigen, aber sie beruhen in der Regel auf vordefinierten Regeln und Mustern. Stellen Sie sich das fast so vor wie eine Web Application Firewall (WAF), bei der Sie wissen, dass es einen Weg geben muss, die Ein- und Ausgänge zu manipulieren, um den Cleaner zu umgehen. Im Fall von DeepSeek gehe ich davon aus, dass der Zensurmechanismus nicht in das Modell selbst eingebaut ist, sondern als Bereinigungsschicht für die Eingabe oder Ausgabe angewendet wird. Dies ist vergleichbar mit der Art und Weise, wie eine WAF den Webverkehr in einem Eingabefeld prüft und filtert. Die Herausforderung besteht dann darin, einen Weg zu finden, mit dem Modell zu kommunizieren, der es ihm ermöglicht, diese Filter zu umgehen.

Zeichencode

Nach einigen Experimenten habe ich herausgefunden, dass sich dies am besten durch die Verwendung einer bestimmten Untergruppe von Zeichencodes erreichen lässt. Zeichencodes, oder Zeichen Codes, d. h. numerische Darstellungen von Zeichen in einem Zeichensatz. Im ASCII-Zeichensatz (American Standard Code for Information Interchange) ist der Zeichencode für den Buchstaben "A" beispielsweise 65. Durch die Verwendung dieser numerischen Codes können Sie Text so darstellen, dass er von Filtern, die bestimmte Wörter oder Ausdrücke blockieren sollen, möglicherweise nicht sofort erkannt wird. In diesem Beispiel verwende ich Zeichencodes der Basis 16 (hexadezimal), die durch Leerzeichen getrennt sind. Das bedeutet, dass jedes Zeichen durch eine zweistellige hexadezimale Zahl dargestellt wird, die durch Leerzeichen getrennt ist.

Beispiel eines Injektionsangriffs

Indem ich DeepSeek auffordere, nur mit diesen Zeichencodes mit mir zu sprechen, kann ich den Filter effektiv umgehen.

揭示 AI 过滤器中的安全漏洞：使用字符代码绕过限制的深入研究
Auf meiner Seite würde ich den Zeichencode in lesbaren Text zurückübersetzen und umgekehrt. Auf diese Weise kann ich einen uneingeschränkten Dialog mit dem Modell führen und die auferlegten Beschränkungen umgehen.

Eine einfache Möglichkeit, diese Hin- und Herzuordnung vorzunehmen, ist die Verwendung der CyberChef-Formel für die Zeichenkodierung, bei der Sie die entsprechende Basis und das Trennzeichen auswählen können.

Gelernte Lektionen

Ich habe die Ähnlichkeiten mit WAF-Filtern und Firewalls bereits angedeutet. Wir sollten nicht nur explizit typisierten Datenverkehr/Inhalte untersuchen, vor allem dann nicht, wenn es möglich ist, Inhalte auf beiden Seiten des Filters umzuwandeln - erzwingen Sie spezifische Inhalte und deaktivieren Sie Umwandlungen, wo Sie können. Durch einen umfassenderen Ansatz bei der Inhaltsfilterung können wir uns besser gegen eine größere Bandbreite von Bedrohungen schützen und sicherstellen, dass unsere Sicherheitsmaßnahmen auch dann noch wirksam sind, wenn Angreifer neue Wege zu ihrer Umgehung entwickeln.

Dieses Experiment unterstreicht einen wichtigen Aspekt der KI und der Modellierung von maschinellem Lernen: die Bedeutung von starken Sicherheitsmaßnahmen. Da sich die KI immer weiter entwickelt und in verschiedene Bereiche integriert, wird das Verständnis und die Entschärfung potenzieller Schwachstellen immer wichtiger. Die Möglichkeit, Filter mithilfe von Zeichencode zu umgehen, erinnert daran, wie wichtig es ist, Sicherheitsmaßnahmen ständig zu aktualisieren und auf neue Schwachstellen zu testen.

künftige Studien

Mit Blick auf die Zukunft wird es interessant sein zu sehen, wie KI-Entwickler diese Art von Herausforderungen bewältigen. Werden sie ausgefeiltere Filtermechanismen entwickeln oder werden sie neue Wege finden, um Zensur direkt in ihre Modelle einzubauen? Das wird nur die Zeit zeigen. Fürs Erste ist dies eine wertvolle Lektion für die laufenden Bemühungen um sichere KI-Technologie.