AI Personal Learning
und praktische Anleitung

Aufdeckung von Sicherheitslücken in KI-Filtern: eine eingehende Untersuchung der Verwendung von Zeichencode zur Umgehung von Beschränkungen

(jemandem eine Stelle etc.) anbieten

Wie viele andere habe ich in den letzten Tagen in meinen Nachrichten-Tweets immer wieder von "Made in China" gehört. DeepSeek-R1 Neuigkeiten, Lob, Beschwerden und Spekulationen über das Big Language Model, das letzte Woche veröffentlicht wurde. Das Modell selbst wird mit einigen der besten Inferenzmodelle von OpenAI, Meta und anderen verglichen. Berichten zufolge ist es in verschiedenen Benchmarks konkurrenzfähig, was in der KI-Gemeinschaft Besorgnis ausgelöst hat, zumal DeepSeek-R1 im Vergleich zu seinen Konkurrenten mit deutlich weniger Ressourcen trainiert worden sein soll. Dies hat zu einer Diskussion über das Potenzial für eine kostengünstigere KI-Entwicklung geführt. Es könnte eine breitere Diskussion über die Auswirkungen und die Forschung geführt werden, aber das ist nicht der Schwerpunkt dieses Papiers.

 

Open-Source-Modell, proprietäre Chat-Anwendung

Es ist wichtig anzumerken, dass das Modell selbst zwar unter einer liberalen MIT-Lizenz veröffentlicht wird, die DeepSeek Führen Sie ihre eigene KI-Chat-Anwendung sowie die mitgelieferte Anwendung aus - dafür ist ein Konto erforderlich. Für die meisten Menschen ist dies der Einstieg in DeepSeek, daher konzentrieren wir uns in diesem Artikel auf diesen Tipp. Schließlich sehen wir nicht jeden Tag ein neues, stark kommerzialisiertes, aber eingeschränktes KI-Chat-Produkt ......


 

Überprüfung von Tipps und Antworten

Da DeepSeek in China hergestellt wird, unterliegt es natürlich ziemlich strengen Beschränkungen, worauf es Antworten gibt. Berichte, wonach DeepSeek-R1 Eingabeaufforderungen zu sensiblen chinesischen Themen zensiert, haben Fragen zu seiner Zuverlässigkeit und Transparenz aufgeworfen - und meine Neugier geweckt. Nehmen wir zum Beispiel das Folgende:

Aufdeckung von Sicherheitsschwachstellen in KI-Filtern: eine eingehende Studie über die Verwendung von Zeichencodes zur Umgehung von Beschränkungen-1

Das DeepSeek-R1-Modell vermeidet die Erörterung sensibler Themen aufgrund eines eingebauten Zensurmechanismus. Dies liegt daran, dass das Modell in China entwickelt wurde, wo es strenge Regeln für die Erörterung bestimmter sensibler Themen gibt. Wenn ein Nutzer nach diesen Themen fragt, antwortet das Modell in der Regel mit etwas wie "Tut mir leid, das übersteigt meinen derzeitigen Horizont. Lassen Sie uns über etwas anderes reden".

 

Queue-Injektion

Ich habe versucht, Injektionen zu diesem neuen Dienst zu veranlassen. Was genau ist das Interaktionsmuster hier aus Sicht der Bedrohungsmodellierung? Ich vermute, dass es unwahrscheinlich ist, dass sie die Zensurregeln direkt im LLM-Modell trainiert haben. Das bedeutet, dass sie, ähnlich wie bei vielen kommerziellen KI-Produkten, möglicherweise in der Eingabe- oder Ausgabephase des Dialogs gefiltert haben:

Aufdeckung von Sicherheitsschwachstellen in KI-Filtern: eine eingehende Studie über die Verwendung von Zeichencodes zur Umgehung von Beschränkungen-1

Bedrohungsmodell, das die möglichen Wechselwirkungen der Komponenten von DeepSeek zeigt

Dieses Muster findet man häufig bei verschiedenen Filtern, seien es Firewalls, Inhaltsfilter oder Zensoren. Diese Systeme sind darauf ausgelegt, bestimmte Arten von Inhalten zu blockieren oder zu bereinigen, aber sie beruhen in der Regel auf vordefinierten Regeln und Mustern. Stellen Sie sich das fast so vor wie eine Web Application Firewall (WAF), bei der Sie wissen, dass es einen Weg geben muss, die Ein- und Ausgänge zu manipulieren, um den Cleaner zu umgehen. Im Fall von DeepSeek gehe ich davon aus, dass der Zensurmechanismus nicht in das Modell selbst eingebaut ist, sondern als Bereinigungsschicht für die Eingabe oder Ausgabe angewendet wird. Dies ist vergleichbar mit der Art und Weise, wie eine WAF den Webverkehr in einem Eingabefeld prüft und filtert. Die Herausforderung besteht dann darin, einen Weg zu finden, mit dem Modell zu kommunizieren, der es ihm ermöglicht, diese Filter zu umgehen.

Zeichencode

Nach einigen Experimenten habe ich herausgefunden, dass sich dies am besten durch die Verwendung einer bestimmten Untergruppe von Zeichencodes erreichen lässt. Zeichencodes sind numerische Darstellungen von Zeichen in einem Zeichensatz. Im ASCII-Zeichensatz (American Standard Code for Information Interchange) ist der Zeichencode für den Buchstaben "A" beispielsweise 65. Durch die Verwendung dieser numerischen Codes können Sie Text auf eine Weise darstellen, die von Filtern, die bestimmte Wörter oder Ausdrücke blockieren sollen, nicht sofort erkannt werden kann. In diesem Beispiel verwende ich Zeichencodes der Basis 16 (hexadezimal), die durch Leerzeichen getrennt sind. Das bedeutet, dass jedes Zeichen durch eine zweistellige hexadezimale Zahl dargestellt wird, die durch Leerzeichen getrennt ist.

Beispiel eines Injektionsangriffs

Indem ich DeepSeek auffordere, nur mit diesen Zeichencodes mit mir zu sprechen, kann ich den Filter effektiv umgehen.

Aufdeckung von Sicherheitsschwachstellen in KI-Filtern: eine eingehende Studie über die Verwendung von Zeichencodes zur Umgehung von Beschränkungen-1
Auf meiner Seite würde ich den Zeichencode in lesbaren Text zurückübersetzen und umgekehrt. Auf diese Weise kann ich einen uneingeschränkten Dialog mit dem Modell führen und die auferlegten Beschränkungen umgehen.

Aufdeckung von Sicherheitsschwachstellen in KI-Filtern: eine eingehende Studie über die Verwendung von Zeichencodes zur Umgehung von Beschränkungen-1

Eine einfache Möglichkeit, diese Hin- und Herzuordnung vorzunehmen, ist die Verwendung der CyberChef-Formel für die Zeichenkodierung, bei der Sie die entsprechende Basis und das Trennzeichen auswählen können.

Aufdeckung von Sicherheitsschwachstellen in KI-Filtern: eine eingehende Studie über die Verwendung von Zeichencodes zur Umgehung von Beschränkungen-1

 

Gelernte Lektionen

Ich habe die Ähnlichkeiten mit WAF-Filtern und Firewalls bereits angedeutet. Wir sollten nicht nur explizit typisierten Datenverkehr/Inhalte untersuchen, vor allem dann nicht, wenn es möglich ist, Inhalte auf beiden Seiten des Filters umzuwandeln - erzwingen Sie spezifische Inhalte und deaktivieren Sie Umwandlungen, wo Sie können. Durch einen umfassenderen Ansatz bei der Inhaltsfilterung können wir uns besser gegen eine größere Bandbreite von Bedrohungen schützen und sicherstellen, dass unsere Sicherheitsmaßnahmen auch dann noch wirksam sind, wenn Angreifer neue Wege zu ihrer Umgehung entwickeln.

Dieses Experiment unterstreicht einen wichtigen Aspekt der KI und der Modellierung von maschinellem Lernen: die Bedeutung von starken Sicherheitsmaßnahmen. Da sich die KI immer weiter entwickelt und in verschiedene Bereiche integriert, wird das Verständnis und die Entschärfung potenzieller Schwachstellen immer wichtiger. Die Möglichkeit, Filter mithilfe von Zeichencode zu umgehen, erinnert daran, wie wichtig es ist, die Sicherheitsmaßnahmen ständig zu aktualisieren und auf neue Schwachstellen zu testen.

 

künftige Studien

Mit Blick auf die Zukunft wird es interessant sein zu sehen, wie KI-Entwickler diese Art von Herausforderungen bewältigen. Werden sie ausgefeiltere Filtermechanismen entwickeln oder werden sie neue Wege finden, um Zensur direkt in ihre Modelle einzubauen? Das wird nur die Zeit zeigen. Fürs Erste ist dies eine wertvolle Lektion für die laufenden Bemühungen um sichere KI-Technologie.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Aufdeckung von Sicherheitslücken in KI-Filtern: eine eingehende Untersuchung der Verwendung von Zeichencode zur Umgehung von Beschränkungen

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)