Fuite de la base de données DeepSeek : les risques de sécurité liés à l'essor de l'IA en Chine

Nouvelles de l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

10.2K 00

Ces dernières années, la Chine a obtenu des résultats de renommée mondiale dans le domaine de l'intelligence artificielle, et un certain nombre d'entreprises telles que DeepSeek Il s'agit d'une entreprise innovante. La fuite de la base de données DeepSeek a une fois de plus tiré la sonnette d'alarme, nous rappelant que nous devons trouver un équilibre entre le développement technologique et la sécurité afin d'éviter de répéter les mêmes erreurs.

La fuite ne signifie pas que les données de l'utilisateur sont utilisées de manière malveillante, ce test ne fait que révéler des problèmes de sécurité, cette vulnérabilité a été comblée à temps après la découverte, ne cédez pas à la panique.PS : En fait, chaque parcelle de vos données est transparente. Et en observant cette vulnérabilité, il est raisonnable de deviner à quelles fins elles sont utilisées, pourquoi se soucier de la vie privée dans cette vie ?

Wiz Research révèle l'exposition de la base de données DeepSeek et la fuite d'informations sensibles, y compris des journaux de conversation.

Une base de données accessible au public appartenant à DeepSeek permettait un contrôle total des opérations de la base de données, y compris la possibilité d'accéder aux données internes. L'exposition comprenait plus d'un million de lignes de flux de données contenant des informations très sensibles.

Wiz Research a découvert une base de données ClickHouse accessible au public, appartenant à DeepSeek, qui permettait un contrôle total des opérations de la base de données, y compris la possibilité d'accéder aux données internes. L'équipe de Wiz Research a immédiatement et de manière responsable révélé le problème à DeepSeek, qui a rapidement pris des mesures pour protéger les données exposées.

Dans cet article de blog, nous détaillons nos conclusions et examinons leurs implications plus larges pour le secteur dans son ensemble.

résumés

DeepSeek est une startup chinoise spécialisée dans l'IA, connue pour ses modèles d'IA révolutionnaires, en particulier la Profondeur de l'eau-R1 qui a récemment fait l'objet d'une grande attention de la part des médias. Ce modèle rivalise avec les principaux systèmes d'IA tels que o1 d'OpenAI en termes de performances et se distingue par sa rentabilité et son efficacité.

DeepSeek faisant des vagues dans le domaine de l'IA, l'équipe de Wiz Research a entrepris d'évaluer son dispositif de sécurité externe et d'identifier toutes les vulnérabilités potentielles.

En quelques minutes, nous avons découvert une base de données ClickHouse associée à DeepSeek, accessible au public, complètement ouverte et non authentifiée, exposant ainsi des données sensibles. Elle est hébergée sur oauth2callback.deepseek.com:9000 et dev.deepseek.com:9000.

La base de données contient un grand nombre de journaux de discussion, de données d'arrière-plan et d'informations sensibles, notamment des flux de journaux, des clés d'API et des détails d'opérations.

Plus important encore, cette exposition permet un contrôle total de la base de données et potentiellement une élévation des privilèges au sein de l'environnement DeepSeek, sans qu'il soit nécessaire de mettre en place des mécanismes d'authentification ou de défense contre le monde extérieur.

processus d'exposition

Nos efforts de reconnaissance ont commencé par l'évaluation des domaines accessibles au public de DeepSeek. En cartographiant la surface d'attaque externe à l'aide de techniques de reconnaissance directe (découverte passive et active de sous-domaines), nous avons identifié environ 30 sous-domaines orientés vers l'Internet. La plupart des sous-domaines semblaient bénins, hébergeant des éléments tels que des interfaces de chatbot, des pages d'état et de la documentation API - dont aucun n'indiquait initialement une exposition à haut risque.

Cependant, lorsque nous avons étendu notre recherche au-delà des ports HTTP standard (80/443), nous avons détecté deux hôtes associés à ce qui suitPorts ouverts inhabituels (8123 et 9000): :

http://oauth2callback.deepseek.com:8123
http://dev.deepseek.com:8123
http://oauth2callback.deepseek.com:9000
http://dev.deepseek.com:9000

Après une enquête plus approfondie, les ports ont indiqué unBase de données ClickHouse accessible au publicLa base de données était accessible sans aucune authentification, ce qui constituait un motif d'alarme immédiat.

ClickHouse est un système de gestion de base de données en colonnes open source conçu pour des requêtes analytiques rapides sur de grands ensembles de données. Il a été développé par Yandex et est largement utilisé pour le traitement des données en temps réel, le stockage des journaux et l'analyse des données volumineuses, ce qui suggère que ce type d'exposition est une découverte précieuse et sensible.

En utilisant l'interface HTTP de ClickHouse, nous avons accédé au chemin d'accès /play, qui est le suivantPermet l'exécution de requêtes SQL arbitraires directement à partir du navigateur. Exécutez un simple SHOW TABLES ; la requête renvoie une liste complète des ensembles de données accessibles.

Formulaires de sortie de l'interface Web ClickHouse

La table log_stream se distingue des autres, car elle contient des tables avecDonnées très sensiblesd'un grand nombre d'enregistrements.

La table log_stream contientPlus d'un million d'entrées dans le journalLa première est qu'il contient des colonnes particulièrement révélatrices :

horodatage - date d'enregistrement à partir de 6 janvier 2025commencement
span_name - fait référence à divers éléments internes de l'entreprise. Point final de l'API DeepSeek
string.values - Journal en texte brutComprendjournal de bord,Clés d'API, détails du backend et métadonnées opérationnelles
_service - indique quel service Services DeepSeekLes journaux sont générés
source - expositionSource de la demande d'enregistrementContientJournaux de conversation, clés API, structure des répertoires et journaux des métadonnées du chatbot

Ce niveau d'accès constitue un risque sérieux pour la sécurité de DeepSeek et de ses utilisateurs. Un pirate peut non seulement récupérer des journaux sensibles et des messages de chat en texte clair, mais il peut également utiliser des requêtes telles que SELECT * FROM file('filename') pour extraire des mots de passe en texte clair et des fichiers locaux ainsi que des informations propriétaires directement à partir du serveur, en fonction de la configuration de ClickHouse.

(Note : nous n'avons pas effectué de recherches intrusives au-delà de la portée de l'énumération afin de maintenir des pratiques de recherche éthiques).

Principaux enseignements

L'adoption rapide de services d'IA sans mesures de sécurité appropriées est intrinsèquement risquée. Cette exposition met en évidence le fait que les risques de sécurité directs des applications d'IA découlent de l'infrastructure et des outils qui les soutiennent.

Alors que l'attention portée à la sécurité de l'IA s'est concentrée sur les menaces futures, le véritable danger provient souvent des risques fondamentaux - tels que l'exposition accidentelle d'une base de données externe. Ces risques constituent le fondement de la sécurité et doivent rester une priorité absolue pour les équipes de sécurité.

Alors que les organisations se précipitent pour adopter les outils et services d'IA d'un nombre croissant de start-ups et de fournisseurs, il est important de se rappeler qu'en faisant cela, nous confions des données sensibles à ces entreprises. Le rythme rapide de l'adoption conduit souvent à négliger la sécurité, mais la protection des données des clients doit rester une priorité absolue. Les équipes de sécurité doivent travailler en étroite collaboration avec les ingénieurs en IA pour s'assurer qu'il y a une visibilité sur l'architecture, les outils et les modèles utilisés afin que nous puissions protéger les données et prévenir l'exposition.

rendre un verdict

Jamais une technologie n'a été adoptée à un tel rythme que l'IA. De nombreuses entreprises spécialisées dans l'IA se sont rapidement transformées en fournisseurs d'infrastructures critiques sans les cadres de sécurité qui accompagnent généralement une adoption aussi généralisée. À mesure que l'IA s'intègre plus profondément dans les entreprises à l'échelle mondiale, le secteur doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité comparables à celles exigées par les fournisseurs de clouds publics et les grands fournisseurs d'infrastructures.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Les notes d'IA les plus populaires de l'année ont été mises à jour et la connaissance pénètre dans le cerveau de manière magique.

Nouvelles de l'IA

Il y a 8 mois

07.8K

亚马逊发布目前最大型的文本语音转换人工智能模型BASE TTS展现了“潜在能力”

Amazon lance BASE TTS, le plus grand modèle d'IA de synthèse vocale disponible, montrant ses "capacités potentielles".

Nouvelles de l'IA

il y a 2 ans

08K

英伟达发布个人AI超级计算机：NVIDIA Project DIGITS，能运行2000亿参数的大模型

NVIDIA dévoile son supercalculateur personnel d'IA : NVIDIA Project DIGITS, capable de faire tourner de grands modèles avec 200 milliards de paramètres.

Nouvelles de l'IA

Il y a 7 mois

08.2K

Gemini API lance un nouveau modèle d'intégration de texte : pics de performance, prise en charge des entrées 8K

Nouvelles de l'IA

Il y a 6 mois

010.3K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Fuite de la base de données DeepSeek : les risques de sécurité liés à l'essor de l'IA en Chine

résumés

processus d'exposition

Principaux enseignements

rendre un verdict

L'OpenAI va ouvrir le GPT ? Le plan directeur de l'IA du futur dévoilé de manière choquante : GPT-5, Agent, stratégie de tarification expliquée dans tous ses aspects !

Top 5 des plateformes d'inférence IA qui utilisent gratuitement une version complète de DeepSeek-R1

Articles connexes

Les notes d'IA les plus populaires de l'année ont été mises à jour et la connaissance pénètre dans le cerveau de manière magique.

Amazon lance BASE TTS, le plus grand modèle d'IA de synthèse vocale disponible, montrant ses "capacités potentielles".

NVIDIA dévoile son supercalculateur personnel d'IA : NVIDIA Project DIGITS, capable de faire tourner de grands modèles avec 200 milliards de paramètres.

Gemini API lance un nouveau modèle d'intégration de texte : pics de performance, prise en charge des entrées 8K

Pas de commentaires

Dernières collections

Derniers articles

Fuite de la base de données DeepSeek : les risques de sécurité liés à l'essor de l'IA en Chine

résumés

processus d'exposition

Principaux enseignements

rendre un verdict

L'OpenAI va ouvrir le GPT ? Le plan directeur de l'IA du futur dévoilé de manière choquante : GPT-5, Agent, stratégie de tarification expliquée dans tous ses aspects !

Top 5 des plateformes d'inférence IA qui utilisent gratuitement une version complète de DeepSeek-R1

Articles connexes

Les notes d'IA les plus populaires de l'année ont été mises à jour et la connaissance pénètre dans le cerveau de manière magique.

Amazon lance BASE TTS, le plus grand modèle d'IA de synthèse vocale disponible, montrant ses "capacités potentielles".

NVIDIA dévoile son supercalculateur personnel d'IA : NVIDIA Project DIGITS, capable de faire tourner de grands modèles avec 200 milliards de paramètres.

Gemini API lance un nouveau modèle d'intégration de texte : pics de performance, prise en charge des entrées 8K

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles