Fuite de la base de données DeepSeek : les risques de sécurité liés à l'essor de l'IA en Chine

Ces dernières années, la Chine a obtenu des résultats de renommée mondiale dans le domaine de l'intelligence artificielle, et un certain nombre d'entreprises telles que DeepSeek Il s'agit d'une entreprise innovante. La fuite de la base de données DeepSeek a une fois de plus tiré la sonnette d'alarme, nous rappelant que nous devons trouver un équilibre entre le développement technologique et la sécurité afin d'éviter de répéter les mêmes erreurs.

La fuite ne signifie pas que les données de l'utilisateur sont utilisées de manière malveillante, ce test ne fait que révéler des problèmes de sécurité, cette vulnérabilité a été comblée à temps après la découverte, ne cédez pas à la panique.PS : En fait, chaque parcelle de vos données est transparente. Et en observant cette vulnérabilité, il est raisonnable de deviner à quelles fins elles sont utilisées, pourquoi se soucier de la vie privée dans cette vie ?

 

Wiz Research révèle l'exposition de la base de données DeepSeek et la fuite d'informations sensibles, y compris des journaux de conversation.

Une base de données accessible au public appartenant à DeepSeek permettait un contrôle total des opérations de la base de données, y compris la possibilité d'accéder aux données internes. L'exposition comprenait plus d'un million de lignes de flux de données contenant des informations très sensibles.

警惕!DeepSeek 数据库泄露:中国 AI 崛起背后的安全隐患

Wiz Research a découvert une base de données ClickHouse accessible au public, appartenant à DeepSeek, qui permettait un contrôle total des opérations de la base de données, y compris la possibilité d'accéder aux données internes. L'équipe de Wiz Research a immédiatement et de manière responsable révélé le problème à DeepSeek, qui a rapidement pris des mesures pour protéger les données exposées.

Dans cet article de blog, nous détaillons nos conclusions et examinons leurs implications plus larges pour le secteur dans son ensemble.

 

résumés

DeepSeek est une startup chinoise spécialisée dans l'IA, connue pour ses modèles d'IA révolutionnaires, en particulier la Profondeur de l'eau-R1 qui a récemment fait l'objet d'une grande attention de la part des médias. Ce modèle rivalise avec les principaux systèmes d'IA tels que o1 d'OpenAI en termes de performances et se distingue par sa rentabilité et son efficacité.

DeepSeek faisant des vagues dans le domaine de l'IA, l'équipe de Wiz Research a entrepris d'évaluer son dispositif de sécurité externe et d'identifier toutes les vulnérabilités potentielles.

En quelques minutes, nous avons découvert une base de données ClickHouse associée à DeepSeek, accessible au public, complètement ouverte et non authentifiée, exposant ainsi des données sensibles. Elle est hébergée sur oauth2callback.deepseek.com:9000 et dev.deepseek.com:9000.

La base de données contient un grand nombre de journaux de discussion, de données d'arrière-plan et d'informations sensibles, notamment des flux de journaux, des clés d'API et des détails d'opérations.

Plus important encore, cette exposition permet un contrôle total de la base de données et potentiellement une élévation des privilèges au sein de l'environnement DeepSeek, sans qu'il soit nécessaire de mettre en place des mécanismes d'authentification ou de défense contre le monde extérieur.

警惕!DeepSeek 数据库泄露:中国 AI 崛起背后的安全隐患警惕!DeepSeek 数据库泄露:中国 AI 崛起背后的安全隐患

 

processus d'exposition

Nos efforts de reconnaissance ont commencé par l'évaluation des domaines accessibles au public de DeepSeek. En cartographiant la surface d'attaque externe à l'aide de techniques de reconnaissance directe (découverte passive et active de sous-domaines), nous avons identifié environ 30 sous-domaines orientés vers l'Internet. La plupart des sous-domaines semblaient bénins, hébergeant des éléments tels que des interfaces de chatbot, des pages d'état et de la documentation API - dont aucun n'indiquait initialement une exposition à haut risque.

Cependant, lorsque nous avons étendu notre recherche au-delà des ports HTTP standard (80/443), nous avons détecté deux hôtes associés à ce qui suitPorts ouverts inhabituels (8123 et 9000): :

  • http://oauth2callback.deepseek.com:8123
  • http://dev.deepseek.com:8123
  • http://oauth2callback.deepseek.com:9000
  • http://dev.deepseek.com:9000

Après une enquête plus approfondie, les ports ont indiqué unBase de données ClickHouse accessible au publicLa base de données était accessible sans aucune authentification, ce qui constituait un motif d'alarme immédiat.

ClickHouse est un système de gestion de base de données en colonnes open source conçu pour des requêtes analytiques rapides sur de grands ensembles de données. Il a été développé par Yandex et est largement utilisé pour le traitement des données en temps réel, le stockage des journaux et l'analyse des données volumineuses, ce qui suggère que ce type d'exposition est une découverte précieuse et sensible.

警惕!DeepSeek 数据库泄露:中国 AI 崛起背后的安全隐患

En utilisant l'interface HTTP de ClickHouse, nous avons accédé au chemin d'accès /play, qui est le suivantPermet l'exécution de requêtes SQL arbitraires directement à partir du navigateur. Exécutez un simple SHOW TABLES ; la requête renvoie une liste complète des ensembles de données accessibles.

警惕!DeepSeek 数据库泄露:中国 AI 崛起背后的安全隐患

Formulaires de sortie de l'interface Web ClickHouse

La table log_stream se distingue des autres, car elle contient des tables avecDonnées très sensiblesd'un grand nombre d'enregistrements.

La table log_stream contientPlus d'un million d'entrées dans le journalLa première est qu'il contient des colonnes particulièrement révélatrices :

警惕!DeepSeek 数据库泄露:中国 AI 崛起背后的安全隐患
  • horodatage - date d'enregistrement à partir de 6 janvier 2025commencement
  • span_name - fait référence à divers éléments internes de l'entreprise. Point final de l'API DeepSeek
  • string.values - Journal en texte brutComprendjournal de bord,Clés d'API, détails du backend et métadonnées opérationnelles
  • _service - indique quel service Services DeepSeekLes journaux sont générés
  • source - expositionSource de la demande d'enregistrementContientJournaux de conversation, clés API, structure des répertoires et journaux des métadonnées du chatbot
警惕!DeepSeek 数据库泄露:中国 AI 崛起背后的安全隐患

Ce niveau d'accès constitue un risque sérieux pour la sécurité de DeepSeek et de ses utilisateurs. Un pirate peut non seulement récupérer des journaux sensibles et des messages de chat en texte clair, mais il peut également utiliser des requêtes telles que SELECT * FROM file('filename') pour extraire des mots de passe en texte clair et des fichiers locaux ainsi que des informations propriétaires directement à partir du serveur, en fonction de la configuration de ClickHouse.

(Note : nous n'avons pas effectué de recherches intrusives au-delà de la portée de l'énumération afin de maintenir des pratiques de recherche éthiques).

 

Principaux enseignements

L'adoption rapide de services d'IA sans mesures de sécurité appropriées est intrinsèquement risquée. Cette exposition met en évidence le fait que les risques de sécurité directs des applications d'IA découlent de l'infrastructure et des outils qui les soutiennent.

Alors que l'attention portée à la sécurité de l'IA s'est concentrée sur les menaces futures, le véritable danger provient souvent des risques fondamentaux - tels que l'exposition accidentelle d'une base de données externe. Ces risques constituent le fondement de la sécurité et doivent rester une priorité absolue pour les équipes de sécurité.

Alors que les organisations se précipitent pour adopter les outils et services d'IA d'un nombre croissant de start-ups et de fournisseurs, il est important de se rappeler qu'en faisant cela, nous confions des données sensibles à ces entreprises. Le rythme rapide de l'adoption conduit souvent à négliger la sécurité, mais la protection des données des clients doit rester une priorité absolue. Les équipes de sécurité doivent travailler en étroite collaboration avec les ingénieurs en IA pour s'assurer qu'il y a une visibilité sur l'architecture, les outils et les modèles utilisés afin que nous puissions protéger les données et prévenir l'exposition.

 

rendre un verdict

Jamais une technologie n'a été adoptée à un tel rythme que l'IA. De nombreuses entreprises spécialisées dans l'IA se sont rapidement transformées en fournisseurs d'infrastructures critiques sans les cadres de sécurité qui accompagnent généralement une adoption aussi généralisée. À mesure que l'IA s'intègre plus profondément dans les entreprises à l'échelle mondiale, le secteur doit reconnaître les risques liés à la manipulation de données sensibles et appliquer des pratiques de sécurité comparables à celles exigées par les fournisseurs de clouds publics et les grands fournisseurs d'infrastructures.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...