Nos últimos anos, a China fez conquistas de renome mundial no campo da inteligência artificial, e várias empresas como a DeepSeek Esse é um empreendimento inovador. No entanto, ao buscar avanços tecnológicos, as questões de segurança não devem ser ignoradas, e o vazamento do banco de dados do DeepSeek mais uma vez soou o alarme, lembrando-nos de que devemos encontrar um equilíbrio entre desenvolvimento tecnológico e segurança para evitar repetir os mesmos erros.
O vazamento não significa que os dados do usuário estejam sendo usados de forma maliciosa, esse teste apenas revela problemas de segurança, essa vulnerabilidade foi fechada a tempo após a descoberta, não entre em pânico.PS: Na verdade, cada parte dos seus dados é transparente. E observando essa vulnerabilidade, é razoável adivinhar para que finalidade ela é usada. Por que se preocupar com a privacidade nesta vida?
Wiz Research expõe a exposição do banco de dados DeepSeek, vaza informações confidenciais, incluindo registros de bate-papo
Um banco de dados de acesso público pertencente à DeepSeek permitia o controle total sobre as operações do banco de dados, incluindo a capacidade de acessar dados internos. A exposição incluiu mais de um milhão de linhas de fluxos de registro contendo informações altamente confidenciais.
A Wiz Research descobriu um banco de dados ClickHouse de acesso público pertencente à DeepSeek que permitia controle total sobre as operações do banco de dados, incluindo a capacidade de acessar dados internos. A exposição incluiu mais de um milhão de linhas de fluxos de logs contendo logs de bate-papo, chaves, detalhes de back-end e outras informações altamente confidenciais. A equipe da Wiz Research divulgou o problema de forma imediata e responsável à DeepSeek, que rapidamente tomou medidas para proteger os dados expostos.
Nesta postagem do blog, detalharemos nossas descobertas e consideraremos suas implicações mais amplas para o setor como um todo.
resumos
A DeepSeek é uma startup chinesa de IA conhecida por seus modelos inovadores de IA, especialmente o DeepSeek-R1 modelo de inferência que recentemente recebeu muita atenção da mídia. O modelo rivaliza com os principais sistemas de IA, como o o1 da OpenAI, em termos de desempenho, e se destaca por sua relação custo-benefício e eficiência.
Com o DeepSeek fazendo barulho no espaço de IA, a equipe da Wiz Research decidiu avaliar sua postura de segurança externa e identificar possíveis vulnerabilidades.
Em poucos minutos, descobrimos um banco de dados ClickHouse de acesso público associado ao DeepSeek que estava completamente aberto e não autenticado, expondo dados confidenciais. Ele está hospedado em oauth2callback.deepseek.com:9000 e dev.deepseek.com:9000.
O banco de dados contém uma grande quantidade de registros de bate-papo, dados de back-end e informações confidenciais, incluindo fluxos de registro, chaves de API e detalhes de operação.
Mais importante ainda, essa exposição permite o controle total do banco de dados e, potencialmente, a elevação de privilégios dentro do ambiente do DeepSeek sem a necessidade de qualquer autenticação ou mecanismos de defesa contra o mundo externo.
processo de exposição
Nossos esforços de reconhecimento começaram pela avaliação dos domínios publicamente acessíveis do DeepSeek. Ao mapear a superfície de ataque externa usando técnicas de reconhecimento direto (descoberta passiva e ativa de subdomínios), identificamos aproximadamente 30 subdomínios voltados para a Internet. A maioria dos subdomínios parecia benigna, hospedando elementos como interfaces de chatbot, páginas de status e documentação de API - nenhum dos quais indicava inicialmente uma exposição de alto risco.
No entanto, quando expandimos nossa pesquisa para além das portas HTTP padrão (80/443), detectamos dois hosts associados ao seguintePortas abertas incomuns (8123 e 9000)::
- http://oauth2callback.deepseek.com:8123
- http://dev.deepseek.com:8123
- http://oauth2callback.deepseek.com:9000
- http://dev.deepseek.com:9000
Após uma investigação mais aprofundada, as portas apontaram para umBanco de dados do ClickHouse exposto publicamenteO banco de dados era acessível sem nenhuma autenticação, o que era motivo imediato de alarme.
O ClickHouse é um sistema de gerenciamento de banco de dados colunar de código aberto projetado para consultas analíticas rápidas em grandes conjuntos de dados. Ele foi desenvolvido pela Yandex e é amplamente usado para processamento de dados em tempo real, armazenamento de registros e análise de big data, o que sugere que esse tipo de exposição é uma descoberta muito valiosa e sensível.
Usando a interface HTTP do ClickHouse, acessamos o caminho /play, que éPermite a execução de consultas SQL arbitrárias diretamente do navegador. Execute um simples SHOW TABLES; a consulta retorna uma lista completa de conjuntos de dados acessíveis.
Formulários de saída da interface do usuário da Web do ClickHouse
Uma tabela que se destaca é a log_stream, que contém tabelas comDados altamente confidenciaisde um grande número de registros.
A tabela log_stream contémMais de 1 milhão de entradas de registroO primeiro é que ele contém colunas que são particularmente reveladoras:
- timestamp - a data do registro de 6 de janeiro de 2025início
- span_name - faz referência a vários itens internos Ponto de extremidade da API do DeepSeek
- string.values - Registro de texto simplesIncluiRegistro de bate-papoeChaves de API, detalhes de back-end e metadados operacionais
- _service - indica qual Serviços DeepSeekOs registros são gerados
- _source - exposiçãoOrigem da solicitação de registroContémRegistros de bate-papo, chaves de API, estrutura de diretório e registros de metadados do chatbot
Esse nível de acesso representa um sério risco para a própria segurança do DeepSeek e a de seus usuários finais. Um invasor não apenas pode recuperar registros confidenciais e mensagens de bate-papo em texto simples, mas também pode usar consultas como SELECT * FROM file('filename') para extrair senhas em texto simples e arquivos locais, bem como informações proprietárias diretamente do servidor, dependendo da configuração do ClickHouse.
(Observação: não realizamos consultas intrusivas além do escopo da enumeração para manter práticas éticas de pesquisa).
Principais conclusões
A rápida adoção de serviços de IA sem medidas de segurança adequadas é inerentemente arriscada. Essa exposição destaca o fato de que os riscos diretos à segurança dos aplicativos de IA decorrem da infraestrutura e das ferramentas que os suportam.
Embora grande parte da atenção em torno da segurança de IA tenha se concentrado em ameaças futuras, o perigo real geralmente vem de riscos fundamentais, como a exposição acidental de bancos de dados externos. Esses riscos são a base da segurança e devem continuar sendo uma das principais prioridades das equipes de segurança.
À medida que as organizações correm para adotar ferramentas e serviços de IA de um número crescente de start-ups e provedores, é importante lembrar que, ao fazer isso, estamos confiando dados confidenciais a essas empresas. O ritmo acelerado da adoção geralmente leva a uma negligência com a segurança, mas a proteção dos dados dos clientes deve continuar sendo uma prioridade máxima. As equipes de segurança devem trabalhar em estreita colaboração com os engenheiros de IA para garantir que haja visibilidade da arquitetura, das ferramentas e dos modelos usados para que possamos proteger os dados e evitar a exposição.
chegar a um veredicto
O mundo nunca viu uma tecnologia ser adotada em um ritmo tão acelerado como o da IA. Muitas empresas de IA evoluíram rapidamente para provedores de infraestrutura crítica sem as estruturas de segurança que normalmente acompanham essa adoção generalizada. À medida que a IA se integra mais profundamente aos negócios em todo o mundo, o setor deve reconhecer os riscos de lidar com dados confidenciais e aplicar práticas de segurança comparáveis às exigidas pelos provedores de nuvem pública e pelos principais provedores de infraestrutura.