DeepSeekデータベース流出：中国のAI台頭に潜むセキュリティリスク

38.8K 00

近年、中国は人工知能の分野で世界的に有名な業績を上げており、以下のような企業が数多く存在する。ディープシークこれは革新的な企業である。ディープシークのデータベース流出は再び警鐘を鳴らし、同じ過ちを繰り返さないためにも、技術開発とセキュリティのバランスを取る必要があることを再認識させた。

PS：実際、あなたのデータはすべて透明である。この脆弱性を観察すれば、それがどのような目的で使用されているのかを推測することができる。

ウィズ・リサーチ社がディープシーク社のデータベース流出を暴露、チャットログを含む機密情報が流出

ディープシークが所有する一般にアクセス可能なデータベースは、内部データへのアクセス能力を含め、データベース操作の完全な制御を可能にしていた。暴露されたのは、非常に機密性の高い情報を含む100万行を超えるログ・ストリームでした。

Wiz Researchは、DeepSeekが所有する一般にアクセス可能なClickHouseデータベースを発見し、内部データへのアクセス機能を含むデータベース操作の完全な制御を可能にしました。Wiz Researchのチームは、DeepSeek社にこの問題を直ちに責任を持って開示し、DeepSeek社は公開されたデータを保護するための措置を迅速に講じました。

このブログでは、調査結果の詳細と、業界全体に対するより広範な影響について考察する。

抄録

DeepSeekは、画期的なAIモデルで知られる中国のAIスタートアップ企業であり、特にその技術力は高く評価されている。ディープシーク-R1 最近メディアで注目されている推論モデルである。このモデルは、OpenAIのo1などの主要なAIシステムに匹敵する性能を持ち、費用対効果と効率性で際立っている。

AI分野で波紋を広げているDeepSeekについて、Wiz Researchチームは、その外部セキュリティ態勢を評価し、潜在的な脆弱性を特定することに着手した。

数分以内に、DeepSeekに関連付けられている一般にアクセス可能なClickHouseデータベースが完全にオープンで認証されておらず、機密データが暴露されていることが判明しました。このデータベースは、oauth2callback.deepseek.com:9000およびdev.deepseek.com:9000でホストされています。

このデータベースには、大量のチャットログ、バックエンドデータ、ログストリーム、APIキー、運用の詳細などの機密情報が含まれている。

さらに重要なことは、この暴露によって、認証や外部に対する防御メカニズムを必要とせずに、DeepSeek環境内でデータベースを完全に制御し、特権を昇格できる可能性があるということです。

露光プロセス

偵察活動は、DeepSeek の一般にアクセス可能なドメインを評価することから開始しました。直接的な偵察技術（サブドメインの受動的および能動的な発見）を使用して外部攻撃サーフェスをマッピングすることで、インターネットに面した約 30 のサブドメインを特定しました。ほとんどのサブドメインは、チャットボットのインターフェイス、ステータスページ、APIドキュメントなどの要素をホストしており、当初は高リスクの暴露を示すものはありませんでした。

しかし、標準的なHTTPポート（80/443）以外にも検索範囲を広げたところ、以下の2つのホストが検出された。異常なオープンポート（8123と9000）::

http://oauth2callback.deepseek.com:8123
http://dev.deepseek.com:8123
http://oauth2callback.deepseek.com:9000
http://dev.deepseek.com:9000

さらに調査を進めると、港湾は公開されたクリックハウスのデータベースデータベースは認証なしでアクセスできた。

ClickHouseはオープンソースのカラム型データベース管理システムで、大規模なデータセットに対する高速な分析クエリのために設計されている。これはYandexによって開発され、リアルタイムデータ処理、ログ保存、ビッグデータ分析に広く使用されていることから、この種の暴露は貴重で繊細な発見であることが示唆される。

ClickHouseのHTTPインターフェースを使って、/playパスにアクセスした。ブラウザから直接任意のSQLクエリを実行可能.このクエリは、アクセス可能なデータセットの完全なリストを返す。

ClickHouse Web UI 出力フォーム

目立つテーブルの1つがlog_streamである。機密性の高いデータ大量のログの

log_streamテーブルには100万件以上のログ一つ目は、特に明らかになるコラムが含まれていることだ：

timestamp - ログの日付 2025年1月6日開始
span_name - 様々な内部情報を参照する。 DeepSeek API エンドポイント
文字列.値 プレーンテキスト・ログ含まれるものチャットログそしてAPIキー、バックエンドの詳細、運用メタデータ
service - どのサービスかを示す。 ディープシーク・サービスログが生成される
ソース - 露出ログ要求元内容チャットログ、APIキー、ディレクトリ構造、チャットボットのメタデータログ

このレベルのアクセスは、DeepSeek 自身とエンドユーザのセキュリティに深刻なリスクをもたらします。攻撃者は、機密ログや実際のプレーンテキストのチャットメッセージを取得できるだけでなく、ClickHouseの設定によっては、SELECT * FROM file('ファイル名')などのクエリを使用して、プレーンテキストのパスワードやローカルファイル、専有情報をサーバから直接抽出することもできます。

(注：倫理的な研究慣行を維持するため、列挙の範囲を超えた侵入的な問い合わせは行っていない)。

要点

適切なセキュリティ対策なしにAIサービスを急速に導入することは、本質的にリスクが高い。今回の暴露は、AIアプリケーションの直接的なセキュリティリスクは、それをサポートするインフラとツールに起因するという事実を浮き彫りにしている。

AIセキュリティに関する注目の多くは将来の脅威に焦点を当てているが、本当の危険は多くの場合、偶発的な外部データベースへの暴露といった根本的なリスクに起因する。これらのリスクはセキュリティの基礎であり、セキュリティ・チームにとって最優先事項であり続けるべきである。

多くの新興企業やプロバイダーがAIツールやサービスの導入に躍起になる中、私たちはこれらの企業に機密データを預けていることを忘れてはならない。急速な導入ペースはしばしばセキュリティの軽視につながるが、顧客データの保護は最優先事項であり続けなければならない。セキュリティ・チームはAIエンジニアと緊密に連携し、使用されているアーキテクチャ、ツール、モデルの可視性を確保することで、データを保護し、暴露を防ぐことができるようにしなければならない。

評決を下す

AIほど急速なペースで採用されているテクノロジーは、世界でも例がない。多くのAI企業は、このような普及に伴う一般的なセキュリティフレームワークを持たないまま、重要なインフラプロバイダーへと急速に進化している。AIが世界的にビジネスに深く組み込まれるようになるにつれ、業界は機密データを扱うリスクを認識し、パブリッククラウドプロバイダーや主要インフラプロバイダーが要求するものと同等のセキュリティ慣行を実施しなければならない。