中国のAIスタートアップDeepSeekで大規模なデータ流出が発生した。クラウドセキュリティ企業Wizの研究チームが2025年1月に発見した事案で、以下の内容が明らかになった
流出データの詳細
ユーザーのチャット履歴、APIの認証キー、システムログ、バックエンド運用の詳細情報など、100万行以上のログデータが流出。ClickHouseデータベースが認証なしで公開状態となっており、oauth2callback.deepseek.comとdev.deepseek.comの2つのドメインで露出していた。特にポート8123と9000が無防備に開放されていた点が重要だ。
対応の経緯
Wizの研究チームが数分で脆弱性を発見し、DeepSeekは通知を受けて1時間以内にデータベースを保護した。
from:DeepSeek database left user data, chat histories exposed for anyone to see
【編集部解説】
DeepSeekが抱えていた脆弱性は、基本的なデータベースセキュリティの欠如という極めて初歩的なものでした。ClickHouseというデータベース管理システムを使用していましたが、認証機能を全く設定していなかったのです。
特に深刻なのは、APIキーの形式がOpenAIのものと酷似していた点です。これは、DeepSeekがOpenAIのシステムを参考に開発を進めていた可能性を示唆しています。
業界への影響
このインシデントは、AI業界全体にとって重要な警鐘となっています。AI開発企業は高度な技術開発に注力するあまり、基本的なセキュリティ対策を疎かにしがちです。
特に中国のAI企業に対する監視の目は一層厳しくなることが予想されます。イタリアのデータ保護機関Garanteは既にDeepSeekのアプリをストアから削除させる措置を取っており、アイルランドも調査を開始しています。
技術的な観点
今回露出していたClickHouseデータベースは、大規模なデータ分析に特化したシステムです。ロシアのYandexが開発したこのシステムは、通常であれば内部システムとしてのみアクセス可能であるべきものでした。
特筆すべきは、データベースが8123番と9000番という非標準のポートで公開されていた点です。これは通常のセキュリティスキャンでは見落とされやすい設定であり、意図的な設定である可能性も否定できません。
今後の展望
AI開発競争が激化する中、セキュリティとプライバシーの重要性は一層高まっていくでしょう。特に、OpenAIとDeepSeekの対立は、AIモデルの訓練データの取り扱いに関する新たな議論を引き起こす可能性があります。
このインシデントを機に、各国の規制当局はAI企業に対するセキュリティ基準の策定を加速させる可能性が高いと考えられます。特に、ユーザーデータの取り扱いと越境データ移転に関する規制は強化されるでしょう。