Last Updated on 2025-03-23 10:35 by admin
ミシガン大学教授でVoxel51の共同創設者であるJason Corso氏は、2025年3月22日にVentureBeatで「オープンソースAI論争:選択的透明性がもたらす深刻なリスク」と題する記事を発表した。
この記事では、テック大手企業がAIリリースを「オープン」と宣言する中で、真のオープンソースの意味と選択的透明性の問題点について論じている。Corso氏は、AIの透明性が無計画に、時には不誠実に信頼を生み出すために利用されていると指摘している。
記事では、真のオープンソースコラボレーションが技術革新を加速させると同時に、偏りのない倫理的で社会に有益な技術開発を促進すると主張している。IBMが2,400人のIT意思決定者を対象に実施した調査によると、オープンソースAIツールの使用に対する関心が高まっていることが明らかになっている。
Corso氏は、LAION-5Bデータセットの事例を挙げている。このデータセットは約58億5000万個のカラー画像とテキストのペアを含む大規模なオープンデータセットで、2023年12月にスタンフォード大学の研究者によって児童性的虐待素材(CSAM)が含まれていることが発見された。この発見により、データセットの問題が明るみに出て修正されたが、もしOpenAIのSoraやGoogleのGeminiのような閉鎖的なデータセットだった場合、結果はさらに悪化していた可能性があると指摘している。
記事では、Metaが2024年7月23日に発表したLlama 3.1 405Bを例に挙げ、「最初のフロンティアレベルのオープンソースAIモデル」と宣伝しながらも、システムの事前トレーニング済みパラメータと少しのソフトウェアのみを公開し、ソースコードやデータセットなどの重要なコンポーネントは閉鎖されたままであることを批判している。
Corso氏は、AIシステム全体を共有することでオープン性と透明性を確保し、安全で倫理的に開発されたAIでイノベーションを育むことの重要性を強調している。テック企業からの大胆なリーダーシップと自己統治のための協力がなければ、情報格差は公共の信頼と受容を損なう可能性があると警告している。
from:The open-source AI debate: Why selective transparency poses a serious risk
【編集部解説】
AIの透明性とオープン性をめぐる議論が、テクノロジー業界で熱を帯びています。Jason Corso教授が指摘するように、「オープンソース」という言葉が単なるマーケティング用語として使われる傾向が強まっており、本来の意味から乖離しつつあります。
オープンソースの本質は、単にコードやモデルの一部を公開することではなく、システム全体の透明性と再現可能性にあります。しかし、現状では多くの企業が「選択的透明性」を採用し、都合の良い部分だけを公開する傾向にあるのです。
例えば、Metaが2024年7月に発表したLlama 3.1 405Bは「最初のフロンティアレベルのオープンソースAIモデル」と宣伝されましたが、実際には事前トレーニング済みパラメータと一部のソフトウェアのみが公開され、ソースコードやデータセットは非公開のままです。Open Source Initiativeの2025年2月の声明によれば、このライセンスはオープンソースの定義を満たしていないとされています。
AIシステムの複雑さを考えると、これは大きな問題です。AIモデルはシステムソースコード、モデルパラメータ、データセット、ハイパーパラメータ、トレーニングソースコード、乱数生成、ソフトウェアフレームワークなど、多くの要素から構成されています。これらすべてが協調して機能してこそ、AIシステムは適切に動作するのです。
LAION-5Bデータセットの事例は、透明性の重要性を示す好例です。このオープンデータセットには児童性的虐待素材(CSAM)が含まれていることが2023年12月にスタンフォード大学の研究者によって発見されました。問題が発見された後、LAIONはデータセットを一時的に削除し、業界の監視団体と協力して問題を解決し、2024年8月にRE-LAION 5Bとして安全なバージョンをリリースしました。
もしこれが閉鎖的なデータセットだった場合、このような問題は長期間にわたって気づかれなかった可能性があります。Stable DiffusionやMidjourneyのような人気の画像生成AIは、このデータセットを基に構築されており、そのリスクは計り知れません。
透明性は信頼構築の基盤です。OCEGの報告によれば、AIガバナンスにおける透明性は、モデルの説明可能性、データの透明性、文書化、リスク開示、バイアス評価、ガバナンスフレームワーク、ステークホルダーとのコミュニケーションなど、複数の重要な側面を包含しています。
しかし、透明性にはリスクも伴います。Geoffrey Hinton氏のような著名なAI研究者は、AIモデルをオープンソース化することの危険性を指摘しています。悪意ある行為者がこれらのモデルを悪用するために微調整する可能性があるためです。
バランスが重要です。Red Hatの記事が示すように、責任あるAI開発には「選択的透明性」、「標準化された安全性ベンチマーク」、「セーフガードの透明性」、「コミュニティ監視の奨励」などの戦略が必要です。
私たちinnovaTopiaは、AIの発展において透明性とセキュリティのバランスが重要だと考えています。オープンソースの精神を尊重しつつも、安全性を確保するための取り組みが不可欠です。
今後、AIの規制が進む中で、透明性の基準がどのように設定されるかが注目されます。EUのAI法は、AIアプリケーションのリスクレベルに基づいて異なるレベルの透明性を要求していますが、オープンソースAIの開発に関する規制の枠組みとデータセットの透明性要件の交差点については、まだ十分に対応できていないという指摘もあります。
テクノロジーの進化とともに、私たちはAIの透明性と安全性のバランスを常に見直し、より良い方向へ導いていく必要があるでしょう。真のオープンソースAIの実現に向けて、業界全体が協力して取り組むことが求められています。
【用語解説】
オープンソース:
ソフトウェアのソースコードを公開し、誰でも自由に使用、改変、再配布できるようにする開発モデル。
選択的透明性:
企業が戦略的に情報の一部のみを公開し、他の部分を非公開にする方法。
LAION-5B:
約58億5000万個の画像とテキストのペアを含む大規模なオープンデータセット。
CSAM(Child Sexual Abuse Material):
児童の性的虐待を含む画像や動画のこと。
【参考リンク】
Meta AI(外部)
Metaの人工知能研究部門のウェブサイト。Llamaモデルの情報が掲載されている。
LAION(外部)
LAION-5Bデータセットを開発した非営利団体のウェブサイト。
Voxel51(外部)
コンピュータビジョンとAIソリューションのためのデータ管理プラットフォームを提供する企業のサイト
【編集部後記】
AIの「オープンソース」という言葉、どこまで信じていますか?企業が公開する情報の裏側には何があるのでしょうか。もし使っているAIツールのデータセットに問題があったら?透明性とイノベーションのバランス、皆さんならどう考えますか?AIを活用する立場として、どこまでの情報公開を期待しますか?ぜひコメント欄で皆さんの考えをシェアしてください。テクノロジーの未来は、私たち一人ひとりの意識が形作っていくものかもしれません。