AIと学習データをめぐる懸念―個人情報保護と著作権の最前線

制度

ChatGPTをはじめとする生成AIが急速に普及する中、その学習に使われるデータをめぐる懸念が世界中で高まっています。「自分の個人情報がAIに学習されているのではないか」「自分の創作物が無断でAIの学習に使われているのではないか」――こうした不安の声は、クリエイターや一般ユーザー、企業経営者など、幅広い層から上がっています。

本記事では、AIの学習データをめぐる個人情報保護と著作権の問題について、国内外の最新動向を踏まえて詳しく解説します。

AIの学習にはなぜ大量のデータが必要なのか

生成AIは、大量のデータを学習することで、そのデータに内在するパターンや構造を理解し、新しいコンテンツを生成する能力を獲得します。テキスト、画像、音声、動画など、さまざまな種類のデータが学習に使用されており、その規模は膨大です。

例えば、ChatGPTの基盤となるGPT-4のような大規模言語モデル(LLM)は、インターネット上の膨大なテキストデータ、書籍、論文、Webサイトのコンテンツなどを学習しています。画像生成AIであれば、数十億枚の画像データが学習に使われることもあります。

ここで問題となるのが、これらの学習データの中に、個人情報や著作権で保護された創作物が含まれている可能性があるということです。AI企業がどのようなデータを収集し、どのように利用しているのかが不透明なケースも多く、これが社会的な懸念を生んでいます。

AIと個人情報保護―プライバシーへの影響

生成AIへの入力情報の取り扱い

生成AIの利用における個人情報の問題は、大きく分けて2つの局面があります。1つ目は、AIの学習段階でインターネット上から収集されるデータに個人情報が含まれる問題。2つ目は、ユーザーがAIに入力した情報が学習に利用される問題です。

ChatGPTなどの生成AIサービスでは、ユーザーが入力した内容がサービスの改善のために利用されることがあります。これは、企業の機密情報や個人情報を入力してしまった場合、その情報が学習データとして使われ、他のユーザーへの回答として出力されてしまうリスクがあることを意味します。

実際、2023年にはイタリアのデータ保護当局がOpenAIに対し、ChatGPTの提供を一時的に禁止する命令を出したことがありました。ユーザーの個人データを違法に収集しているという懸念が理由でした。

個人情報保護法上の論点

日本の個人情報保護法との関係では、以下のような論点が指摘されています。

まず、利用目的の問題です。個人情報取扱事業者が個人情報を取得する際には、利用目的を特定し、本人に通知または公表する必要があります。自社が保有する個人情報を生成AIに入力する場合、それが当初の利用目的の範囲内であるかどうかが問題となります。

次に、第三者提供の問題です。ChatGPTなどの生成AIに個人データを入力することは、「第三者への提供」に該当する可能性があります。特に、OpenAIのような米国企業のサービスを利用する場合、「外国にある第三者への提供」として、原則として本人の同意が必要となる可能性があります。

さらに、要配慮個人情報の問題もあります。人種、信条、社会的身分、病歴、犯罪の経歴などを含む「要配慮個人情報」を取得するには、原則として本人の同意が必要です。AIがこうした情報を学習している場合、法的な問題が生じる可能性があります。

AIによるプロファイリングのリスク

AIの利用におけるプライバシー侵害のリスクは、単なる情報漏洩にとどまりません。AIによるプロファイリング(本人に関する行動・関心などの情報を分析する処理)が、知られたくない情報を推測・暴露してしまうリスクも指摘されています。

米国の小売業大手ターゲット社のエピソードは、この問題を象徴的に示しています。同社は顧客の購買傾向を分析し、購入の見込みが高い商品を推測してレコメンドしていましたが、ある時、高校生の娘に対して妊娠に関連した商品がレコメンドされ、その父親からクレームがあったといいます。実際にはAIの推測が正しく、娘は出産予定だったというのです。

このように、一見センシティブでない情報の組み合わせから、極めてプライベートな情報を導き出すAIの能力は、新たなプライバシー侵害のリスクをもたらしています。

ディープフェイクの問題

AI技術の進展に伴い、ディープフェイク(Deep Fake)と呼ばれる偽動画・偽画像の問題も深刻化しています。本人が実際には話していないことを話させたり、人物の顔を巧妙に入れ替えたりする技術は、肖像権の侵害、誤った印象を与える情報の発信、一度拡散されると削除・訂正が困難になるなど、複数の観点からプライバシー侵害となり得ます。

AIと著作権―クリエイターの権利をどう守るか

世界で相次ぐ著作権侵害訴訟

生成AIの学習データに著作物が無断で使用されているとして、世界各地で訴訟が提起されています。2024年12月時点で、米国では151件以上のAIと著作権に関する訴訟が進行中とされています。

代表的な訴訟としては、まず2022年11月に提起されたGitHub Copilot訴訟があります。これはプログラマーたちが、AIコーディングアシスタント「GitHub Copilot」の学習にオープンソースコードが無断で使用されたとして、Microsoft、GitHub、OpenAIを相手取って起こした集団訴訟です。

2023年7月には、米国の作家3名がOpenAIとMeta Platformsを提訴しました。ChatGPTの機械学習に作家の著作物が無断で使用されたとして損害賠償を請求するものです。

2024年には、カナダのニュース出版社5社がOpenAIを著作権侵害で提訴しています。また、2025年8月には、日本の読売新聞社がPerplexity AIを相手取り約22億円の損害賠償を求める訴訟を提起し、朝日新聞社と日本経済新聞社も同様に44億円の損害賠償を請求しています。

画像生成AIに関しても、2024年8月には著名アーティストたちが「Stable Diffusion」「Midjourney」などの開発企業に対して集団訴訟を提起しました。自らの作品が無断で学習データとして取り込まれたことが争点となっています。

米国における判決の動向

2025年に入り、米国では重要な判決が相次いでいます。

2025年2月のThomson Reuters対Ross Intelligence事件では、連邦地裁がAIの学習データ利用について著作権侵害を認める判決を下しました。これはAI学習と著作権をめぐる重要な先例となりました。

一方、2025年6月のアンソロピック訴訟では、北カリフォルニア連邦地裁がAI学習自体は「変容的」でありフェアユースに該当すると認める判決を出しました。ただし、同社が学習のために700万冊以上の書籍をストレージしていたことは著作権侵害と判断されました。この訴訟は2025年9月に約2200億円で和解が合意されたと報じられており、著作権訴訟の和解額としては史上最高額とされています。

これらの判決は、AI学習における著作権問題の複雑さを示しています。学習行為自体が侵害に当たるのか、学習データの取得・保存が侵害に当たるのか、生成された出力が既存著作物に類似している場合にどう判断するのか、など多くの論点が残されています。

中国でのウルトラマン判決

2024年2月、中国の広州インターネット法院は、AI生成画像の著作権侵害を認める世界初とされる判決を下しました。これは、画像生成AIによって生成されたウルトラマンに似た画像について、円谷プロダクションの著作権を侵害するとして、AI事業者に損害賠償と画像の生成・配信停止を命じたものです。

この判決は、AI生成物が既存の著作物に類似している場合の法的責任について、重要な先例を示しました。

日本の著作権法における取り扱い

日本では、2018年の著作権法改正により新設された第30条の4が、AIと著作権の関係において重要な規定となっています。この規定は、「著作物に表現された思想又は感情の享受を目的としない利用」について、著作権者の許諾なく著作物を利用できることを定めています。

AI学習のために著作物を複製等する行為は、著作物の視聴を通じて知的・精神的欲求を満たすことを目的としない「非享受目的」の利用として、原則として許諾不要とされています。

ただし、この規定にはただし書きがあり、「著作権者の利益を不当に害することとなる場合」には適用されません。文化庁が2024年3月に公表した「AIと著作権に関する考え方について」では、以下のような場合にただし書きが適用される可能性があるとされています。

例えば、AI学習用のデータセットとして有償で提供されているデータベース著作物を無許諾で複製等する場合、クローラで自動的にデータを取得できないよう技術的措置が講じられているサイトからデータを収集する場合、学習データである著作物をそのまま出力させるような学習方法をとる場合などです。

「開発・学習段階」と「生成・利用段階」の違い

日本の法制度では、生成AIと著作権の関係を考える上で、「開発・学習段階」と「生成・利用段階」を分けて考える必要があるとされています。

開発・学習段階では、著作権法第30条の4により、原則として著作権者の許諾なくAI学習を行うことが可能です。一方、生成・利用段階では、生成されたコンテンツが既存の著作物との類似性と依拠性の両方を満たす場合、著作権侵害となる可能性があります。

類似性とは、既存の著作物と生成物が表現として似ているかどうかです。依拠性とは、既存の著作物を参考にして作成されたかどうかです。AI利用者が既存の著作物を認識していなくても、その著作物がAI学習に用いられていた場合は、依拠性があると推認される場合があるとされています。

文化庁のガイダンスとチェックリスト

文化庁は2024年7月に「AIと著作権に関するチェックリスト&ガイダンス」を公表しました。AI開発者、AI提供者、AI利用者、権利者それぞれの立場から、著作権に関するリスクを低減するための方策がまとめられています。

AI開発者に対しては、学習データに含まれる著作物と類似したものの生成を防止する技術的措置の採用、学習データの出所を明らかにするトレーサビリティの向上、情報提供の充実などが求められています。

権利者に対しては、自らの著作物がどのように利用されるのか、侵害に対してどのような対抗措置を取ることができるのかについて解説されています。

海外の法規制動向

EU AI法と個人データ保護

2024年8月、EUで世界初の包括的AI規制法である「EU AI法」が発効しました。この法律は、AIシステムをリスク別に分類し、リスクが高いシステムにはより厳格な要件を課すリスクベースアプローチを採用しています。

EU AI法は、既存の一般データ保護規則(GDPR)と並行して適用されます。GDPRはすでに、AIによる自動的な意思決定やプロファイリングについて、本人の権利を保護する規定を設けています。例えば、個人に対して法的効果または同様の重大な影響を及ぼす、プロファイリングを含む自動的な意思決定のみに基づく判断を受けない権利が認められています。

EU AI法の違反に対する制裁金は、最も重い場合で全世界売上高の7%と、GDPRの4%を上回る水準に設定されています。これはEUがAIのリスクを深刻に捉えていることの表れです。

2024年9月には、EUのデータ保護委員会(DPC)がGoogleのAI開発がGDPRに違反していないか調査を開始したことを発表しています。AI開発の過程で個人情報への配慮が不十分だった可能性が懸念されています。

EUにおける著作権とオプトアウト

EUの著作権法(DSM著作権指令)では、日本と異なり、権利者によるAI学習からのオプトアウトが明示的に認められています。DSM著作権指令4条3項は、学習利用対象の著作物の著作者が明示的に学習利用を拒否している場合には、AIの学習に利用できないと定めています。

日本の著作権法第30条の4にはこうしたオプトアウト規定は存在せず、権利者の意思表示によってAI学習を拒否できるかどうかは議論が続いています。

米国における規制動向

米国では、連邦レベルでのAI包括規制は成立しておらず、著作権問題については主に訴訟を通じて判断が示されています。

米国著作権局は2025年2月に報告書を公表し、AI単独で生成された作品には著作権が認められないこと、人間の創作的関与があれば著作権保護の対象となり得ること、詳細で創造的なプロンプトは著作権保護の対象になる可能性があることなどを整理しました。

フェアユース(公正利用)の原則がAI学習に適用されるかどうかについては、訴訟ごとに異なる判断が示されており、まだ確立した法理は形成されていません。

個人・企業ができる対策

オプトアウト設定の活用

ChatGPTなどの生成AIサービスでは、入力した情報をAIの学習に利用されないようにする「オプトアウト」の仕組みが提供されています。OpenAIの場合、設定画面からチャット履歴とトレーニングをオフにすることで、入力データが学習に使用されないようにできます。また、専用の申請フォームからオプトアウト申請を行うことも可能です。

ただし、オプトアウトにはいくつかの注意点があります。オプトアウトはあくまで開発元への「お願い」であり、完全に情報漏洩を防げるわけではありません。また、過去の利用履歴が確認できなくなるなど、サービスの利便性が低下する可能性もあります。

企業における情報管理

企業がChatGPTなどの生成AIを業務利用する場合には、以下のような対策が重要です。

まず、従業員への明確なガイドラインの提供です。どのような情報を入力してよいか、してはいけないかを明確にし、周知する必要があります。機密情報や個人情報を入力しないことは大前提ですが、それが何を指すのかを具体的に示すことが重要です。

次に、セキュリティが強化されたプランの利用です。ChatGPT Enterpriseのような企業向けプランでは、入力データが学習に使用されない設定がデフォルトになっているなど、セキュリティが強化されています。

また、API経由での利用も有効な対策です。OpenAIは、API経由で送信されたデータは原則としてモデルのトレーニングには使用されないと表明しています。業務システムとの連携においてはAPIを活用することで、リスクを低減できます。

クリエイターの権利保護

クリエイターが自身の作品をAI学習から保護するための手段としては、以下のようなものがあります。

技術的な対策として、自身のWebサイトにrobots.txtを設定し、AIクローラによるデータ収集を拒否する意思を示すことができます。ただし、これはあくまで「お願い」であり、法的な強制力はありません。

また、AIが生成したコンテンツが自身の著作物に類似している場合には、著作権侵害として法的措置を取ることも選択肢となります。ただし、訴訟には時間とコストがかかることから、まずはAI事業者への削除要請などを検討することが現実的でしょう。

今後の展望と課題

データ枯渇問題とクローズドデータの活用

生成AIの性能向上には継続的なデータ学習が必要ですが、インターネット上に公開されているデータは、早ければ数年以内にすべて学習し終えてしまうという「データ枯渇問題」が指摘されています。

このため、AI企業は企業が独自に持っている販売データや顧客データなどの「クローズドデータ」を学習しようとする動きを見せています。日本では個人情報保護法の3年ごとの見直しが2025年に予定されており、企業間のデータ流通を円滑にするための法改正が議論されています。

対価還元の仕組みづくり

AIの学習に著作物が利用されることに対して、著作権者に適切な対価が還元される仕組みの構築も課題です。

海外では、著作権者団体と生成AI企業の間で、音楽・映像作品の利用料をめぐる交渉が本格化しています。デジタル音楽配信におけるストリーミングサービスとレーベルの関係のように、ライセンス契約に基づく対価還元の仕組みが形成されつつあります。

日本でも、文化庁が「AIと著作権に関する関係者ネットワーク」を立ち上げ、権利者とAI事業者の間の情報共有の場を設けています。今後、ガイドラインの策定や、自主的なルールの形成が期待されています。

技術と法制度の進化

AI技術は日進月歩で進化しており、法制度がそれに追いついていない面があります。今後も、著作権侵害に関する判例の蓄積、AIの技術発展に伴う新たなリスクの顕在化、各国の規制動向の進展などを踏まえ、法制度の見直しが続くことが予想されます。

文化庁の「AIと著作権に関する考え方について」も、今後の状況の変化に応じて見直しが予定されています。AI利用者、権利者、AI事業者のいずれの立場においても、最新の動向を継続的にフォローすることが重要です。

まとめ

AIの学習データをめぐる個人情報保護と著作権の問題は、技術の進歩とともに複雑さを増しています。

個人情報の観点からは、生成AIへの入力情報の取り扱い、AIによるプロファイリング、ディープフェイクなど、さまざまなリスクが指摘されています。著作権の観点からは、世界各地で訴訟が相次いでおり、AI学習における著作物の利用の適法性をめぐる議論が続いています。

日本では、著作権法第30条の4により、非享受目的のAI学習は原則として許諾不要とされていますが、「著作権者の利益を不当に害する場合」には適用されないという但し書きの解釈が重要な論点となっています。

個人や企業が取り得る対策としては、オプトアウト設定の活用、情報管理ガイドラインの整備、セキュリティ強化されたサービスの利用などがあります。クリエイターは、技術的措置による学習拒否の意思表示や、侵害に対する法的措置を検討することができます。

AIの恩恵を最大限に活用しつつ、個人の権利やクリエイターの利益を適切に保護するためには、技術的対策、法制度の整備、そして社会全体での継続的な議論が必要です。AI時代のデータガバナンスのあり方について、一人ひとりが関心を持ち、考えていくことが求められています。


参考資料

  • 文化庁「AIと著作権に関する考え方について」(2024年3月)
  • 文化庁「AIと著作権に関するチェックリスト&ガイダンス」(2024年7月)
  • 総務省・経済産業省「AI事業者ガイドライン」(2024年4月)
  • 個人情報保護委員会「個人情報保護法のいわゆる3年ごと見直しに関する検討会報告書」(2024年12月)
  • 総務省「令和6年版 情報通信白書」
  • 長島・大野・常松法律事務所「個人情報保護・プライバシー 2024年の振り返りと2025年の展望」
タイトルとURLをコピーしました