概要
Appleの研究者たちは、AIシステムがテキストプロンプトに基づいて写真を編集する能力を向上させるために特別に設計された、400,000枚の厳選された画像からなる包括的なデータセット「Pico-Banana-400K」を公開しました。この大規模なデータセットは、Appleが現在のAI画像編集トレーニングにおけるギャップと表現する問題に対処することを目的としています。
データセット「Pico-Banana-400K」の詳細
Pico-Banana-400Kは、カラー変更のような基本的な調整から、人物をPixar風キャラクターやLEGOフィギュアに変換するような複雑な変換まで、8つのカテゴリにわたる35種類の編集タイプに整理された画像を特徴としています。各画像はAppleのAIを活用した品質管理システムを経ており、GoogleのGemini-2.5-Proが指示への準拠と技術的品質に基づいて結果を評価するために使用されました。
このデータセットには、3つの専門的なサブセットも含まれています。
- 基本的なトレーニング用の258,000件の単一編集例
- 成功した編集と失敗した編集を比較する56,000組の選好ペア
- 複数の連続した編集を通じて画像がどのように進化するかを示す72,000件の多段階シーケンス
開発背景と課題
Appleは、数ヶ月前にリリースされたGoogleのGemini-2.5-Flash-Image(別名Nano-Banana)編集モデルを使用してこのデータセットを構築しました。しかし、Appleの研究によりその限界が明らかになりました。グローバルなスタイル変更は93%の成功率を収めたものの、オブジェクトの再配置やテキスト編集のような正確なタスクでは60%未満の成功率と、深刻な課題を抱えていました。
今後の展望
これらの限界にもかかわらず、研究者たちはPico-Banana-400Kの目的は「次世代のテキストガイド画像編集モデルのトレーニングとベンチマークのための堅牢な基盤を確立すること」であると述べています。この完全なデータセットは、非営利の研究目的でGitHubで自由に利用可能であり、開発者はこれを使用してより高性能な画像編集AIをトレーニングすることができます。
元記事: https://www.macrumors.com/2025/10/29/apple-ai-dataset-improve-photo-editing-models/
