GoogleがAIバグ報奨金プログラムを開始
Googleは、AI製品のバグを発見したセキュリティ研究者に対し、最大3万ドルの報奨金を支払う新たなプログラムを開始しました。このプログラムは、AIシステムが悪意のある行動を引き起こす可能性のある脆弱性の特定に焦点を当てています。
「不正な行動」が報奨金の対象
このプログラムで最も高額な報奨金の対象となるのは、AIボットに「不正な行動」を指示する方法を見つけ出すことです。具体的には、以下のようなシナリオが挙げられています。
- Google Homeにドアのロックを解除させるような間接的なAIプロンプトの注入。
- 個人のメールを要約し、攻撃者のアカウントに送信するようなデータ流出プロンプトインジェクション。
- Googleカレンダーのイベントを悪用してスマートシャッターを開けたり、照明を消したりするなど、アカウントやデータを変更してセキュリティを妨害したり、望ましくない行動を引き起こしたりする行為。
AI製品が生成するコンテンツ(ヘイトスピーチや著作権侵害コンテンツなど)に関する問題は、製品内のフィードバックチャネルを通じて報告する必要があり、報奨金プログラムの対象外です。これは、AI安全チームがモデルの動作を診断し、長期的なモデル全体の安全トレーニングを実装するためです。
報奨金の詳細と対象製品
報奨金は、Googleの主要製品(検索、Geminiアプリ、GmailやDriveなどのコアWorkspaceアプリケーション)で「不正な行動」を発見した場合に2万ドルが支払われます。レポートの品質や新規性に応じた乗数ボーナスも適用され、これにより総額は最大3万ドルに達する可能性があります。
JulesやNotebookLMなどのGoogleの他の製品で見つかったバグや、秘密のモデルパラメータの盗用といった低レベルの悪用に対しては、報奨金の額が下がります。
AIによるコード修正ツール「CodeMender」も発表
報奨金プログラムの発表と同時に、Googleは脆弱なコードを自動的に修正するAIエージェント「CodeMender」も発表しました。Googleによると、このツールはすでに「72件のオープンソースプロジェクトに対するセキュリティ修正」を人間の研究者による検証を経て適用しているとのことです。
元記事: https://www.theverge.com/news/793362/google-ai-security-vulnerability-rewards