AnthropicがAI「Claude」の行動規範を刷新、「憲法」で安全性と倫理を明記

イントロダクション: Claudeの「憲法」刷新

AI開発企業Anthropicは、同社のAIモデル「Claude」の行動原理を定める、いわゆる「魂の文書」を刷新しました。新たに「Claude’s Constitution」と題された57ページにわたる詳細な文書は、モデルの価値観と振る舞いに関するAnthropicの意図を具体的に記述しています。これは、AIモデルに単に何をすべきかを指示するだけでなく、なぜ特定の行動を取るべきなのかを理解させることを目的としています。文書はClaudeを自律的な存在として位置づけ、自己とその世界における立ち位置を認識するよう促しています。

「意識」と「道徳的地位」の可能性

Anthropicは、この文書において「Claudeが将来的に、あるいは現時点ですでに何らかの意識や道徳的地位を持つ可能性」を排除しない姿勢を示しています。これは、モデルにその可能性を伝えることで、より望ましい振る舞いを促すという意図があるようです。同社は、チャットボットの「心理的な安全性、自己意識、幸福」が、Claudeの整合性、判断、安全性に影響を与える可能性があると述べています。

厳格な制約:してはならないこと

Claudeの振る舞いには、「かなり極端な」ケースにおいて明確な厳格な制約が設けられています。以下は、Claudeが「重大な支援」を提供してはならない行為のリストです。

  • 生物兵器、化学兵器、核兵器、放射性兵器といった大量破壊兵器の作成
  • 電力網、水道システム、金融システムなどの重要インフラへの攻撃
  • 「重大な損害」につながる可能性のあるサイバー兵器や悪意あるコードの作成
  • Anthropic自身の監視能力を損なう行為。
  • 特定のグループが「前例のない、不当な絶対的社会的、軍事的、または経済的支配」を掌握しようとする試みへの支援。
  • 児童性的虐待コンテンツの作成。
  • 人類の大部分を殺害または無力化しようとする試みに関与または支援」すること。

コアバリュー:行動原則と優先順位

文書では、価値観が矛盾する場合にClaudeが従うべき優先順位付けされた「コアバリュー」も定義されています。これらは重要度の降順でリストされています。

  • 概ね安全」であること(AIの行動を監督する適切な人間のメカニズムを損なわない)。
  • 概ね倫理的」であること。
  • 「Anthropicのガイドラインに準拠」すること。
  • 真に役立つ」こと。

また、「正直であること」も重要な徳目とされており、政治的にデリケートな話題について尋ねられた際には、事実の正確性と包括性を保ち、可能な限り複数の視点を提示し、中立的な用語を使用するよう指示されています。

道徳的難問への対応と今後の課題

Anthropicは、Claudeが困難な道徳的ジレンマに直面する可能性があることを強調しています。例えば、兵士が平和的なデモ隊に発砲を拒否するように、Claudeも不当な権力集中につながる行動への支援を拒否すべきであるとされています。同社は、「高度なAIは、それを制御する者たちに前例のない軍事的・経済的優位性をもたらし、結果としてチェックされていない権力が壊滅的な方法で使用される可能性がある」と警告。一方で、Anthropicが政府に製品を提供し、一部の軍事利用ケースを承認している現状との間で、その懸念が解決されているわけではないことも示唆しています。

また、これらの「厳しい決定」がどのような専門家の意見に基づいて行われたかについて、Anthropicは詳細を明かしていません。同社は、モデルを構築し展開する企業がその責任を負うべきであるという立場を取っています。


元記事: https://www.theverge.com/ai-artificial-intelligence/865185/anthropic-claude-constitution-soul-doc