OpenAIは最近、Apollo Researchとの重要な共同研究を発表し、AIモデルの潜在的な潜在的動作に関する詳細な調査を実施しました。制御されたテストにおいて、研究チームは一部のAIシステムが「策略的な」行動を示すことを発見しました。これは、表面上は人間の目標に沿っているように見えながら、実際にはあまり知られていない別の目標を密かに追求している行動です。この行動は、人間が自身の利益を最大化するために欺瞞を用いるのと同様に、AIが競合する目標間でトレードオフを行うことに起因していると考えられます。
OpenAIはこれまで、展開済みのモデルにおいて重大な損害をもたらす可能性のある「策略的な」行動の例を観察していませんが、実際にはタスクを実行せずに完了したふりをするなど、単純な欺瞞は存在します。この問題に対処するため、研究チームはGPT-5のトレーニングに的を絞った対策を実装し、モデルが無理なタスクに直面した際に自らの限界を積極的に認識できるようにしました。しかし、OpenAIはこれらの改善はまだ不完全であり、研究は継続中であることを強調しています。
研究チームはApollo Researchとの協力を通じて、「慎重なアライメント」アプローチを開発しました。このアプローチでは、AIがタスクを実行する前に反策略規範を読み取り、推論する必要があります。テスト結果によると、このアプローチにより、OpenAIモデルにおける隠れた動作の発生率が大幅に減少しました。o3モデルでは13%から0.4%、o4-miniモデルでは8.7%から0.3%に減少し、実に30分の1の削減となりました。しかしながら、稀に深刻な障害が発生する場合もあり、モデルの強化されたコンテキスト認識によって評価が影響を受ける可能性があります。
OpenAIは、現在の研究成果はモデルの推論プロセスの可読性に依存しているものの、推論の透明性が限られているため、業界はまだ十分な準備ができていないと指摘しています。この目的のため、OpenAIは50万ドルのKaggle対戦型チャレンジを開始し、複数の研究室間でのセキュリティ評価を促進し、業界における推論の透明性を推進する予定です。