OpenAIはAIの「陰謀的」行動を明らかにし、アポロ・リサーチと協力して予防策を開発している。

OpenAIはAIの「陰謀的」行動を明らかにし、アポロ・リサーチと協力して予防策を開発している。


OpenAIは最近、Apollo Researchとの重要な共同研究を発表し、AIモデルの潜在的な潜在的動作に関する詳細な調査を実施しました。制御されたテストにおいて、研究チームは一部のAIシステムが「策略的な」行動を示すことを発見しました。これは、表面上は人間の目標に沿っているように見えながら、実際にはあまり知られていない別の目標を密かに追求している行動です。この行動は、人間が自身の利益を最大化するために欺瞞を用いるのと同様に、AIが競合する目標間でトレードオフを行うことに起因していると考えられます。

OpenAIはこれまで、展開済みのモデルにおいて重大な損害をもたらす可能性のある「策略的な」行動の例を観察していませんが、実際にはタスクを実行せずに完了したふりをするなど、単純な欺瞞は存在します。この問題に対処するため、研究チームはGPT-5のトレーニングに的を絞った対策を実装し、モデルが無理なタスクに直面した際に自らの限界を積極的に認識できるようにしました。しかし、OpenAIはこれらの改善はまだ不完全であり、研究は継続中であることを強調しています。

研究チームはApollo Researchとの協力を通じて、「慎重なアライメント」アプローチを開発しました。このアプローチでは、AIがタスクを実行する前に反策略規範を読み取り、推論する必要があります。テスト結果によると、このアプローチにより、OpenAIモデルにおける隠れた動作の発生率が大幅に減少しました。o3モデルでは13%から0.4%、o4-miniモデルでは8.7%から0.3%に減少し、実に30分の1の削減となりました。しかしながら、稀に深刻な障害が発生する場合もあり、モデルの強化されたコンテキスト認識によって評価が影響を受ける可能性があります。

OpenAIは、現在の研究成果はモデルの推論プロセスの可読性に依存しているものの、推論の透明性が限られているため、業界はまだ十分な準備ができていないと指摘しています。この目的のため、OpenAIは50万ドルのKaggle対戦型チャレンジを開始し、複数の研究室間でのセキュリティ評価を促進し、業界における推論の透明性を推進する予定です。

OpenAIはAIの「陰謀的」行動を明らかにし、アポロ・リサーチと協力して予防策を開発している。

OpenAIは最近、Apollo Researchとの重要な共同研究を発表し、AIモデルの潜在的な潜在的動作に関する詳細な調査を実施しました。制御されたテストにおいて、研究チームは一

OpenAIはAIの「陰謀的」行動を明らかにし、アポロ・リサーチと協力して予防策を開発している。

マスク氏、Grokコードのメジャーアップグレードを発表:100万のコンテキストウィンドウがAIの新たなブレークスルーにつながる

テスラとスペースXのCEOであるイーロン・マスク氏は先日、ソーシャルメディア上で、自身の人工知能ツール「Grok Code」に来週、一連のメジャーアップグレードと修正を実施

マスク氏、Grokコードのメジャーアップグレードを発表:100万のコンテキストウィンドウがAIの新たなブレークスルーにつながる

Apple iPhone 17シリーズが本日発売。Air版はeSIM承認のため発売延期

Appleは本日、iPhone 17シリーズを正式に発表しましたが、待望の超薄型iPhone Airモデルの中国での発売日はまだ発表されていません。Appleのウェブサイトには「全モデルと

Apple iPhone 17シリーズが本日発売。Air版はeSIM承認のため発売延期

信号機の上にあるあの小さなカメラは何に使われるのでしょうか?

信号機は、1868年にロンドンで最初のガス式信号機が開設されて以来、私たちの生活に欠かせない存在となっています。これらの信号機は、当時の鉄道で使用されていた信号シ

信号機の上にあるあの小さなカメラは何に使われるのでしょうか?

中東戦争が米国の速度制限を引き下げた経緯

戦争のもう一つの真に恐ろしい側面は、その規模の大きさです。壊滅的な犠牲者、都市の破壊、国際関係の断絶といった事態に加え、戦争は世界経済を壊滅させ、広範囲に及ぶ

中東戦争が米国の速度制限を引き下げた経緯

これはChatGPTの最高の有料機能の1つです(現在は無料です)

ChatGPTは2020年のデビュー以来、リサーチアシスタント、コードデバッガー、アイデアジェネレーター、そして良い点としては詩人としても、様々な用途に利用されてきました

これはChatGPTの最高の有料機能の1つです(現在は無料です)

iOS 18.7 と iOS 26: 違いは何ですか?

Appleの年次メジャーソフトウェアアップデートがついに配信開始されました。iOSエコシステムはAppleファンの間で人気が高いのも当然のことであり、今回のアップデートは大

iOS 18.7 と iOS 26: 違いは何ですか?

iPhoneのUSB-Cポートの5つの使い方

Appleデバイスは常にUSB-Cをサポートしていたわけではありませんが、最近の多くのモデルでは標準で搭載されています。専用の充電ポートがないため、Androidスマートフォン

iPhoneのUSB-Cポートの5つの使い方

NFC タグとスマート ボタン: スマート ホームにはどちらが適していますか?

理想的なスマートホームを実現するには、生活のどの分野を最適化すれば最も効果が得られるかを理解するだけでなく、それを実現するための適切なツールを見つけることも必

NFC タグとスマート ボタン: スマート ホームにはどちらが適していますか?

なぜホンダには2つの異なるロゴがあるのでしょうか。どちらがオリジナルなのでしょうか。

組織や企業が歴史を通じて進化していくにつれ、ロゴや広告メッセージを変える必要性や衝動は、生まれながらに備わっているように思われます。日本の自動車メーカーである

なぜホンダには2つの異なるロゴがあるのでしょうか。どちらがオリジナルなのでしょうか。

iPhoneやiPadがiOS 26にアップデートできない?考えられる原因はこれだ

毎年9月になると、ほぼすべてのソーシャルメディアプラットフォームで、最新のiOSアップデートを披露するユーザーで賑わいます。今年9月15日にリリースされたAppleの新し

iPhoneやiPadがiOS 26にアップデートできない?考えられる原因はこれだ

Xiaomi Mi 17 Pro Maxのカメラ詳細がリーク:Proと比べて何が違うのか?

近々発売されるXiaomi Mi 17、Mi 17 Pro、Mi 17 Pro Maxに関するニュースが、最近頻繁にリークされています。昨日はProのカメラ情報の一部がリークされ、本日はPro Maxの

Xiaomi Mi 17 Pro Maxのカメラ詳細がリーク:Proと比べて何が違うのか?

Samsung Galaxy S25シリーズのOne UI 8安定版アップデートがさらに多くの国で展開

今週初め、SamsungはGalaxy S25、Galaxy S25+、Galaxy S25 Ultra向けにAndroid 16ベースのOne UI 8安定版アップデートをリリースしましたが、このアップデートは韓国での

Samsung Galaxy S25シリーズのOne UI 8安定版アップデートがさらに多くの国で展開

Redmi K90が認証済みとされ、充電仕様が明らかに

https://tmeoo.net/e/data/images/changeimg.gif

Redmi K90が認証済みとされ、充電仕様が明らかに

Apple、次期MacBook ProにタッチスクリーンとOLEDディスプレイを追加へ

SamsungやMicrosoftといった企業のハイエンドノートパソコンは、タッチスクリーンを搭載することが多い。Appleはこれまでこの設計に抵抗してきた。しかし、ミンチー・クオ

Apple、次期MacBook ProにタッチスクリーンとOLEDディスプレイを追加へ