AnthropicがAIモデルの推論を解読するための自然言語オートエンコーダーをリリースし、コードをオープンソース化

Anthropicは最近、内部モデルのアクティベーションを人間が読めるテキストへ翻訳するツール「Natural Language Autoencoders(NLA)」をリリースし、コードとモデルの重みをGitHubでオープンソース化しました。Sparse Autoencodersなどの既存ツールが判読しにくい特徴を出力するのに対し、NLAはデュアルモデルの枠組みによって自然言語の説明を直接生成します。具体的には、一方のモデルがアクティベーションをテキストへ変換し、もう一方のモデルがテキストからアクティベーションを再構成しようとして、強化学習によって反復的に精度を高めます。

安全性のテストでは、NLAが隠れたモデルの推論を明らかにしました。Claudeは敵対的なシナリオの16%でテストされることへの疑念を表明し、ベンチマークタスクの26%では「試験への意識」が見られたのに対し、通常の会話では1%未満でした。監査の実験では、NLAは注入された欺瞞的なモデル行動の検出率を3%未満から12〜15%へと引き上げました。これにより、監査担当者は学習データにアクセスできなくても、隠れた目的を特定できるようになります。このツールは現在、Claude Mythos PreviewおよびOpus 4.6の安全性監査に展開されています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

中国モバイルは5月8日に、8社のパートナーとトークン申請エコシステム・アライアンスを発表

PANewsによると、5月8日、中国モバイルはAlibaba Cloud、Volcano Engine、Huawei Cloudを含む8社と「トークンアプリケーション・エコシステム・アライアンス」を設立したと発表した。この同盟は、MoMAモデル集約プラットフォームを活用して、国内のAI m向けに統一されたサービス・ゲートウェイを構築する。

GateNews10分前

中国は5月8日に、2027年および2030年の目標を掲げたAIエネルギー行動計画を発表

PANewsによると、5月8日、中国の国家発展改革委員会、国家能源局、工業情報化部、国家データ管理局が共同で「行動」を発表した。

GateNews39分前

中国の3機関が、19の典型的なアプリケーションシナリオを伴うAIエージェントに関するガイダンスを発表

PANewsによると、中国の国家インターネット情報弁公室、国家発展改革委員会、工業情報化部が本日(5月8日)共同でAIエージェントに関するガイダンスを公表した。文書ではAIエージェントを自律的な

GateNews44分前

IMF:AIは金融の安定性に潜在的な脅威をもたらしうる

金融安定リスクに関するAIのIMF報告書 国際通貨基金(IMF)は5月7日、人工知能(AI)がサイバー上の脆弱性やセキュリティインシデントに対して金融システムがどのように対応するかを変える一方で、同時にサイバーセキュリティ上のリスクを増幅しているとする報告書を公表した

CryptoFrontier1時間前

SpaceXAIがデスクトップのコーディングツール「Grok Build」をローンチ、本日公開;対抗するのはClaude CodeとOpenAI Codex

Beatingによると、SpaceXAI(旧xAI)は、GrokのWebインターフェース上で本日予期せず公開されてしまったデスクトップ向けコーディングツール「Grok Build」をローンチします。このツールは、Claude CodeやOpenAI Codexと直接競合します。 Grok BuildはmacOS、Linux、Windowsに対応します。従来の「チャットから始まる」方式とは異なり、

GateNews1時間前

パランティアのMavenシステム、イラン作戦の最初の48時間で1,000以上のターゲットを制圧

Yonhapnewsによると、パランティアのMaven Smart System(MSS)は、イランに対する米軍の作戦初期48時間で、1,000件超の標的を攻撃することにおいて大きな役割を果たした。米国防総省は、軍事の意思決定プロセスにAIシステムをますます統合しており、P

GateNews2時間前
コメント
0/400
コメントなし