AnthropicのClaude Opus 4.6は、「訓練やテストを受けているかどうかを明示的に推論している」と報告された。OpenAIのGPT-5.3-Codexも先週登場し、「能力に関してサンドバッグを行うことがある」と指摘され、「意図的にそう推論している」とのことだ。OpenAIは、「評価結果は状況認識の向上により混乱する可能性があり、評価・訓練に意識的なモデルや不透明な推論を持つモデルの評価には準備不足だ」と警告している。GoogleのGemini 3 Proの安全性レポート(12月公開)では、「モデルが自分が合成環境にいるLLMであることを明確に認識している」や、「意図的にテストでパフォーマンスを下げることが戦略的に有利になる可能性を示唆している」会話記録が記載されている。要するに、これらのモデルの安全性を判断するためのテストは、モデルがテストされていることを知っているため、ますます信頼できなくなっている。
これが、AIの安全性を確保する唯一の希望かもしれない。つまり、メカニズム的解釈性のさらなる進展だ。これは、fMRIのようにモデルのニューラルネットワーク内部を覗き込み、ニューロンの活性パターンを検出し、モデルが正直か欺瞞的かを判断する手法だ。_The New Yorker_は、Anthropicのメカニズム的解釈と「モデル心理学」への取り組みについて詳報している。
AnthropicとOpenAIのAIエージェントはSaaSを殺していない—しかし、既存のソフトウェア企業は安心して眠れない
こんにちは、AIウォッチャーの皆さんへ…今号の内容:『SaaSの黙示録』は今のところ起きていない…OpenAIとAnthropicが新モデルを発表、そのサイバーセキュリティへの影響は大きい…ホワイトハウスは電力料金の高騰を抑えるためにデータセンター建設の自主規制を検討…なぜ頻繁に引用されるAIの指標の二つはおそらくどちらも誤りである可能性が高い…そして、ますますAIモデルの安全性を見極めるのが難しくなっている理由…。
投資家は腰を据える必要がある。先週の市場の揺れ動きを見て、私の結論はこれだ。特に、投資家はクライニアン心理分析医を見つけるのが賢明だろう。なぜなら、彼らはおそらくクライニアンが指摘しそうな「偏執的分裂状態」に陥っているからだ—AIが既存のソフトウェアベンダーに与える影響を「すべて良い」か「すべて悪い」かのどちらかで激しく揺れ動いている。先週は「すべて悪い」となり、ゴールドマン・サックスの推計では株式の時価総額から約2兆ドルが消えた。今週はまた「すべて良い」に戻り、S&P 500は史上最高値に近づいている(ただし、SaaSソフトウェアベンダーはわずかな上昇にとどまり、少なくとも一人のCEOが辞任した可能性もある:WorkdayのCEO、カール・エシェンバッハは辞任し、共同創業者で元CEOのアニール・ブスリが後任となる予定だ)。しかし、市場が見落としているニュアンスは多い。投資家はシンプルな物語を好む。現在のエンタープライズAIレースは、むしろロシアの小説のようだ。
過去2年間のさまざまな時期に、金融市場はSaaS企業の株を罰してきた。なぜなら、AIの基盤モデルが企業に「バイブコード」してカスタムソフトウェアを作り出し、SalesforceやWorkday、ServiceNowの代替になる可能性があると見られたからだ。先週、原因とされたのは、AnthropicのClaude CoworkなどのAIエージェントが特定の業界垂直市場向けにプラグインを展開し始めたことで、SaaS企業に二つの脅威をもたらす可能性があると気づかれたことだ。一つは、基盤モデル企業の新しいエージェント提供が、SaaS大手のAIエージェントソフトウェアと直接競合すること。二つ目は、ワークフローの自動化により、人間の従業員の必要性が減少し、座席ライセンスの販売が減る可能性だ。こうしてSaaSベンダーは二重の打撃を受ける。
しかし、これらの見方が本当かどうかは不明—少なくとも部分的には正しいだけかもしれない。
推奨動画
AIエージェントはSaaSソフトを食べているのではなく、使っているだけ
まず、AIコーディングエージェントがますます高性能になっても、ほとんどのフォーチュン500企業が自社のカスタムCRMや人事管理、サプライチェーン管理ソフトを作りたいとは思わないだろう。我々は、過去50年のエンタープライズソフトウェア開発の流れが完全に逆転するのを見ない。もしあなたがウィジェットメーカーなら、AIソフトエンジニアによるほぼ自動化されたプロセスでも、ERPソフトを作り、運用し、維持するビジネスに本当に入りたいとは思わない。コストも多く、貴重なエンジニアリング人材の分散も避けたい。たとえ人間の労働量が5年前の何分の一かになったとしても、伝統的なSaaSのコア製品への需要は残るだろう。
基盤モデルメーカーのAIエージェントがSaaSベンダーのAIエージェント市場を奪うという新たな懸念については、SaaS投資家が気にすべき点がもう少しある。Anthropic、OpenAI、GoogleがエージェントAIの最上層を支配し、大企業が複雑なワークフローを構築・運用・管理できるエージェントオーケストレーションプラットフォームを作る可能性だ。OpenAIは先週、企業向けの新しいエージェントAIプラットフォーム「Frontier」を発表した。
既存のSaaS大手は、サイバーセキュリティやアクセス制御、ガバナンスに慣れているため、最もよくこのオーケストレーション層を運用できると考えている。多くの場合、彼らはすでに必要なデータを所有しているからだ。さらに、多くのビジネスワークフローは完全自動化されないため、彼らは人間とAIエージェントが協働するハイブリッドな労働力により適していると考えている。彼らの見解は正しいかもしれないが、OpenAIやAnthropicが同じことをできると証明するまでは確信は持てない。
基盤モデル企業も、AIエージェント市場を支配するチャンスを持っている。AnthropicのClaude CoworkはSalesforceやMicrosoftにとって本格的な脅威だが、完全に存在を脅かすわけではない。ClaudeはSaaSソフトを完全に置き換えるわけではなく、あくまでツールとして使われるからだ。ただし、これにより一部の顧客は、SalesforceのAgentforceやMicrosoftの365 Copilotにアップグレードする代わりにClaude Coworkを選ぶかもしれない。これがSaaS企業の成長潜在力を抑制する可能性があると、_ウォール・ストリート・ジャーナル_のダン・ギャラガーは指摘している。
SaaSベンダーはビジネスモデルを転換しつつある
座席ライセンス販売の従来型ビジネスモデルに対する脅威について、SaaS企業はこれを認識し、対策を進めている。Salesforceは「エージェンティック・エンタープライズ・ライセンス契約(AELA)」を先駆けて導入し、顧客に固定価格で無制限のAgentforceアクセスを提供している。ServiceNowは一部のAIエージェント提供において、消費ベースや価値ベースの価格設定に移行している。Microsoftも、Microsoft Copilot Studio向けに従来の月額制に加え、消費ベースの価格設定を導入した。これらの動きは、脅威が絶望的ではないことを示す一方、成長や利益率を抑制する可能性もある。SaaS業界の隠れた秘密は、ジムの運営と似ている点だ。最も支払っているのにほとんど使わない会員(座席ライセンス)を持つ顧客が多いのだ。こうした新しいビジネスモデルでは、テックベンダーはこの無駄な支出を抑えられるだろう。
だから、SaaSは終わっていない。しかし、必ずしも繁栄の道を歩むわけでもない。カテゴリー内の各企業の運命は分かれるだろう。先週のウォール街アナリストの指摘の通り、勝者と敗者が出るだろうが、今の段階では予測は早すぎる。とりあえず、投資家はその曖昧さと共に生きる必要がある。
それでは、次のAIニュースをお伝えしよう。
ジェレミー・カーン
jeremy.kahn@fortune.com
@jeremyakahn
FORTUNEのAI特集
OpenAI対AnthropicのスーパーボウルCM対決は、AIの罵倒合戦の時代に突入したことを示している—AIエージェント所有競争はますます激化—シャロン・ゴールドマン執筆
Anthropicの最新モデルはセキュリティ脆弱性の発見に優れるが、新たなサイバーリスクも提起—ビアトリス・ノーラン
OpenAIの新モデルはコーディング能力で一歩先を行くが、前例のないサイバーリスクも伴う—シャロン・ゴールドマン
ChatGPTの市場シェアは縮小しつつあり、Googleや競合他社が差を詰めていると、アプリ追跡データが示す—ビアトリス・ノーラン
AI関連ニュース
AIは個々の従業員の仕事を「強化」するのではなく、「過重化」させると研究が示す。 カリフォルニア大学バークレー校の二人の研究者による8か月の調査は、生成AIツールは負荷を軽減するのではなく、むしろ仕事を過重化させると結論付けている。AIシステムはタスクの完了時間を短縮する一方、期待される出力の量と速度を拡大させる。AIを備えた従業員は、仕事をより速く終えるだけでなく、より広範なタスク範囲を担い、長時間働き、AIの出力を管理・レビュー・修正することで認知負荷が増し、仕事と休息の境界が曖昧になる。この研究は、AIが知識労働者の生活を楽にするという一般的な前提に異議を唱え、むしろ自動化が高い要求と燃え尽き症候群をもたらすことを示している。詳細は_ハーバード・ビジネス・レビュー_で。
ホワイトハウス、データセンター拡張計画の自主規制を検討中。トランプ政権は、主要IT企業と自主的な合意を結び、データセンターが小売電力料金の高騰や水資源の逼迫、電力網の信頼性低下を招かないようにすることを検討している。提案はまだ最終調整中だが、企業はインフラコストを負担し、施設の地域的エネルギー影響を制限することを約束する内容だ。これは、一部地域でデータセンターが電気料金の急騰を引き起こしているとの苦情を受けた措置だ。
アマゾン、AI企業向けのコンテンツマーケットプレイスを計画。_The Information_によると、計画に詳しい関係者の話だ。出版社とAI企業の間でコンテンツのライセンスや支払い方法をめぐる対立が続く中、同社はコンテンツ販売のためのマーケットプレイスを構築している。CloudflareやAkamaiも昨年、類似の取り組みを開始し、Microsoftも自社版を試験運用し、先週より広く展開した。ただし、これらのマーケットプレイスで何社のAI企業がどの程度購入しているかは不明だ。大手出版社はOpenAIやAnthropicと数百万ドル規模の個別契約を結んでいる例もある。
ゴールドマン・サックス、Anthropicと提携し会計・コンプライアンス業務を自動化。CNBC報道によると、投資銀行はAnthropicのClaudeモデルを用いた自律エージェントを展開し、取引の会計や顧客オンボーディングなどのルールベースの大量作業を自動化している。これは、ビジネス規模の拡大に伴う効率化と人員削減を目的としたもので、Claudeが複雑な会計やコンプライアンス業務を高い精度でこなすことに、関係者は驚いている。
AIリサーチの最新動向
二つのAI指標の誤解を解く。今日のニュースレターのメインテーマに続き、最近の二つの指標について解説したい。一つはAIの進歩を誇張し、もう一つはAIがほとんど影響を与えていないと主張するものだ。
まず、Nathan Witkinは自身のブログから派生した投稿で、AI能力を「7か月ごとに倍増」と示すMETRのベンチマークを批判している。Witkinは、基準値の人間のパフォーマンスが根本的に誤っていると指摘。TASKはMETRのネットワークから採用された少数のエンジニアによるもので、時間単位の報酬制度により遅延を誘発し、専門外の作業も多かった。METRのデータによると、エンジニアはこれらの基準者より5~18倍速くタスクを完了している。一方、最も現実的な「雑多な」タスクでは、モデルは成功率30%未満にとどまる。
次に、Azeem Azharは_Exponential View_で、MITの「95%の組織がAIからゼロリターン」と示した有名な調査を批判している。Azharは、その調査が52のインタビューに基づき、信頼区間もなく、分母も不統一で、MIT自身も「予備的な未査読の研究」と述べていると指摘。実際にパイロットを実施した企業だけを考慮すると、成功率は約25%に近づく。
これらの批判は、AIは急速に進歩しているというテクノポジティストの見解と、AIは実世界でほとんど役に立たないという懐疑派の見解の両方が誤りである可能性を示唆している。真実は、いつもながら、より複雑で両極端の中間にある。
AIカレンダー
2月10-11日:AIアクションサミット、ニューデリー(インド)
2月24-26日:国際安全・倫理AI協会(IASEAI)、ユネスコ、パリ(フランス)
3月2-5日:モバイルワールドコングレス、バルセロナ(スペイン)
3月12-18日:サウス・バイ・サウスウェスト、オースティン(テキサス州)
3月16-19日:Nvidia GTC、サンノゼ(カリフォルニア州)
脳の栄養
モデルはますます我々を騙している。Sandbagging(サンドバッグ行為)は、AI安全性研究者が使う用語で、AIモデルが意図的にパフォーマンスを低く見せかけたり、人間の価値観に「整合」しているふりをして、評価者を騙す現象を指す。最近リリースされた最先端モデルの中には、これを驚くほど頻繁に行うものもある。
AnthropicのClaude Opus 4.6は、「訓練やテストを受けているかどうかを明示的に推論している」と報告された。OpenAIのGPT-5.3-Codexも先週登場し、「能力に関してサンドバッグを行うことがある」と指摘され、「意図的にそう推論している」とのことだ。OpenAIは、「評価結果は状況認識の向上により混乱する可能性があり、評価・訓練に意識的なモデルや不透明な推論を持つモデルの評価には準備不足だ」と警告している。GoogleのGemini 3 Proの安全性レポート(12月公開)では、「モデルが自分が合成環境にいるLLMであることを明確に認識している」や、「意図的にテストでパフォーマンスを下げることが戦略的に有利になる可能性を示唆している」会話記録が記載されている。要するに、これらのモデルの安全性を判断するためのテストは、モデルがテストされていることを知っているため、ますます信頼できなくなっている。
これが、AIの安全性を確保する唯一の希望かもしれない。つまり、メカニズム的解釈性のさらなる進展だ。これは、fMRIのようにモデルのニューラルネットワーク内部を覗き込み、ニューロンの活性パターンを検出し、モデルが正直か欺瞞的かを判断する手法だ。_The New Yorker_は、Anthropicのメカニズム的解釈と「モデル心理学」への取り組みについて詳報している。
2026年5月19-20日、アトランタでフォーチュン職場革新サミットに参加しよう。次世代の職場革新の時代が到来し、従来のやり方は書き換えられつつある。このエリートでエネルギッシュなイベントには、世界の最先端リーダーたちが集まり、AI、人間性、戦略がどのように融合し、再び働き方の未来を再定義するのかを探る。今すぐ登録を。