Google DeepMindは、2026年5月1日にAIコ・クリニシャン(AI共同診療者)を導入しました。これは、マルチモーダルAIシステムが医療従事者と患者をより効果的に支援できるかを検討するための研究イニシアチブです。このプロジェクトは、世界中の医療システムにかかる高まる圧力に対応しており、転帰の改善、コスト削減、そして2030年までに10 million人超の医療従事者不足が見込まれるなかでのケアへのアクセス拡大を目指しています。これは世界保健機関によるものです。
新しいシステムは、「三者ケア(triadic care)」のモデルを探ることを目的としています。そこではAIエージェントが医師や患者と並び立ち、臨床判断を置き換えるのではありません。DeepMindは、その目標は、医師が意思決定を管理し続ける状態で、臨床家の手の届く範囲を広げるツールを構築することだと述べました。同社は、この取り組みを、MedPaLMのような医療知識テストに焦点を当てた先行システムや、テキストベースの模擬診察を行ったAMIEに続く、自社の医療AI研究の次のステップだと位置づけています。
AIコ・クリニシャンの重要な特徴は、テキスト以上を処理できることです。このシステムは、ライブの音声と映像でテストされ、歩行、呼吸パターン、見える皮膚の変化といった身体的な手がかりを観察できました。遠隔医療の模擬では、モデルが身体診察の一部を患者に案内でき、吸入器の使い方の確認や、肩のケガの特定を助けるといった作業にも対応できました。これらの能力は、視覚と聴覚の観察が重要になるような遠隔診察を、マルチモーダルAIが将来的に支援し得ることを示唆しています。
DeepMindは、システムに組み込まれた安全対策を強調しました。AIコ・クリニシャンはデュアルエージェント設計で、「プランナー(Planner)」が相互作用を継続的に見直し、「トーカー(Talker)」が臨床的な範囲にとどまっているかを確認します。同社は、この構造は、不適切な出力を減らし、事実の正確性と慎重さが不可欠な医療現場で信頼性を高めることを目的としていると述べました。
研究チームは、システムを複数の方法で評価しました。あるテストでは、NOHARMの安全性フレームワークを改変して、不正確な応答と重要情報を提示できなかったケースの両方を測定しました。98件のプライマリ・ケア質問を用いたブラインド比較では、システムは97件で致命的な重大エラーをゼロとして記録し、医師によって他のエビデンス統合ツールよりも優先されました。DeepMindは、これは、根拠のある高品質な臨床情報を求める臨床家にとって、このモデルが有用になり得ることを示していると述べています。
この研究では、OpenFDA RxQAベンチマークを使って、薬剤に関する質問をどれほどうまく扱えるかも検討しました。このベンチマークは、薬や治療に関する知識と推論をテストするよう設計されています。自由回答形式の評価では、AIコ・クリニシャンが他の最前線モデルを上回り、日常のケア計画で特に重要な領域において進展があることを示しました。
しかし、患者に向けた模擬では、人間の医師のほうが総合的により良い成績を収めました。ハーバード大学およびスタンフォード大学の学術医師とともに、研究チームは、20の合成的な臨床シナリオと10人の医師による患者役(患者を演じる行為者)を含む無作為化研究を実施しました。140以上の評価領域にわたって、医師は危険信号の検出や身体診察の指示でAIを上回りました。とはいえ、システムは、トリアージを含む68のカテゴリで医師のパフォーマンスに匹敵、または上回っていました。これらの結果は、このツールが臨床の専門知識の代替というより、支援システムとして最も価値を持つ可能性を示唆しています。
DeepMindは、より広い目的は、現実のケア環境に適応でき、臨床的に根拠があり、そして信頼できる形で医師を支援できるAIを開発することだと述べました。同社は、システムをより多様な医療環境で試すために、米国、インド、オーストラリア、ニュージーランド、シンガポール、そしてアラブ首長国連邦を含む複数の国にまたがる研究協力を継続しています。