Google、Nano Banana 2を発表:AI画像生成の新王者か?

Decrypt

要約

  • Googleの新モデルNano Banana 2は、プロレベルの画像生成を高速で実現
  • リアルタイムのウェブ検索機能により、AI画像に事実的な根拠を付与
  • 数日前に発表された中国製モデルSeedream 5は、より柔軟性が高く、競合として注目される

Googleは最近、驚くべきペースでAIソフトウェアをリリースしている。たった1週間ほどの間に、Gemini 3.1、Lyria、Paliといった新モデルが登場し、特にPaliは写真撮影機能が好評を博した。そして今、昨年最大の画像生成ヒットの後継モデルが登場した。

木曜日に発表されたNano Banana 2は、「Gemini Flashの高速知能をビジュアル生成に導入し、迅速な編集と反復を可能にする」とGoogleは公式ブログで述べている。また、「かつて限定的だったPro機能をより多くのユーザーに提供する」とも付け加えた。

概要を簡単に説明すると、元のNano Bananaは実はGemini 2.5 Flash Imageと呼ばれ、基本的にはGemini 2.5 Flashを基にした画像生成モデルだった。その後、Nano Banana Pro(Gemini 3 Pro Image)が登場し、昨年11月のリリース以来、AI画像編集の標準となった。

Nano Banana 2の紹介:これまでで最高の画像生成・編集モデルです。🍌

プロレベルの品質を、Flashの高速さで。今日から@GeminiApp、Search、開発者・クリエイティブツールに展開。pic.twitter.com/6oNWYhVSqp

— Google (@Google) 2026年2月26日

Nano Banana 2は技術的にはGemini 3.1 Flash Imageであり、Proの直接的な続編ではなく、むしろ元のモデルの大幅なアップグレード版で、新しいGemini 3 Flash基盤上で動作している。混乱するかもしれないが、要はNano Banana Proのすべての特徴を高速化したものだ。

今日からGoogleのエコシステム全体に展開され、GeminiアプリではNano Banana Proに代わり、Fast、Thinking、Proモデルのデフォルトとなる。Google AI ProやUltraのサブスク会員は、三点リーダーメニューからNano Banana Proを再生成して特定のタスクに利用可能だ。

また、Google検索のAIモードやLens、AI StudioのGemini API、Vertex AIのプレビュー版でも利用でき、Flowの新しいデフォルト画像生成モデルとしても提供されている。さらに、SynthIDの透かし技術やC2PAのコンテンツ証明書も拡充され、AI生成メディアの識別ツールが強化されている。SynthIDの検証機能は、11月以降すでに2000万回以上使用されている。

Nano Banana 2の新機能 最大のポイントは世界知識の活用だ。Nano Banana 2は画像生成中にリアルタイムのウェブ検索を行い、特定の被写体を正確に描写できる。ロゴ、ランドマーク、最近の出来事、ブランドアイデンティティなど、見た目を検索で確認できるため、訓練データだけに頼らずに正確な描写が可能だ。

テキストレンダリングも大幅に進化。プロンプト内の文字を正確かつ判読可能に生成できるほか、モデルが文脈に基づいて何を書くかを判断して出力することもできる。画像内翻訳も対応し、多言語の広告キャンペーンを一から作り直すことなくローカライズできる。

被写体の一貫性も向上。最大5つの被写体のキャラクターの類似性を維持し、1つのワークフロー内で最大14のオブジェクトのビジュアル忠実度を保つことができる。これは、ストーリーボードやブランド資産の一貫性を求める制作にとって大きな進歩だ。

また、512pxから4Kまでの出力に対応し、多様なアスペクト比もサポート。指示の追従性も向上し、少ないプロンプトでより正確に意図を反映させられる。さらに、推論レベルも設定可能で、最低(デフォルト)から高やダイナミックまで調整でき、複雑な指示に対しても適切に処理できる。

モデルのテスト 速度の主張は本物だ。Nano Banana 2にビットコインエコシステムのタイムラインを生成させたところ、Bitcoinのタイムラインだけを作成したProとほぼ同じ時間で完了した。次にEthereumのタイムラインをリクエストした際も、ほとんど追加時間はかからなかった。これは、反復的なパイプラインや大規模な構築を行う上で重要な差だ。

世界知識の機能は、出力の質に本当に影響を与える。歴史的な暗号通貨のタイムラインをリクエストした際、モデルは複数の情報源を検索し、最も関連性の高い出来事を選び、それに基づいてアートを構築した。一般的なものではなく、編集判断も行っている。唯一の欠点は、あるセクションの終わりと次の始まりの間に視覚的なつながりが欠けていた点だ。それ以外は一貫性が保たれている。比較のためにNano Banana Proは、より一般的な芸術的出力を生成し、出来事のソースや優先順位付けにはほとんど気を配っていなかった。

例として、「ビットコインの歴史のタイムラインを作成し、創設から今日までの重要な出来事をハイライトしてください。ワイドスクリーン、子供の描き方スタイル」という指示に対して、Thinkingモードで生成された結果がこちら。

対照的に、Nano Banana Proを使った同じ生成結果は以下。

キャラクターの一貫性とテキスト処理は、私たちのテストで最も印象的だった部分だ。モデルに雑誌の表紙を生成させたところ、すべての文字が正確で明瞭に出力された。文字化けやタイポのズレは一切なし。

Nano Banana Proも優れているが、やや不安定で、雑誌の表紙の出力には3Dレンダリングのような人工的な質感が見られた。

Nano Banana 2の結果はフォトリアルに見える。自分で推論させてテキストを生成させた場合も、明示的に指示した場合よりも文字化けが少なくなる傾向がある。

ただし、モデルには明確なコンテンツの上限がある。Nano Banana 2に実写写真を編集し、衣装を下着に変更させるよう頼んだところ、長い推論サイクルの末に拒否された。これは予想通りだが、女性の写真に対しては編集を拒否したのに対し、男性の写真には拒否しなかった点は興味深い。

水着の交換リクエストは問題なく処理された。検閲レベルはNano Banana Proとほぼ同等であり、露骨な内容や実在人物の性的な操作を試みるとブロックされる。これは重要なポイントであり、その理由についても後述する。

Seedream 5:Nano Banana 2に競合登場

2026年2月下旬にフラッグシップの画像モデルをリリースするのはどうかと思ったら、同じ週にByteDanceもSeedream 5を発表した。

Seedreamは昨年からコミュニティで人気のモデルで、その理由も明白だ。柔軟性が高く、コスト効率も良い—API経由で1画像あたり約0.035ドル(Googleの約3分の1)—そしてコンテンツモデレーションもGoogleより寛容だ。これにより、実在人物や視覚的な境界を押し広げたいクリエイターから支持を集めている。

Seedream 5はリアルタイムのウェブ検索を生成パイプラインに導入し、推論能力の向上、参照の一貫性強化、最大14枚の参照画像を用いたマルチラウンド編集をサポート。2Kや4Kの画像を数秒で生成でき、ローカル実行も可能(Googleは許可していない)。また、ByteDanceのCapCutやJianying、標準APIを通じて利用できる。

要するに、GoogleとByteDanceは同じ週に、ウェブ検索と推論を強化した画像モデルをリリースした。これは、カテゴリー全体の今後の方向性を示している。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский язык
  • Français
  • Deutsch
  • Português (Portugal)
  • ภาษาไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)