Google випустила Gemini Omni Flash: інтерактивне відеоредагування для діалогу, яке поєднує YouTube Shorts і Google Flow

GOOGLX-0,05%

Gemini Omni Flash

Google 19 травня на Google I/O 2026 оголосила про вихід першого продукту серії Gemini Omni — Gemini Omni Flash, а 22 травня на офіційному сайті офіційно опублікувала технічний опис; перша інтеграція платформи включає Gemini застосунок, Google Flow і YouTube Shorts.

已確認的 Gemini Omni Flash 的 основні функції

Діалогове редагування відео: користувач редагує відео за допомогою команд природною мовою; кожна команда виконується сукупно, спираючись на попередню. Модель зберігає узгодженість ролей, надійні фізичні ефекти та пам’ять про сцену; підтримуються зміни фону, стилю, кута або конкретних деталей без потреби перегенерувати весь фрагмент.

Розширене моделювання фізичного рушія: Omni посилює інтуїтивне розуміння гравітації, кінетичної енергії та гідродинаміки, підвищуючи правдоподібність сцен. Це дозволяє створювати точніші фізичні ефекти, зокрема динамічні сцени на кшталт зіткнень об’єктів, течії рідин і ланцюгових реакцій.

Мультимодальне введення для генерації: Omni може обробляти будь-яку комбінацію введень (зображення, текст, фрагменти відео, аудіо) як одну команду й генерувати єдиний узгоджений результат. На початковому етапі підтримується аудіовведення із голосовими посиланнями; інші типи аудіовведень буде додано згодом.

Інтеграція знань і візуалізація концепцій: Omni спирається на знання Gemini щодо історії, науки та культурного контексту, виходячи за межі простого зіставлення шаблонів. Вона може за короткими підказками генерувати пояснювальний контент — наприклад, пояснювати складні наукові концепції на кшталт згортання білків через глиняну анімацію.

Функція цифрових віртуальних образів (Avatar): користувачі можуть створити цифрову версію, що містить власний голос, та генерувати відео, де зовнішність і голос максимально схожі з ними. Функції редагування аудіо та голосу все ще тестуються й наразі не доступні для всіх користувачів.

SynthID водяний знак: підтверджений механізм прозорості для контенту з AI

Усі відео, створені через Gemini Omni, автоматично вбудовують SynthID цифровий водяний знак — технологію невидимих водяних знаків, розроблену Google DeepMind. Вбудування не впливає на візуальну якість відео. Користувачі можуть перевірити, чи створено відео Gemini Omni, через три підтверджені канали: Gemini застосунок, Gemini у Chrome та Google Пошук. Google зазначає, що інструмент перевірки SynthID призначений допомогти користувачам зрозуміти, як створюється та редагується контент в інтернеті; це є частиною її політики відповідального розроблення AI.

Підтверджені канали доступу та таймлайн релізу

Негайно доступно: платні передплатники Google AI Plus, Pro та Ultra — через Gemini застосунок і Google Flow

Протягом цього тижня: користувачі YouTube Shorts і YouTube Create застосунку — безкоштовно надається

За кілька тижнів: розробники та корпоративні клієнти — через Gemini API та Agent Platform API

Поширені запитання

Технічна різниця між «моделлю світу» в Gemini Omni Flash і звичайними моделями генерації відео?

Google позиціонує Gemini Omni як «модель світу», що означає: модель не лише виконує генеративне відображення від входу до виходу, а й має здатність виконувати причинні висновки на основі реальної світової бази знань, навченої на Gemini (включно з фізичними закономірностями, культурним контекстом, історичними та науковими знаннями). Наприклад, модель може прогнозувати, як об’єкти поводитимуться далі в сцені, відтворювати ефекти реальних фізичних рушіїв і перетворювати мовні описи на візуальний контент із семантичним значенням. Це відрізняється від відеодифузійних моделей, які працюють виключно за принципом зіставлення шаблонів, у тому числі на рівні цілей проєктування та архітектурного позиціонування.

Чи можна видалити або обійти SynthID водяний знак?

Офіційні пояснення Google підтверджують, що SynthID водяний знак є невидимим (не впливає на візуальний контент відео), вбудовується в цифрову структуру відео та може бути перевірений через офіційні інструменти верифікації Google. Google не розкриває в офіційній документації конкретний спосіб технічної реалізації водяного знаку; незалежних технічних оцінок надійності та стійкості до втручань щодо SynthID наразі немає у відкритому доступі.

Які формати введення підтримує Gemini Omni Flash наразі та які типи виведення буде розширено в майбутньому?

Підтримувані введення підтверджено: текст, статичні зображення, фрагменти відео, голосове аудіо (на старті). У офіційному блозі Google підтвердили, що інші типи аудіовведення «найближчим часом» буде додано як доповнення. Щодо виведення: нинішня версія Omni Flash фокусується на генерації відео; Google зазначає, що в майбутньому в серії Omni підтримуватимуться режими виведення зображень і аудіо, однак конкретний таймлайн релізу не підтверджено в цьому оголошенні.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів