Vision Banana от Google: унифицированная модель зрения превосходит специализированные модели в сегментации и 3D-геометрии

Сообщение Gate News, 23 апреля — исследователи Google, включая Хэ Кайминга и Се Сайнина, опубликовали работу, представляющую Vision Banana — универсальную модель понимания изображений, созданную с помощью легкой инструкции по дообучению для уточнения на компании Nano Banana Pro (Gemini 3 Pro Image) модель генерации изображений. Ключевое нововведение унифицирует выходы всех задач компьютерного зрения в виде RGB-изображений, позволяя выполнять сегментацию, оценку глубины и предсказание нормалей поверхности посредством генерации изображений без специализированных архитектур или функций потерь.

В семантической сегментации Vision Banana превзошла специализированную модель SAM 3 на 4,7 процентного пункта на Cityscapes; в сегментации по референсному выражению она обошла SAM 3 Agent. Однако в инстанс-сегментации она уступила SAM 3. Для 3D-задач метрическая оценка глубины достигла 0,929 средней точности на четырех стандартных наборах данных, превзойдя Depth Anything V3 с 0,918, используя только синтетические данные без реальной информации о глубине или параметров камеры на этапе инференса. Оценка нормалей поверхности достигла уровня лучших на сегодняшний день результатов на трех внутренних бенчмарках.

Дообучение включало минимальный объем данных по задачам зрения, смешанный с исходным обучением генерации изображений, сохраняя способность модели к генерации — производительность совпала с оригинальной Nano Banana Pro в тестах качества генерации. В работе предлагается, что предварительное обучение генерации изображений в зрении параллельно предварительному обучению генерации текста в языке: модели учатся внутренним представлениям, необходимым для понимания изображений, во время генерации, а инструкционное дообучение лишь высвобождает эту возможность.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

От туалета до производителей приправ: как «разливы» ценности AI-снабжения помогли каким компаниям?

Волна выгод от бума искусственного интеллекта продолжает распространяться: от Nvidia до таких технологических гигантов, как TSMC. А теперь японские компании, производящие унитазы, и продовольственные группы, начавшие с глутамата натрия, незаметно стали скрытыми победителями этой волны ажиотажа вокруг AI-инфраструктуры. Их прорыв высветил ключевую тенденцию: эффект «перетекания» стоимости в AI-сцепочках давно проник в традиционное производство и открывает более разнообразные возможности для трансформации. Производитель унитазов TOTO: керамические технологии неожиданно попали в спрос на вафельные техпроцессы Японская компания TOTO — крупный производитель сантехники — известна по всему миру высококачественными крышками для унитазов и работает в керамическом производстве более 40 лет. Однако именно эта, казалось бы, не связанная с технологиями традиционная технология вывела компанию на новую сцену в полупроводниковом процессе. TOTO недавно объявила, что будет использовать свою экспертизу в керамических технологиях для производства электростатических прижимов (Electrostatic Chuck), применяемых при изготовлении чипов. Как только новость вышла, котировки акций…

ChainNewsAbmedia1ч назад

MediaTek нанимает бывшего руководителя TSMC для расширения направления AI-чипов

Тайваньский разработчик чипов MediaTek назначил бывшего руководителя Taiwan Semiconductor Manufacturing Co (TSMC) Дугласа Ю частным (на неполной ставке) советником 4 мая, сообщает Reuters. Этот шаг поддерживает расширение MediaTek в сегмент AI-чипов и продвижение его технологий упаковки. Advanced

CryptoFrontier1ч назад

OpenAI сотрудничает с Yubico, чтобы предложить настраиваемые аппаратные ключи безопасности

По данным Yubico, OpenAI сотрудничала со шведской компанией, базирующейся в Стокгольме, производящей защитные ключи, чтобы предлагать на заказ YubiKeys через свою программу Advanced Account Security. Программа нацелена на пользователей с повышенным риском фишинговых атак и захвата аккаунтов. Комплект включает YubiKey C NFC для мобильных устройств и YubiKey 5 NFC для компьютеров.

GateNews1ч назад

Индия предупреждает о киберрисках после того, как ИИ Mythos от Anthropic нарушил защиту в 83 из 100 тестовых случаев

Согласно The Economic Times, индийское агентство по кибербезопасности недавно выпустило предупреждение высокой степени критичности после того, как ИИ Anthropic Mythos продемонстрировал способность находить десятки тысяч уязвимостей и превращать программные ошибки в эксплуатируемые атаки за считанные минуты. Unit 42 компании Palo Alto Networks и

GateNews3ч назад

Инвесторы: 1 акция превращается в 480 акций — это сейчас возможность для входа перед следующей биржевой разбивкой акций NVIDIA?

В этом обзоре рассматривается, как Nvidia неоднократно проводила сплит акций с момента выхода на биржу в 1999 году: благодаря этому количество акций у ранних держателей выросло до 480 штук, а в 2024 году компания провела корректировку по схеме 10 к 1, снизив цену до примерно 120 долларов. Под влиянием глобального спроса на инфраструктуру для ИИ Nvidia стала ключевым поставщиком для центров обработки данных; её капитализация приближается к 5 триллионам долларов, а темпы роста по-прежнему остаются сильными. Аналитики ожидают, что следующий сплит будет зависеть от динамики цены и показателей роста; сейчас цена около 198 долларов, и если рост продолжится, либо появится новый момент для входа, — это может сыграть роль, но это лишь рыночные наблюдения, а не инвестиционная рекомендация.

ChainNewsAbmedia3ч назад

Google и VNG запустят Applied AI Lab во Вьетнаме 4 мая

По данным VNG Corporation, Google, VNG и Вьетнамского национального университета в Хошимине 4 мая запустили в Вьетнаме прикладную AI-лабораторию через Saigon AI Hub. Google Labs и AI Future Funds предоставят выбранным командам ранний доступ к технологиям Google, техническую поддержку со стороны Google и

GateNews3ч назад
комментарий
0/400
Нет комментариев