Сообщение Gate News, 27 апреля — Логан Килпатрик, старший менеджер по продуктам в Google DeepMind и руководитель продуктового направления Google AI Studio, заявил в X, что каждая компания, создающая продукты на основе ИИ, должна разработать свои собственные индивидуальные бенчмарки для измерения эффективности ИИ-моделей. Он описал это как метод, позволяющий тому, чтобы улучшения модели «несоразмерно приносили выгоду вашей компании», и призвал основателей и руководителей бизнеса «начать уже завтра».
Большинство компаний сейчас полагаются на публичные лидерборды для выбора ИИ-моделей, но они измеряют общие возможности, которые часто не соответствуют конкретным сценариям бизнеса. Килпатрик привел пример компании по проверке контрактов, которая больше всего обеспокоена точностью извлечения пунктов — возможностью, отсутствующей в публичных бенчмарках, из-за чего невозможно оценить эффективность модели при выполнении этой задачи. Индивидуальные бенчмарки дают два ключевых преимущества: во-первых, они позволяют компаниям оценивать каждое обновление модели по своим бизнес-задачам и выбирать ту модель, которая лучше всего работает в их реальном сценарии использования, а не ту, что занимает наивысшее место в общем рейтинге; во-вторых, они позволяют компаниям делиться этими наборами тестов с поставщиками моделей, что способствует постоянной оптимизации в тех областях, которые важны для их бизнеса.
Килпатрик отметил, что такие компании, как Zapier и Sierra, уже внедряют этот подход, заявив, что «здесь можно создать много „альфы“».
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Сенатор Берни Сандерс выносит предупреждение о экзистенциальной угрозе со стороны ИИ
Сандерс подчеркнул, что даже несмотря на то, что большинство ученых в области ИИ признают возможность того, что ИИ выйдет из-под контроля и станет угрозой для нашего существования, никаких серьезных мер для предотвращения этого предпринято не было. «Мы должны убедиться, что ИИ приносит пользу человечеству, а не причиняет нам вред», — заявил он.
Ключевые выводы:
Берни Сандерс
CoinpediaТолько Сейчас
Ответственный за большую модель Xiaomi: когда конкуренция в ИИ переходит в эпоху агентов, саморазвитие — ключевое событие для AGI
Руководитель команды большой модели Xiaomi Луо Фу ли 24 апреля провела глубокое интервью на платформе Bilibili (номер видео: BV1iVoVBgERD); длительность интервью составила 3,5 часа. Это ее первое публичное, систематическое изложение технических взглядов в роли технического руководителя. Луо Фу ли заявила, что конкурентная гонка за большие модели перешла из эпохи Chat в эпоху Agent, а также указала, что «самоэволюция» станет ключевым событием для AGI в ближайший год.
MarketWhisper1м назад
Голосовой сервис xAI Grok перехватил линию поддержки клиентов Starlink: 70% звонков автоматически завершаются
Согласно официальному объявлению xAI от 23 апреля, xAI представила голосового ИИ-агента Grok Voice Think Fast 1.0 и уже развернула его в телефонной горячей линии службы поддержки Starlink +1 (888) GO STARLINK. Согласно раскрытым в объявлении данным полевых испытаний, 70% звонков автоматически закрываются ИИ без участия человека.
MarketWhisper12м назад
GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7
Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием "Spud" и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5.
При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные.
Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием "Expert-SWE." Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos 77.8%.
Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены.
DeepSeek V4 оценили как "удерживающий темп с передним краем, но не ведущий," позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что "Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности," и прокомментировал, что "Claude выиграл у китайской модели на её родном языке."
В статье вводится ключевая идея: цена модели должна оцениваться через "стоимость за задачу," а не через "стоимость за токен." Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 input $5, output за миллион токенов, но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.
GateNews16м назад
MediaTek заполучила крупный заказ Google на восьмое поколение TPU! ASIC стимулирует рост в трех секторальных акциях, которые получат выгоду
MediaTek вошла в цепочку поставок тренировочных чипов Google 8-го поколения TPU, отвечая за дизайн I/O Die, и использует техпроцесс TSMC N3P и упаковку CoWoS-S, что демонстрирует ее выход на уровень проектирования высококлассных AI ASIC. Ожидается, что в этом году выручка от ASIC превысит 1 миллиард долларов, а объем поставок TPU к 2027 году имеет шанс достичь десятков миллионов штук; тайваньская цепочка поставок, включая King Yuan Electronics, Jingce и Hongjing, также получит выгоду, а рынок постепенно смещается в сторону будущего разделения труда и чиплетов, а также гетерогенной интеграции.
ChainNewsAbmedia1ч назад
RE:AI Singtel сотрудничает с Mistral AI для разработки AI-инфраструктуры в Сингапуре
Сообщение Gate News, 27 апреля — Singtel Group объявила, что RE:AI, ее подразделение цифровой инфраструктуры на базе в Сингапуре, сотрудничает с Mistral AI, чтобы поддерживать AI-возможности для отраслей в Сингапуре.
Партнерство будет сосредоточено на совместной разработке AI-инфраструктуры и решений для секторов финансовых
GateNews2ч назад