За словами CEO Abacus.AI Бінду Редді, Google планує представити Gemini 3.2 Flash під час своєї конференції I/O 20 травня; за продуктивністю вона досягатиме 92% GPT-5.5 у завданнях із кодування та міркувань, водночас скорочуючи витрати на інференс лише до однієї п’ятнадцятої — однієї двадцятої від показників останньої. Більшість запитів матиме затримку нижче 200 мілісекунд. Редді пов’язав цей прорив із техніками distillation і sparsity від Google: вони стискають «фронтирну» модель до рівня Flash без типового провалу продуктивності, який зазвичай спостерігається під час оптимізації моделей.
Related News
Експерти стверджують, що zk-докази дають DePINs перевагу на тлі зростання попиту на довіру в умовах розвитку ШІ
Google випустила свій перший «AI-ноутбук»: Googlebook із глибокою інтеграцією Gemini як найкращий партнер для спільної роботи
Google: великі мовні моделі використовують для реальних атак, AI може обходити механізми захисту з двофакторною автентифікацією