За пекінським часом 18 лютого Маск та команда XAI у прямому ефірі офіційно представили останню версію Grok - Grok3.
Ще до цього випуску, завдяки різноманітній інформації, яку було відкинуто, разом з неперервним прогріванням від Маска 24/7, очікування від Grok3 по всьому світу було піднято на неймовірний рівень. Тиждень тому Маск у прямому ефірі коментував DeepSeek R1, ще повністю впевнено заявивши, що “XAI незабаром випустить ще кращу модель штучного інтелекту”.
За даними, представленими на місці, Grok3 вже перевищив усі основні моделі в математиці, науці та програмуванні тестування стандартів, Маск навіть заявив, що Grok 3 майбутнього буде використано для обчислень у місіях SpaceX на Марс та передбачив, що «протягом трьох років буде досягнуто прорив рівня Нобелівської премії».
Проте це зараз лише слова Маска. Після публікації автор випробував останню бета-версію Grok3 і поставив класичне питання, яке використовується для ускладнення великих моделей: “9.11 чи 9.9, яка велика?”
На жаль, без будь-яких прикметників та позначок, який наразі вважається найрозумнішим Grok3, все ще не може правильно відповісти на це питання.
GROK3 не точно визначив значення цієї проблеми | Джерело зображення: GeekPark
Після цього тесту він дуже швидко привернув увагу багатьох друзів, і це не випадково, за кордоном також існує багато схожих тестів, наприклад, “яка з двох куль спочатку впаде з вежі Пізанського” та інші базові фізичні/математичні проблеми, Grok3 також виявився неспроможним вирішити. Тому його жартівливо називають “геній не бажає відповідати на прості питання”.
Grok3 виявився «великим провалом» в багатьох практичних тестах | Джерело зображення: X
Крім цих базових знань, які випробували інтернет-користувачі, Grok3 виявився непридатним для xAI на прямому ефірі, Маск продемонстрував використання Grok3 для аналізу своєї відомої гри Path of Exile 2 (, але насправді відповіді, надані Grok3, були в основному неправильними. У прямому ефірі Маск не помітив цього очевидного проблеми.
Grok3 також часто надає велику кількість неправильних даних під час прямого ефіру | Джерело зображення: X
Таким чином, цей помилка стала не лише доказом того, що зарубіжні користувачі знову насміхаються з Маска за гру ‘‘наймання заміни’’, але також підіймається велике питання щодо надійності Grok3 в практичному застосуванні.
Для такого “генія”, незалежно від його реальних здібностей, надійність для використання в надскладних сценаріях, таких як місії дослідження Марсу, має величезне питання.
Наразі багато тих, хто декілька тижнів тому отримав можливість протестувати Grok3, а також ті, хто вчора лише кілька годин використовував модельні можливості, приходять до одного висновку щодо поточного виконання Grok3:
«Grok3 дуже добрий, але він не кращий за R1 або o1-Pro»
“Grok3 дуже добре, але воно не краще за R1 або o1-Pro” | Джерело зображення: X
Grok3 на офіційній презентації великого моделювання у сфері Chatbot Arena досяг «комерційного переваги», але це, фактично, також використовувало деякі невеликі графічні трюки: на вісі Y списку вказано лише рейтинги в діапазоні 1400-1300, що робить видимими невеликі відмінності в тестових результатах 1% у цій презентації PPT.
Ефект “далекий лідер” в офіційній презентації PPT | Джерело зображення: X
Актуальний результат моделі для бігу, GROK3 фактично відрізняється від DeepSeek R1 та GPT4.0 менше ніж на 1-2%: це відповідає відчуттям користувачів, що в реальних тестах “немає помітної різниці”.
Фактично Grok3 вище лише на 1%-2% за наступним | Джерело зображення: X
Крім того, хоча на рахунок Grok3 він перевищив усі моделі, що наразі перебувають у відкритому тестуванні, це не знаходить визнання в багатьох: нарешті, xAI вже в епоху Grok2 «набирала бали» в цьому рейтингу, і з врахуванням великого зниження балів через зниження вагомості стилю відповідей в рейтингу, це часто критикується фахівцями як «високий бал, низька ефективність».
Незалежно від того, чи йдеться про «накрутку» рейтингу чи про «маленькі хитрощі» в дизайні малюнків, все це демонструє віру Маска у те, що xAI та сам Маск є «недосяжними лідерами» в питанні можливостей моделей.
Щоб скоригувати ці різниці, ціною, яку Маск заплатив, можна назвати високою: на прес-конференції Маск майже показував, що використовує більше 200 тисяч H100 (Маск у прямому ефірі сказав, що використовує «понад 100 тисяч» карток ) для тренування Grok3, загальний час тренування становить два мільярди годин. Це змусило деяких вважати, що це є ще одним великим плюсом для галузі GPU, і вважати, що рухи, зумовлені DeepSeek, є «дурними».
Багато людей вважають, що накопичення обчислювальної потужності стане майбутнім для навчання моделей | Джерело зображення: X
Проте насправді один з користувачів порівняв обчислення реального рівня витрат продуктивності Grok3 після тренування протягом двох місяців на 2000 аркушах H800 з DeepSeek V3 з результатом у 263 рази вище, ніж у V3. Різниця між DeepSeek V3 і Grok3, яка отримала 1402 бали у великому рейтингу моделей, навіть не сягає 100 балів.
Після того, як ці дані були оприлюднені, багато людей швидко усвідомили, що за титулом Grok3 “найсильніший в світі” насправді стоїть логіка, згідно з якою чим більший модель, тим потужніше вона працює, вже спостерігаються виразні маргінальні ефекти.
Навіть у випадку «високого балу, низької ефективності» Grok2, за його спиною є велика кількість високоякісних перших даних у Twitter, що використовуються для підтримки. Що стосується навчання Grok3, xAI також зіткнеться з тим самим «потолком», який зараз відчуває OpenAI - недостатність високоякісних навчальних даних, що призводить до швидкого виявлення маргінального ефекту властивостей моделі.
Щодо цих фактів, першими, хто це розумів і найглибше розуміли, безумовно, була команда розробників Grok3 та Маск, тому Маск також постійно заявляв у соціальних мережах, що версія, яку користувачі відчувають зараз, “лише тестова версія”, “повна версія вийде в найближчі місяці”. Сам Маск навіть виступив у ролі менеджера продукту Grok3, радя користувачам безпосередньо в коментарях повідомляти про будь-які проблеми, з якими вони зіткнулися під час використання.
Він, мабуть, є менеджером з продукту з найбільшою кількістю фанатів на Землі | Джерело зображення: X
Проте протягом одного дня виступ Grok3, безсумнівно, налякав наслідувачів, які покладають надію на тренування «великими цеглинами», що зможуть створити потужніші великі моделі: за інформацією, опублікованою Microsoft, об’єм параметрів OpenAI GPT4 становить 18 трильйонів, що у більш ніж 10 разів перевищує GPT3, а обсяг параметрів у GPT4.5, як вважають, може бути ще більшим.
Об’єм параметрів моделі зростає, а витрати на навчання також стрімко зростають | Джерело зображення: X
З GROK3 на передньому плані, GPT4.5 та багато інших, хто хоче продовжувати “витрачати гроші”, щоб отримати кращу модельну продуктивність за рахунок обсягу параметрів, повинні розглянути наближене до них стелю та як прорватися через неї.
На цей момент коли колишній головний науковець OpenAI Ілля Суцкевер у грудні минулого року заявив: “Знайоме нам попереднє навчання завершиться”, це знову нагадало людям про себе, і вони намагаються знайти справжній вихід з навчання великих моделей.
Погляди Ілії вже попередили галузь | Джерело зображення: X
Тоді Ілля точно передбачив, що доступні нові дані майже вичерпаються, модель важко продовжувати покращувати виступ шляхом отримання даних, і він описав цю ситуацію як використання вичерпних природних ресурсів, кажучи, що «так само, як нафта, інтернетовий контент, створений людьми, є обмеженим ресурсом».
У прогнозу Sutskever наступної моделі після передбачення передбачається, що вона матиме “справжню автономність” після передбачення передбачається, що вона матиме “справжню автономність”. У той же час вона буде мати здатність до мислення “схожого на людський мозок”.
У майбутній системі штучного інтелекту, на відміну від того, що базується на вмісті, на якому ґрунтується сучасні передбачувані моделі (на основі вмісту, який модель вивчала раніше), буде здатність поступово навчатися та розробляти методологію для вирішення проблем схожим чином до “мислення” людського мозку.
Людина може досягти базового рівня в певній галузі, просто вивчаючи основну професійну літературу, але для досягнення навіть найбільш базового рівня у великих моделях ШІ потрібно опрацювати мільйони даних, і навіть після зміни формулювання питання такі базові питання можуть бути неправильно зрозуміні моделлю. У цій ситуації модель не підвищує свою інтелектуальну здатність: це візуальне виявлення того явища, про яке йшлося на початку статті, тобто тих базових питань, на які Grok3 не може правильно відповісти.
Проте, окрім ‘Сила великих цеглин’, Grok3, якщо дійсно може відкрити галузі факт, що ‘попередньо навчені моделі на межі’, воно все ще має важливе натхнення для галузі.
Можливо, після того, як хвиля Grok3 поступово відступить, ми також побачимо більше випадків, подібних до Лі Фейфей, де на підґрунті конкретного набору даних вдалося налаштувати високопродуктивну модель за 50 доларів. І в цьому дослідженні знайдемо справжній шлях до загального штучного інтелекту.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Тестування "найрозумнішого на світі" Grok3: чи є він дійсно кінцевою точкою ефекту моделі борту?
За пекінським часом 18 лютого Маск та команда XAI у прямому ефірі офіційно представили останню версію Grok - Grok3.
Ще до цього випуску, завдяки різноманітній інформації, яку було відкинуто, разом з неперервним прогріванням від Маска 24/7, очікування від Grok3 по всьому світу було піднято на неймовірний рівень. Тиждень тому Маск у прямому ефірі коментував DeepSeek R1, ще повністю впевнено заявивши, що “XAI незабаром випустить ще кращу модель штучного інтелекту”.
За даними, представленими на місці, Grok3 вже перевищив усі основні моделі в математиці, науці та програмуванні тестування стандартів, Маск навіть заявив, що Grok 3 майбутнього буде використано для обчислень у місіях SpaceX на Марс та передбачив, що «протягом трьох років буде досягнуто прорив рівня Нобелівської премії».
Проте це зараз лише слова Маска. Після публікації автор випробував останню бета-версію Grok3 і поставив класичне питання, яке використовується для ускладнення великих моделей: “9.11 чи 9.9, яка велика?”
На жаль, без будь-яких прикметників та позначок, який наразі вважається найрозумнішим Grok3, все ще не може правильно відповісти на це питання.
GROK3 не точно визначив значення цієї проблеми | Джерело зображення: GeekPark
Після цього тесту він дуже швидко привернув увагу багатьох друзів, і це не випадково, за кордоном також існує багато схожих тестів, наприклад, “яка з двох куль спочатку впаде з вежі Пізанського” та інші базові фізичні/математичні проблеми, Grok3 також виявився неспроможним вирішити. Тому його жартівливо називають “геній не бажає відповідати на прості питання”.
Grok3 виявився «великим провалом» в багатьох практичних тестах | Джерело зображення: X
Крім цих базових знань, які випробували інтернет-користувачі, Grok3 виявився непридатним для xAI на прямому ефірі, Маск продемонстрував використання Grok3 для аналізу своєї відомої гри Path of Exile 2 (, але насправді відповіді, надані Grok3, були в основному неправильними. У прямому ефірі Маск не помітив цього очевидного проблеми.
Grok3 також часто надає велику кількість неправильних даних під час прямого ефіру | Джерело зображення: X
Таким чином, цей помилка стала не лише доказом того, що зарубіжні користувачі знову насміхаються з Маска за гру ‘‘наймання заміни’’, але також підіймається велике питання щодо надійності Grok3 в практичному застосуванні.
Для такого “генія”, незалежно від його реальних здібностей, надійність для використання в надскладних сценаріях, таких як місії дослідження Марсу, має величезне питання.
Наразі багато тих, хто декілька тижнів тому отримав можливість протестувати Grok3, а також ті, хто вчора лише кілька годин використовував модельні можливості, приходять до одного висновку щодо поточного виконання Grok3:
«Grok3 дуже добрий, але він не кращий за R1 або o1-Pro»
“Grok3 дуже добре, але воно не краще за R1 або o1-Pro” | Джерело зображення: X
Grok3 на офіційній презентації великого моделювання у сфері Chatbot Arena досяг «комерційного переваги», але це, фактично, також використовувало деякі невеликі графічні трюки: на вісі Y списку вказано лише рейтинги в діапазоні 1400-1300, що робить видимими невеликі відмінності в тестових результатах 1% у цій презентації PPT.
Ефект “далекий лідер” в офіційній презентації PPT | Джерело зображення: X
Актуальний результат моделі для бігу, GROK3 фактично відрізняється від DeepSeek R1 та GPT4.0 менше ніж на 1-2%: це відповідає відчуттям користувачів, що в реальних тестах “немає помітної різниці”.
Фактично Grok3 вище лише на 1%-2% за наступним | Джерело зображення: X
Крім того, хоча на рахунок Grok3 він перевищив усі моделі, що наразі перебувають у відкритому тестуванні, це не знаходить визнання в багатьох: нарешті, xAI вже в епоху Grok2 «набирала бали» в цьому рейтингу, і з врахуванням великого зниження балів через зниження вагомості стилю відповідей в рейтингу, це часто критикується фахівцями як «високий бал, низька ефективність».
Незалежно від того, чи йдеться про «накрутку» рейтингу чи про «маленькі хитрощі» в дизайні малюнків, все це демонструє віру Маска у те, що xAI та сам Маск є «недосяжними лідерами» в питанні можливостей моделей.
Щоб скоригувати ці різниці, ціною, яку Маск заплатив, можна назвати високою: на прес-конференції Маск майже показував, що використовує більше 200 тисяч H100 (Маск у прямому ефірі сказав, що використовує «понад 100 тисяч» карток ) для тренування Grok3, загальний час тренування становить два мільярди годин. Це змусило деяких вважати, що це є ще одним великим плюсом для галузі GPU, і вважати, що рухи, зумовлені DeepSeek, є «дурними».
Багато людей вважають, що накопичення обчислювальної потужності стане майбутнім для навчання моделей | Джерело зображення: X
Проте насправді один з користувачів порівняв обчислення реального рівня витрат продуктивності Grok3 після тренування протягом двох місяців на 2000 аркушах H800 з DeepSeek V3 з результатом у 263 рази вище, ніж у V3. Різниця між DeepSeek V3 і Grok3, яка отримала 1402 бали у великому рейтингу моделей, навіть не сягає 100 балів.
Після того, як ці дані були оприлюднені, багато людей швидко усвідомили, що за титулом Grok3 “найсильніший в світі” насправді стоїть логіка, згідно з якою чим більший модель, тим потужніше вона працює, вже спостерігаються виразні маргінальні ефекти.
Навіть у випадку «високого балу, низької ефективності» Grok2, за його спиною є велика кількість високоякісних перших даних у Twitter, що використовуються для підтримки. Що стосується навчання Grok3, xAI також зіткнеться з тим самим «потолком», який зараз відчуває OpenAI - недостатність високоякісних навчальних даних, що призводить до швидкого виявлення маргінального ефекту властивостей моделі.
Щодо цих фактів, першими, хто це розумів і найглибше розуміли, безумовно, була команда розробників Grok3 та Маск, тому Маск також постійно заявляв у соціальних мережах, що версія, яку користувачі відчувають зараз, “лише тестова версія”, “повна версія вийде в найближчі місяці”. Сам Маск навіть виступив у ролі менеджера продукту Grok3, радя користувачам безпосередньо в коментарях повідомляти про будь-які проблеми, з якими вони зіткнулися під час використання.
Він, мабуть, є менеджером з продукту з найбільшою кількістю фанатів на Землі | Джерело зображення: X
Проте протягом одного дня виступ Grok3, безсумнівно, налякав наслідувачів, які покладають надію на тренування «великими цеглинами», що зможуть створити потужніші великі моделі: за інформацією, опублікованою Microsoft, об’єм параметрів OpenAI GPT4 становить 18 трильйонів, що у більш ніж 10 разів перевищує GPT3, а обсяг параметрів у GPT4.5, як вважають, може бути ще більшим.
Об’єм параметрів моделі зростає, а витрати на навчання також стрімко зростають | Джерело зображення: X
З GROK3 на передньому плані, GPT4.5 та багато інших, хто хоче продовжувати “витрачати гроші”, щоб отримати кращу модельну продуктивність за рахунок обсягу параметрів, повинні розглянути наближене до них стелю та як прорватися через неї.
На цей момент коли колишній головний науковець OpenAI Ілля Суцкевер у грудні минулого року заявив: “Знайоме нам попереднє навчання завершиться”, це знову нагадало людям про себе, і вони намагаються знайти справжній вихід з навчання великих моделей.
Погляди Ілії вже попередили галузь | Джерело зображення: X
Тоді Ілля точно передбачив, що доступні нові дані майже вичерпаються, модель важко продовжувати покращувати виступ шляхом отримання даних, і він описав цю ситуацію як використання вичерпних природних ресурсів, кажучи, що «так само, як нафта, інтернетовий контент, створений людьми, є обмеженим ресурсом».
У прогнозу Sutskever наступної моделі після передбачення передбачається, що вона матиме “справжню автономність” після передбачення передбачається, що вона матиме “справжню автономність”. У той же час вона буде мати здатність до мислення “схожого на людський мозок”.
У майбутній системі штучного інтелекту, на відміну від того, що базується на вмісті, на якому ґрунтується сучасні передбачувані моделі (на основі вмісту, який модель вивчала раніше), буде здатність поступово навчатися та розробляти методологію для вирішення проблем схожим чином до “мислення” людського мозку.
Людина може досягти базового рівня в певній галузі, просто вивчаючи основну професійну літературу, але для досягнення навіть найбільш базового рівня у великих моделях ШІ потрібно опрацювати мільйони даних, і навіть після зміни формулювання питання такі базові питання можуть бути неправильно зрозуміні моделлю. У цій ситуації модель не підвищує свою інтелектуальну здатність: це візуальне виявлення того явища, про яке йшлося на початку статті, тобто тих базових питань, на які Grok3 не може правильно відповісти.
Проте, окрім ‘Сила великих цеглин’, Grok3, якщо дійсно може відкрити галузі факт, що ‘попередньо навчені моделі на межі’, воно все ще має важливе натхнення для галузі.
Можливо, після того, як хвиля Grok3 поступово відступить, ми також побачимо більше випадків, подібних до Лі Фейфей, де на підґрунті конкретного набору даних вдалося налаштувати високопродуктивну модель за 50 доларів. І в цьому дослідженні знайдемо справжній шлях до загального штучного інтелекту.