Перший у історії AI, який створює AI! GPT-5.3 бере участь у розробці себе, фантастика стає реальністю

OpenAI випустила GPT-5.3-Codex — першу модель, яка «бере участь у створенні себе» для налагодження власного коду, управління розгортанням і діагностики тестування. Карпаті назвав цю редакцію «найближчою до сцени зльоту ШІ».

ШІ почав створювати технологічні сингулярності та прориви в ШІ

Офіційний акаунт OpenAI опубліковано: GPT-5.3-Codex офіційно запущено, який є «першим, хто бере участь у створенні власної моделі». Що це означає? Іншими словами, під час розробки цей ШІ допомагав налагоджувати власний навчальний код, керувати процесом розгортання та діагностувати власні результати тестів. У людських термінах ШІ почав створювати ШІ.

Андрій Карпаті, колишній дослідник OpenAI та директор Tesla AI, одразу після прочитання написав у Twitter: «Це найближче, що я коли-небудь бачив до сцени зльоту ШІ в науковій фантастиці.» Ця оцінка провідних дослідників ШІ є вагомою, оскільки Карпаті особисто пережив кілька ключових етапів розвитку ШІ, і його судження базується на глибокому технічному розумінні.

ШІ ітерує сам себе, це не маркетингова риторика. Згідно з внутрішнім розкриттям OpenAI, GPT-5.3-Codex робив такі речі під час розробки: аналізував тести, які не позначили навчальні журнали, пропонував виправлення для навчальних скриптів і профілів, генерував рецепти розгортання та підсумовував і оцінював аномалії для перевірки людьми. Що це означає? ШІ вже не просто інструмент, він починає ставати частиною команди розробників, і це той тип, який може покращувати себе.

Ця здатність брати участь у розробці просувається через традиційне позиціонування ШІ. Раніше моделі ШІ розробляли, навчалися та впроваджувалися виключно людьми, і ШІ був пасивним продуктом. Тепер GPT-5.3 відіграв активну роль у власному зародженні, і хоча ця зміна ролі ще перебуває під людським наглядом, має далекосяжні наслідки. Це натякає на можливість: майбутні моделі ШІ можуть бути здебільшого розроблені та оптимізовані самим ШІ, а люди надаватимуть лише вказівки та фінальний огляд.

Самоучасть GPT-5.3 у розробці

Аналіз навчальних журналів: Автоматично позначає невдалі тести для виявлення аномалій під час навчання

Рекомендований план ремонту: Запропонувати покращення тренувальних скриптів і профілів

Згенеруйте рецепт розгортання: Автоматизація процесу розгортання та зменшення ручних операцій

Аномалія підсумкової оцінки: Організувати складні результати оцінювання у звіти, зрозумілі людині

Нещодавня стаття SEAL, опублікована MIT (arXiv:2506.10943), описує архітектуру ШІ, яка безперервно навчається після розгортання, еволюціонуючи без повторного навчання. Варто зазначити, що деякі дослідники SEAL тепер приєдналися до OpenAI. Це означає, що ШІ змінився з «статичного інструменту» на «динамічну систему», навчання більше не зупиняється на розгортанні, а межі висновків і навчання тануть. GPT-5.3 може стати першим комерційним застосуванням цієї нової архітектури.

77,3% перевершив рекорд Клода

5 лютого OpenAI та Anthropic обидві випустили нове покоління моделей з інтервалом у 20 хвилин. Спочатку Anthropic випустила Claude Opus 4.6, а потім OpenAI запустила GPT-5.3-Codex. Оскільки OpenAI хоче використовувати GPT-5.3-Codex для снайпу нових моделей інших, він має певні можливості. Дані не брешуть: GPT-5.3-Codex встановив нові рекорди у численних галузевих бенчмарках одразу після запуску.

Terminal-Bench 2.0 тестує операційні можливості ШІ в реальному термінальному середовищі, компілюючи код, навчаючи моделі та налаштовуючи сервери. GPT-5.3-Codex набрав 77,3%, тоді як GPT-5.2-Codex — лише 64,0%, а Claude Opus 4.6 — 65,4%. Це зростання на 13 відсоткових пунктів між поколіннями, що вже є величезним кроком уперед у сфері ШІ. Порівняння 77,3% проти 65,4% показує, що GPT-5.3 забезпечує значну перевагу у реальних інженерних завданнях.

SWE-Bench Pro — це бенчмарк, спеціально розроблений для тестування реальних можливостей програмної інженерії, що охоплює чотири мови програмування: Python, JavaScript, Go та Ruby. GPT-5.3-Codex набрав 56,8%, перевершивши 56,4% свого попередника, GPT-5.2-Codex, і продовжив утримувати перше місце в галузі. Ще важливіше, що OpenAI показав, що GPT-5.3-Codex використовує найменшу кількість вихідних токенів серед усіх моделей, коли досягає цього показника, що означає, що він не лише точний, а й ефективний.

OSWorld-Verified перевіряє здатність ШІ виконувати продуктивні завдання у візуальному робочому середовищі, редагувати таблиці, створювати презентації, працювати з документами тощо. GPT-5.3-Codex набрав 64,7%, порівняно з середнім показником для людей у 72%. Це означає, що вона наблизилася до продуктивності звичайних людей у роботі з комп’ютером, майже подвоївшись порівняно з попередником. Ця майже людська продуктивність робить ШІ вперше справді здатним до офісної роботи, а не просто як допоміжний інструмент.

Claude контрить команди жетонів і агентів по 100 тисяч

Ще більш примітно, що Claude Opus 4.6 вперше підтримує контекстне вікно токена (бета) на рівні Opus, яке може одночасно обробляти всю кодову базу або сотні сторінок документів, а також запустило функцію Agent Teams, де кілька AI-агентів можуть одночасно працювати над програмуванням, тестуванням і написанням документів.

Коли OpenAI та Anthropic випускають свої флагманські моделі в один день і в один і той самий момент, це змагання вже не просто технічне змагання, а боротьба за майбутню форму ШІ: шлях «самоеволюції» OpenAI чи шлях «співпраці з багатьма агентами» Anthropic? Стратегія OpenAI полягає в тому, щоб зробити один ШІ потужнішим і навіть покращити себе. Стратегія Anthropic полягає в тому, щоб дозволити кільком ШІ співпрацювати над складними завданнями через розподіл праці та співпрацю.

Контекст 100K токенів — це технологічний прорив. Це еквівалентно приблизно 75 мільйонам англійських слів або 300 китайських ієрогліфів, що достатньо, щоб вмістити весь код середнього програмного проєкту або товсту технічну документацію. Ця здатність дозволяє Клоду «бачити» весь проєкт, а не фрагментарно розуміти. Для аналізу архітектури та рефакторингу масштабних проєктів цей глобальний погляд є ключовим.

Agent Teams приносить концепцію співпраці в ШІ. Один агент пише код, інший тестує, а третій — документацію, і вони можуть спілкуватися та координуватися між собою. Ця модель імітує роботу команд програмного забезпечення і може бути краще підходити для певних ситуацій, ніж один суперШІ. Однак багатоагентна співпраця також вводить нові складнощі: як координувати, як уникати конфліктів і як забезпечити послідовність.

Обидва варіанти мають свої переваги та недоліки. Шлях саморозвитку OpenAI є більш агресивним, і якщо він буде успішним, може призвести до експоненційного покращення можливостей, але також може вийти з-під контролю. Мультиагентний шлях Anthropic є більш консервативним, зменшуючи одиночну точку ризику за рахунок розширення можливостей, але витрати на координацію можуть обмежувати ефективність. У міру того, як ШІ починає розвиватися у реальному житті, питання управління змінюватимуться від «наскільки він розумний» до «як керувати системою, яка постійно змінюється?» І коли дві провідні компанії з ШІ випускають проривні моделі поспіль протягом 20 хвилин, часове вікно для людського мислення та підготовки скорочується з видимою швидкістю, видимою неозброєним оком.

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Індекс Доу під час торгів досяг історичного максимуму, найвищий рівень — 50 471,58 пункту

ChainCatcher повідомляє, згідно з даними Gate про ринок, індекс Доу Джонса продовжує оновлювати історичний максимум у торгівлі, досягнувши максимальної позначки 50,471.58 пунктів.

GateNewsBot48хв. тому

Американські акції відкрилися, індекс Dow піднявся на 0.11%, S&P 500 піднявся на 0.13%

ChainCatcher повідомляє, згідно з даними Gate про ринок, відкриття американського ринку: індекс Dow Jones Industrial Average піднявся на 0.11%, індекс S&P 500 — на 0.13%, Nasdaq Composite — на 0.1%. Standard & Poor’s Global (SPGI.N) знизився на 5.7% через низький прогноз прибутків на 2026 рік, що спричинило падіння акцій індексних провайдерів та аналітичних компаній, Moody’s (MCO.N) — на 6.89%. Warner Bros. Discovery (WBD.O) піднявся на 2.1% через додаткові витрати на компенсацію за нові придбання від Paramount.

GateNewsBot1год тому

Arbitrum розширює інституційний стек RWA, оскільки Arowana запускає токенізоване золото

Arowana запустить токен AGT і платформу Aqua gold на Arbitrum у березні 2026 року з фізично підтвердженим золотом. Група Hancom керує третьою за величиною золотовалютною біржею в Кореї з обсягом торгів на 600 мільйонів і 18-річним досвідом у металах. Arbitrum додає нову інфраструктуру для

CryptoNewsFlash1год тому

Індекс долара США DXY короткостроково знижується, зараз становить 96.78

ChainCatcher повідомляє, згідно з даними Jin10, що індекс долара DXY короткостроково знизився більш ніж на десять пунктів і зараз становить 96.78.

GateNewsBot2год тому

Goldman Sachs попереджає про тиск на продаж американських акцій, що очікує ціну BTC?

Goldman Sachs попереджає про потенційний $80 мільярдний розпродаж американських акцій, що може негативно вплинути на ціну BTC. Тим часом ціни на золото та срібло знизилися, що викликає інтерес інвесторів попри економічну невизначеність.

TheNewsCrypto3год тому

Стратегія резерву Solana дала збій? Акції компаній, що котируються на американських біржах, мають збитки понад 1,5 мільярда доларів у SOL

Останні дані показують, що публічні компанії, які тримають Solana як актив у своїх казначейських рахунках, зазнають значних бухгалтерських тягарів. За підрахунками, зібраними CoinGecko, враховуючи розкриті витрати на придбання та поточну ринкову ціну, ці компанії зазнали загальних нереалізованих збитків понад 1,5 мільярда доларів. Вони володіють понад 12 мільйонами SOL, що приблизно становить 2% від загальної пропозиції, при цьому поточна ціна SOL близько 84 доларів. Збитки зосереджені переважно в кількох американських публічних компаніях, включаючи Forward Industries, Sharps Technology, DeFi Development Corp та Upexi, загальні бухгалтерські нереалізовані збитки яких перевищують 1,4 мільярда доларів. Оскільки деякі компанії ще не повністю розкрили витрати на створення позицій, реальні масштаби збитків можуть бути ще більшими. Хоча примусового продажу поки що не відбулося, капітальні ринки вже «заставили» оцінити ризики, і їхні ціни на акції зазвичай нижчі за ринкову вартість їхніх токенів, що суттєво обмежує можливості залучення фінансування.

GateNewsBot4год тому
Прокоментувати
0/400
Немає коментарів