OpenAI випустила GPT-5.3-Codex — першу модель, яка «бере участь у створенні себе» для налагодження власного коду, управління розгортанням і діагностики тестування. Карпаті назвав цю редакцію «найближчою до сцени зльоту ШІ».

ШІ почав створювати технологічні сингулярності та прориви в ШІ

Офіційний акаунт OpenAI опубліковано: GPT-5.3-Codex офіційно запущено, який є «першим, хто бере участь у створенні власної моделі». Що це означає? Іншими словами, під час розробки цей ШІ допомагав налагоджувати власний навчальний код, керувати процесом розгортання та діагностувати власні результати тестів. У людських термінах ШІ почав створювати ШІ.

Андрій Карпаті, колишній дослідник OpenAI та директор Tesla AI, одразу після прочитання написав у Twitter: «Це найближче, що я коли-небудь бачив до сцени зльоту ШІ в науковій фантастиці.» Ця оцінка провідних дослідників ШІ є вагомою, оскільки Карпаті особисто пережив кілька ключових етапів розвитку ШІ, і його судження базується на глибокому технічному розумінні.

ШІ ітерує сам себе, це не маркетингова риторика. Згідно з внутрішнім розкриттям OpenAI, GPT-5.3-Codex робив такі речі під час розробки: аналізував тести, які не позначили навчальні журнали, пропонував виправлення для навчальних скриптів і профілів, генерував рецепти розгортання та підсумовував і оцінював аномалії для перевірки людьми. Що це означає? ШІ вже не просто інструмент, він починає ставати частиною команди розробників, і це той тип, який може покращувати себе.

Ця здатність брати участь у розробці просувається через традиційне позиціонування ШІ. Раніше моделі ШІ розробляли, навчалися та впроваджувалися виключно людьми, і ШІ був пасивним продуктом. Тепер GPT-5.3 відіграв активну роль у власному зародженні, і хоча ця зміна ролі ще перебуває під людським наглядом, має далекосяжні наслідки. Це натякає на можливість: майбутні моделі ШІ можуть бути здебільшого розроблені та оптимізовані самим ШІ, а люди надаватимуть лише вказівки та фінальний огляд.

Самоучасть GPT-5.3 у розробці

Аналіз навчальних журналів: Автоматично позначає невдалі тести для виявлення аномалій під час навчання

Рекомендований план ремонту: Запропонувати покращення тренувальних скриптів і профілів

Згенеруйте рецепт розгортання: Автоматизація процесу розгортання та зменшення ручних операцій

Аномалія підсумкової оцінки: Організувати складні результати оцінювання у звіти, зрозумілі людині

Нещодавня стаття SEAL, опублікована MIT (arXiv:2506.10943), описує архітектуру ШІ, яка безперервно навчається після розгортання, еволюціонуючи без повторного навчання. Варто зазначити, що деякі дослідники SEAL тепер приєдналися до OpenAI. Це означає, що ШІ змінився з «статичного інструменту» на «динамічну систему», навчання більше не зупиняється на розгортанні, а межі висновків і навчання тануть. GPT-5.3 може стати першим комерційним застосуванням цієї нової архітектури.

77,3% перевершив рекорд Клода

5 лютого OpenAI та Anthropic обидві випустили нове покоління моделей з інтервалом у 20 хвилин. Спочатку Anthropic випустила Claude Opus 4.6, а потім OpenAI запустила GPT-5.3-Codex. Оскільки OpenAI хоче використовувати GPT-5.3-Codex для снайпу нових моделей інших, він має певні можливості. Дані не брешуть: GPT-5.3-Codex встановив нові рекорди у численних галузевих бенчмарках одразу після запуску.

Terminal-Bench 2.0 тестує операційні можливості ШІ в реальному термінальному середовищі, компілюючи код, навчаючи моделі та налаштовуючи сервери. GPT-5.3-Codex набрав 77,3%, тоді як GPT-5.2-Codex — лише 64,0%, а Claude Opus 4.6 — 65,4%. Це зростання на 13 відсоткових пунктів між поколіннями, що вже є величезним кроком уперед у сфері ШІ. Порівняння 77,3% проти 65,4% показує, що GPT-5.3 забезпечує значну перевагу у реальних інженерних завданнях.

SWE-Bench Pro — це бенчмарк, спеціально розроблений для тестування реальних можливостей програмної інженерії, що охоплює чотири мови програмування: Python, JavaScript, Go та Ruby. GPT-5.3-Codex набрав 56,8%, перевершивши 56,4% свого попередника, GPT-5.2-Codex, і продовжив утримувати перше місце в галузі. Ще важливіше, що OpenAI показав, що GPT-5.3-Codex використовує найменшу кількість вихідних токенів серед усіх моделей, коли досягає цього показника, що означає, що він не лише точний, а й ефективний.

OSWorld-Verified перевіряє здатність ШІ виконувати продуктивні завдання у візуальному робочому середовищі, редагувати таблиці, створювати презентації, працювати з документами тощо. GPT-5.3-Codex набрав 64,7%, порівняно з середнім показником для людей у 72%. Це означає, що вона наблизилася до продуктивності звичайних людей у роботі з комп'ютером, майже подвоївшись порівняно з попередником. Ця майже людська продуктивність робить ШІ вперше справді здатним до офісної роботи, а не просто як допоміжний інструмент.

Claude контрить команди жетонів і агентів по 100 тисяч

Ще більш примітно, що Claude Opus 4.6 вперше підтримує контекстне вікно токена (бета) на рівні Opus, яке може одночасно обробляти всю кодову базу або сотні сторінок документів, а також запустило функцію Agent Teams, де кілька AI-агентів можуть одночасно працювати над програмуванням, тестуванням і написанням документів.

Коли OpenAI та Anthropic випускають свої флагманські моделі в один день і в один і той самий момент, це змагання вже не просто технічне змагання, а боротьба за майбутню форму ШІ: шлях «самоеволюції» OpenAI чи шлях «співпраці з багатьма агентами» Anthropic? Стратегія OpenAI полягає в тому, щоб зробити один ШІ потужнішим і навіть покращити себе. Стратегія Anthropic полягає в тому, щоб дозволити кільком ШІ співпрацювати над складними завданнями через розподіл праці та співпрацю.

Контекст 100K токенів — це технологічний прорив. Це еквівалентно приблизно 75 мільйонам англійських слів або 300 китайських ієрогліфів, що достатньо, щоб вмістити весь код середнього програмного проєкту або товсту технічну документацію. Ця здатність дозволяє Клоду «бачити» весь проєкт, а не фрагментарно розуміти. Для аналізу архітектури та рефакторингу масштабних проєктів цей глобальний погляд є ключовим.

Agent Teams приносить концепцію співпраці в ШІ. Один агент пише код, інший тестує, а третій — документацію, і вони можуть спілкуватися та координуватися між собою. Ця модель імітує роботу команд програмного забезпечення і може бути краще підходити для певних ситуацій, ніж один суперШІ. Однак багатоагентна співпраця також вводить нові складнощі: як координувати, як уникати конфліктів і як забезпечити послідовність.

Обидва варіанти мають свої переваги та недоліки. Шлях саморозвитку OpenAI є більш агресивним, і якщо він буде успішним, може призвести до експоненційного покращення можливостей, але також може вийти з-під контролю. Мультиагентний шлях Anthropic є більш консервативним, зменшуючи одиночну точку ризику за рахунок розширення можливостей, але витрати на координацію можуть обмежувати ефективність. У міру того, як ШІ починає розвиватися у реальному житті, питання управління змінюватимуться від «наскільки він розумний» до «як керувати системою, яка постійно змінюється?» І коли дві провідні компанії з ШІ випускають проривні моделі поспіль протягом 20 хвилин, часове вікно для людського мислення та підготовки скорочується з видимою швидкістю, видимою неозброєним оком.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Прокоментувати

0/400

Немає коментарів