OpenAI та Anthropic представили нові флагманські моделі штучного інтелекту у своїх відповідних лінійках продуктів менш ніж за годину один від одного у четвер, підкреслюючи посилення конкуренції серед провідних розробників у домінуванні корпоративного програмного забезпечення та передових інструментів кодування.
Anthropic оголосила про Claude Opus 4.6, хвалячись покращеннями у довгому контекстному мисленні та роботі на основі агентів, тод while OpenAI незабаром після випустила GPT-5.3 Codex, модель, оптимізовану для агентного кодування та розробки програмного забезпечення.
Ці майже одночасні запускі підкреслюють, наскільки швидко конкуренти оновлюються, оскільки компанії змагаються за довгострокові контракти з великими корпоративними клієнтами.
Результати бенчмарків свідчать, що обидві моделі оптимізовані для різних сильних сторін.
Claude Opus 4.6 показала кращу продуктивність у завданнях, пов’язаних із юридичним та фінансовим мисленням, тод while GPT-5.3 Codex перевершила у тестах агентного кодування та показниках ефективності, згідно з даними, оприлюдненими обома компаніями.
Ці релізи відбуваються на тлі переоцінки інвесторами перспектив традиційних постачальників програмного забезпечення, оскільки акції кількох компаній у сфері інформаційних та професійних послуг цього тижня знизилися через побоювання, що платформи, орієнтовані на ШІ, можуть зменшити попит на усталені корпоративні інструменти.
Anthropic заявила, що Claude Opus 4.6 досягла покращень у довгому контекстному мисленні та професійних завданнях, посилаючись на вікно контексту на 1 мільйон токенів і 76% балу у MRCR v2, бенчмарку для складного пошуку інформації.
Компанія зазначила, що модель також перевершила попередні версії у фінансових та юридичних завданнях і представила “команди агентів”, які дозволяють кільком ШІ-агентам працювати паралельно над кодуванням і документацією.
OpenAI незабаром після випустила GPT-5.3 Codex, позиціонуючи її як модель, оптимізовану для агентного кодування та досліджень.
OpenAI повідомила, що Codex набрав 77.3% у Terminal-Bench 2.0, бенчмарку агентного кодування, де Claude Opus 4.6 отримала 65.4%, і виконує завдання швидше та з меншим використанням токенів.
OpenAI також зазначила, що ранні версії Codex використовувалися внутрішньо для налагодження тренувань і управління розгортанням, що стало одним із перших випадків, коли модель безпосередньо сприяла прискоренню власного розвитку.
Загалом результати свідчать, що жодна з моделей не має явної переваги в цілому, оскільки переваги у продуктивності залежать від того, чи пріоритетом для підприємств є професійне мислення чи автономна розробка програмного забезпечення.
Очікується, що Google також випустить оновлення своїх моделей Gemini у найближчі місяці, тод while інші розробники ШІ, зокрема DeepSeek, готуються до нових релізів, що підсилює темп конкуренції у секторі.
Проте результати бенчмарків самі по собі навряд чи визначать лідерство на ринку, оскільки ширше впровадження та корпоративне розгортання все більше формують конкурентний ландшафт.
У міру посилення конкуренції з боку суперників час покаже, чи стануть агентні робочі процеси основною складовою економічної діяльності. OpenAI та Anthropic безумовно на це розраховують.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
OpenAI та Anthropic запускають конкуренційні моделі штучного інтелекту, оскільки конкуренція для підприємств посилюється
OpenAI та Anthropic представили нові флагманські моделі штучного інтелекту у своїх відповідних лінійках продуктів менш ніж за годину один від одного у четвер, підкреслюючи посилення конкуренції серед провідних розробників у домінуванні корпоративного програмного забезпечення та передових інструментів кодування. Anthropic оголосила про Claude Opus 4.6, хвалячись покращеннями у довгому контекстному мисленні та роботі на основі агентів, тод while OpenAI незабаром після випустила GPT-5.3 Codex, модель, оптимізовану для агентного кодування та розробки програмного забезпечення. Ці майже одночасні запускі підкреслюють, наскільки швидко конкуренти оновлюються, оскільки компанії змагаються за довгострокові контракти з великими корпоративними клієнтами.
Результати бенчмарків свідчать, що обидві моделі оптимізовані для різних сильних сторін. Claude Opus 4.6 показала кращу продуктивність у завданнях, пов’язаних із юридичним та фінансовим мисленням, тод while GPT-5.3 Codex перевершила у тестах агентного кодування та показниках ефективності, згідно з даними, оприлюдненими обома компаніями. Ці релізи відбуваються на тлі переоцінки інвесторами перспектив традиційних постачальників програмного забезпечення, оскільки акції кількох компаній у сфері інформаційних та професійних послуг цього тижня знизилися через побоювання, що платформи, орієнтовані на ШІ, можуть зменшити попит на усталені корпоративні інструменти. Anthropic заявила, що Claude Opus 4.6 досягла покращень у довгому контекстному мисленні та професійних завданнях, посилаючись на вікно контексту на 1 мільйон токенів і 76% балу у MRCR v2, бенчмарку для складного пошуку інформації.
Компанія зазначила, що модель також перевершила попередні версії у фінансових та юридичних завданнях і представила “команди агентів”, які дозволяють кільком ШІ-агентам працювати паралельно над кодуванням і документацією. OpenAI незабаром після випустила GPT-5.3 Codex, позиціонуючи її як модель, оптимізовану для агентного кодування та досліджень. OpenAI повідомила, що Codex набрав 77.3% у Terminal-Bench 2.0, бенчмарку агентного кодування, де Claude Opus 4.6 отримала 65.4%, і виконує завдання швидше та з меншим використанням токенів. OpenAI також зазначила, що ранні версії Codex використовувалися внутрішньо для налагодження тренувань і управління розгортанням, що стало одним із перших випадків, коли модель безпосередньо сприяла прискоренню власного розвитку. Загалом результати свідчать, що жодна з моделей не має явної переваги в цілому, оскільки переваги у продуктивності залежать від того, чи пріоритетом для підприємств є професійне мислення чи автономна розробка програмного забезпечення. Очікується, що Google також випустить оновлення своїх моделей Gemini у найближчі місяці, тод while інші розробники ШІ, зокрема DeepSeek, готуються до нових релізів, що підсилює темп конкуренції у секторі. Проте результати бенчмарків самі по собі навряд чи визначать лідерство на ринку, оскільки ширше впровадження та корпоративне розгортання все більше формують конкурентний ландшафт. У міру посилення конкуренції з боку суперників час покаже, чи стануть агентні робочі процеси основною складовою економічної діяльності. OpenAI та Anthropic безумовно на це розраховують.