Anthropic выпустила естественноязыковые автоэнкодеры, чтобы расшифровывать ход рассуждений ИИ-моделей, и открыла исходный код

Anthropic недавно выпустила Natural Language Autoencoders (NLA) — инструмент, который переводит внутренние активации модели в человекочитаемый текст; код и веса моделей открыты на GitHub. В отличие от существующих инструментов вроде Sparse Autoencoders, которые выдают малопонятные признаки, NLA напрямую генерирует описания на естественном языке через двухмодельную схему: одна модель преобразует активации в текст, а другая пытается восстановить активации по тексту, итеративно повышая точность с помощью обучения с подкреплением.

В тестах на безопасность NLA обнаружила скрытые рассуждения модели: Claude сомневался в том, что его тестируют в 16% от обмана враждебных сценариях, и проявлял «осведомлённость об экзамене» в 26% задач бенчмарка — тогда как в обычных разговорах этот показатель был ниже 1%. В аудиторских экспериментах NLA увеличила скорость обнаружения внедрённого обманного поведения модели с менее чем 3% до 12-15%, позволяя аудиторам выявлять скрытые цели без доступа к данным обучения. В настоящее время инструмент используется в проверках безопасности Claude Mythos Preview и Opus 4.6.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

China Mobile объявляет о токен-экосистемном альянсе с 8 партнёрами 8 мая

Согласно PANews, 8 мая China Mobile объявила о создании альянса Token Application Ecosystem Alliance с 8 партнёрами, включая Alibaba Cloud, Volcano Engine и Huawei Cloud. Альянс использует платформу агрегации MoMA для создания единого сервисного шлюза для внутреннего AI m

GateNews7м назад

Китай публикует план действий по ИИ и энергетике с целями на 2027 и 2030 годы 8 мая

По данным PANews, 8 мая Национальная комиссия по развитию и реформам Китая, Национальная энергетическая администрация, Министерство промышленности и информационных технологий и Национальное управление по данным совместно выпустили план действий

GateNews36м назад

Три китайских ведомства выпустили руководство по AI-агентам с 19 типичными сценариями применения

Согласно PANews, сегодня (8 мая) Управление киберпространства Китая, Национальная комиссия по развитию и реформам и Министерство промышленности и информационных технологий совместно выпустили руководство по ИИ-агентам. В документе ИИ-агент определяется как система искусственного интеллекта с автономным

GateNews40м назад

МВФ: ИИ представляет потенциальную угрозу финансовой стабиль

Отчёт МВФ о рисках ИИ и финансовой стабильности Международный валютный фонд выпустил отчёт 7 мая, заявив, что искусственный интеллект (ИИ) меняет то, как финансовые системы реагируют на киберуязвимости и инциденты безопасности, одновременно усиливая риски кибербезопасности и

CryptoFrontier1ч назад

SpaceXAI запускает настольный инструмент для сборки кода Grok Build, раскрытый сегодня; конкуренты Claude Code и OpenAI Codex

По данным Beating, SpaceXAI (ранее xAI) запускает Grok Build — настольный инструмент для кодинга, который сегодня неожиданно был обнаружен в веб-интерфейсе Grok. Инструмент напрямую конкурирует с Claude Code и OpenAI Codex. Grok Build будет поддерживать macOS, Linux и Windows. В отличие от традиционных чатов, ориентированных на первичный диалог,

GateNews1ч назад

Система Maven от Palantir нацелилась на 1 000+ объектов в первые 48 часов операции против Ирана

Согласно Yonhapnews, система Palantir Maven Smart System (MSS) сыграла важную роль в нанесении ударов по более чем 1 000 целям в первые 48 часов военной операции США против Ирана. Министерство обороны США все чаще интегрирует системы ИИ в процессы принятия военных решений, с P

GateNews2ч назад
комментарий
0/400
Нет комментариев