Anthropic нещодавно випустила Natural Language Autoencoders (NLA) — інструмент, який перетворює внутрішні активації моделей на текст, що читається людиною; код і ваги моделі відкрито на GitHub. На відміну від наявних інструментів на кшталт Sparse Autoencoders, які виводять незрозумілі ознаки, NLA напряму генерує описи природною мовою завдяки двомодельній схемі: одна модель перетворює активації на текст, тоді як інша намагається відновити активації з тексту, і точність ітеративно підвищується через reinforcement learning.
Під час тестування безпеки NLA виявила приховані міркування моделі: Claude висловив сумніви щодо того, що його тестують у 16% адвірсаріальних сценаріїв, і продемонстрував «обізнаність з іспитом» у 26% завдань бенчмарків — проти менш ніж 1% у звичайних розмовах. У експериментах з аудитом NLA підвищила частку виявлення ін’єкованих оманливих поведінок моделі з менш ніж 3% до 12-15%, даючи аудиторам змогу визначати приховані цілі без доступу до даних тренування. Наразі інструмент розгорнуто в аудитах безпеки для Claude Mythos Preview та Opus 4.6.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
China Mobile оголошує про створення альянсу токен-заявочних екосистем із 8 партнерами 8 травня
За даними PANews, 8 травня China Mobile оголосила про створення альянсу Token Application Ecosystem Alliance із 8 партнерами, зокрема Alibaba Cloud, Volcano Engine та Huawei Cloud. Альянс використовує платформу агрегації MoMA для побудови єдиного сервісного шлюзу для внутрішніх AI m
GateNews10хв. тому
Китай оприлюднив план дій у сфері AI та енергетики з цілями на 2027 і 2030 роки 8 травня
За даними PANews, 8 травня Національна комісія з розвитку та реформ Китаю, Національне енергетичне управління, Міністерство промисловості та інформатизації, а також Національне управління даних спільно оприлюднили план дій
GateNews39хв. тому
Три відомства Китаю оприлюднили рекомендації щодо AI-агентів із 19 типовими сценаріями застосування
За повідомленням PANews, сьогодні (8 травня) Адміністрація кіберпростору Китаю, Національна комісія з розвитку та реформ і Міністерство промисловості та інформаційних технологій спільно оприлюднили рекомендації щодо AI-агентів. У документі AI-агент визначено як система штучного інтелекту з автономним
GateNews44хв. тому
МВФ: ШІ може створювати потенційну загрозу фінансовій стабільності
Звіт МВФ про ризики, пов’язані з ШІ, та фінансову стабільність
Міжнародний валютний фонд опублікував звіт 7 травня, зазначивши, що штучний інтелект (ШІ) змінює спосіб, у який фінансові системи реагують на кіберуразливості та інциденти безпеки, водночас посилюючи ризики кібербезпеки та
CryptoFrontier1год тому
SpaceXAI запустила настільний інструмент для кодування Grok Build, показала його сьогодні; конкуренти Claude Code та OpenAI Codex
За даними Beating, SpaceXAI (раніше xAI) запускає Grok Build — настільний інструмент для програмування, який сьогодні несподівано був розкритий на вебінтерфейсі Grok. Інструмент напряму конкурує з Claude Code та OpenAI Codex.
Grok Build підтримуватиме macOS, Linux і Windows. На відміну від традиційних чат-першими в
GateNews1год тому
Система Maven від Palantir у перші 48 годин операції проти Ірану уражає понад 1 000 цілей
За даними Yonhapnews, система Palantir Maven Smart System (MSS) відіграла важливу роль у завданні ударів понад 1 000 цілям протягом перших 48 годин військової операції США проти Ірану. Міністерство оборони США дедалі більше інтегрує системи ШІ в процеси ухвалення військових рішень, з P
GateNews2год тому