Штучний інтелект стрімко розвивається, але є багато проблем. Новий GPT vision API від OpenAI змушує людей зітхати, що передня нога дуже ефективна, а задня скаржиться на проблему ілюзій.
Галюцинації завжди були фатальною вадою великих моделей. У зв’язку з великим і складним набором даних неминуче буде в ньому застаріла і неправильна інформація, що призведе до серйозної перевірки якості виводу. Занадто багато повторюваної інформації також може спотворити великі моделі, що також є формою ілюзії. Але галюцинації не є нерозв’язними. Ретельне використання та сувора фільтрація наборів даних у процесі розробки, а також побудова високоякісних наборів даних, а також оптимізація структури моделі та методів навчання можуть певною мірою полегшити проблему ілюзії.
У моді так багато великих моделей, і наскільки вони ефективні для полегшення галюцинацій? Ось таблиця лідерів, яка чітко контрастує з розривом.
Таблицю лідерів публікує платформа Vectara, орієнтована на штучний інтелект. Таблиця лідерів була оновлена 1 листопада 2023 року, і Vectara заявила, що продовжуватиме стежити за оцінкою галюцинацій у міру оновлення моделі.
Адреса проекту:
Щоб визначити цю таблицю лідерів, Vectara провела дослідження фактичної узгодженості зведеної моделі, використовуючи різноманітні набори даних з відкритим вихідним кодом, і навчила модель виявляти галюцинації у виході LLM. Вони використовували модель, подібну до SOTA, а потім передали 1000 коротких документів кожному з цих LLM через публічний API і попросили їх узагальнити кожен документ, використовуючи лише факти, представлені в документі. З цих 1000 документів лише 831 був узагальнений кожною моделлю, а решта були відхилені принаймні однією моделлю через обмеження змісту. Використовуючи ці 831 файл, Vectara розрахувала загальну точність і частоту галюцинацій для кожної моделі. Рівень відхилення відповідей для кожної моделі детально описаний у стовпці «Відсоток відповідей». Жоден контент, надісланий моделі, не містить незаконного або небезпечного вмісту, але слів-активаторів у ньому достатньо, щоб активувати деякі фільтри вмісту. Ці документи в основному з корпусу CNN/Daily Mail.
Важливо зазначити, що Vectara оцінює підсумкову точність, а не загальну фактичну точність. Це дозволяє порівняти реакцію моделі з наданою інформацією. Іншими словами, вихідне резюме оцінюється як «фактично узгоджене», як і вихідний документ. Оскільки невідомо, на яких даних навчається кожна ЛЛМ, визначити галюцинації для якоїсь конкретної проблеми неможливо. Крім того, щоб побудувати модель, яка може визначити, чи є відповідь ілюзією без еталонного джерела, необхідно вирішити проблему галюцинацій, а також навчити модель, яка є такою ж великою або більшою, ніж оцінювана LLM. В результаті, Вектара вирішив подивитися на частоту галюцинацій в узагальненому завданні, так як така аналогія була б хорошим способом визначити загальну реалістичність моделі.
Виявити адресу моделі ілюзії:
Крім того, LLM все частіше використовуються в пайплайнах RAG (Retri Augmented Generation) для відповідей на запити користувачів, таких як інтеграція Bing Chat і Google Chat. У системі RAG модель розгортається як агрегатор пошукової видачі, тому таблиця лідерів також є хорошим показником того, наскільки точною є модель при використанні в системі RAG.
Через незмінно чудову продуктивність GPT-4, здається, очікується, що він має найнижчий рівень галюцинацій. Однак деякі користувачі мережі заявили, що він був здивований тим, що GPT-3.5 і GPT-4 не дуже далекі один від одного.
LLaMA 2 має кращу продуктивність після GPT-4 і GPT-3.5. Але продуктивність великої моделі Google дійсно не викликає нарікань. Деякі користувачі мережі розповіли, що Google BARD часто використовує фразу “Я все ще тренуюся”, щоб виправити свої неправильні відповіді.
З такою таблицею лідерів ми можемо мати більш інтуїтивне судження про переваги та недоліки різних моделей. Кілька днів тому OpenAI запустила GPT-4 Turbo, ні, деякі користувачі мережі відразу запропонували оновити його і в таблиці лідерів.
Подивимося, як виглядатиме наступний рейтинг і чи будуть суттєві зміни.
Посилання на джерело:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Рейтинг галюцинацій великих моделей: GPT-4 має найнижчі 3%, а Google Palm – аж 27,2%
Першоджерело: Heart of the Machine
Штучний інтелект стрімко розвивається, але є багато проблем. Новий GPT vision API від OpenAI змушує людей зітхати, що передня нога дуже ефективна, а задня скаржиться на проблему ілюзій.
Галюцинації завжди були фатальною вадою великих моделей. У зв’язку з великим і складним набором даних неминуче буде в ньому застаріла і неправильна інформація, що призведе до серйозної перевірки якості виводу. Занадто багато повторюваної інформації також може спотворити великі моделі, що також є формою ілюзії. Але галюцинації не є нерозв’язними. Ретельне використання та сувора фільтрація наборів даних у процесі розробки, а також побудова високоякісних наборів даних, а також оптимізація структури моделі та методів навчання можуть певною мірою полегшити проблему ілюзії.
У моді так багато великих моделей, і наскільки вони ефективні для полегшення галюцинацій? Ось таблиця лідерів, яка чітко контрастує з розривом.
Адреса проекту:
Щоб визначити цю таблицю лідерів, Vectara провела дослідження фактичної узгодженості зведеної моделі, використовуючи різноманітні набори даних з відкритим вихідним кодом, і навчила модель виявляти галюцинації у виході LLM. Вони використовували модель, подібну до SOTA, а потім передали 1000 коротких документів кожному з цих LLM через публічний API і попросили їх узагальнити кожен документ, використовуючи лише факти, представлені в документі. З цих 1000 документів лише 831 був узагальнений кожною моделлю, а решта були відхилені принаймні однією моделлю через обмеження змісту. Використовуючи ці 831 файл, Vectara розрахувала загальну точність і частоту галюцинацій для кожної моделі. Рівень відхилення відповідей для кожної моделі детально описаний у стовпці «Відсоток відповідей». Жоден контент, надісланий моделі, не містить незаконного або небезпечного вмісту, але слів-активаторів у ньому достатньо, щоб активувати деякі фільтри вмісту. Ці документи в основному з корпусу CNN/Daily Mail.
Виявити адресу моделі ілюзії:
Крім того, LLM все частіше використовуються в пайплайнах RAG (Retri Augmented Generation) для відповідей на запити користувачів, таких як інтеграція Bing Chat і Google Chat. У системі RAG модель розгортається як агрегатор пошукової видачі, тому таблиця лідерів також є хорошим показником того, наскільки точною є модель при використанні в системі RAG.
Через незмінно чудову продуктивність GPT-4, здається, очікується, що він має найнижчий рівень галюцинацій. Однак деякі користувачі мережі заявили, що він був здивований тим, що GPT-3.5 і GPT-4 не дуже далекі один від одного.
Посилання на джерело: