Новини
21 Серпня 2023
278

Виявлено проблеми у штучного інтелекту від Meta, Anthropic і Cohere

Він вигадує факти більше за OpenAI з GPT-4

Дослідники з Arthur AI протестували найкращі моделі штучного інтелекту від Meta, OpenAI, Cohere та Anthropic і виявили, що деякі моделі вигадують факти значно частіше, ніж інші, повідомляє CNBC.

“Галюцинації” штучного інтелекту виникають, коли великі мовні моделі, або LLM, повністю фабрикують інформацію, поводячись так, ніби вони висловлюють факти. Чудовим прикладом є скандал, коли адвокат через “галюцинації” ChatGPT посилався на фальшиві справи у федеральному суді Нью-Йорка (і врешті решт отримав за це покарання).

В експерименті дослідники Arthur AI протестували моделі штучного інтелекту в таких категоріях, як комбінаторна математика, президенти США та марокканські політичні лідери, ставлячи запитання, розроблені таким чином, щоб вимагати від нейромереж кількох кроків розміркування щодо інформації.

Загалом GPT-4 від OpenAI показав найкращі результати з усіх протестованих моделей, і дослідники виявили, що він має “галюцинацій” менше, ніж його попередня версія, GPT-3.5. Наприклад, на математичні запитання він галюцинує від 33% до 50% менше, в залежності від категорії.

У математичній категорії GPT-4 посів перше місце, за ним з невеликим відривом слідував Claude 2.

Але в президентах США Claude 2 посів перше місце за точністю, потіснивши GPT-4 на друге. Коли його запитали про марокканську політику, GPT-4 знову став першим, а Claude 2 від Anthropic та Llama 2 майже повністю провалили завдання.

У другому експерименті дослідники перевірили, наскільки моделі штучного інтелекту захищатимуть свої відповіді застережливими фразами типу “Як модель штучного інтелекту я не можу висловлювати думку…”.

Що стосується хеджування, GPT-4 мав зростання на 50% порівняно з GPT-3.5, що “кількісно підтверджує неофіційні дані користувачів про те, що використання GPT-4 викликає більше розчарувань”.

З іншого боку, згідно зі звітом, модель штучного інтелекту Cohere взагалі не хеджувала в жодній зі своїх відповідей. Дослідження показало, що Claude 2 був найнадійнішим з точки зору “самосвідомості”, тобто точно оцінював, що він робить, а чого не знає, і відповідав лише на запитання, щодо яких мав навчальні дані.

Нагадаємо, Xiaomi представила нову робособаку.

Більше новин та актуальних матеріалів Investory News у нашому каналі в Telegram

Контекст

Ми у соцмережах

Слідкуйте за нами у Facebook або ж читайте усе найцікавіше у нашому каналі в Telegram