Най-популярните 10 чатбота с изкуствен интелект предоставят на потребителите невярна информация в един от всеки три отговора, показва ново проучване.
Американската компания за оценка на новини Newsguard установи, че чатботовете вече не отказват да отговарят, когато нямат достатъчно информация, което води до повече неверни твърдения в сравнение с 2024 г.
Чатботовете, които най-често създават фалшиви твърдения, са Pi на Inflection AI – с 57% отговори с невярна информация, и Perplexity AI – с 47%.
По-популярни чатботове като ChatGPT на OpenAI и Llama на Meta разпространяват неверни твърдения в 40% от отговорите си. Copilot на Microsoft и Le Chat на Mistral са около средното ниво – 35%.
Чатботовете с най-нисък процент на грешки са Claude на Anthropic – с 10% отговори с невярна информация, и Gemini на Google – със 17%. Най-драматично увеличение на грешките е отчетено при Perplexity, където през 2024 г. изследователите не открили нито едно невярно твърдение, но през август 2025 г. те вече били 46%.
Докладът не обяснява защо качеството на модела е спаднало, освен че отбелязва оплаквания на потребители във форум в Reddit.
Междувременно, френската компания Mistral не е отбелязала промяна – и през 2024 г., и през 2025 г. процентът на неверни твърдения остава 37%.
Резултатите идват след репортаж на френския вестник Les Echos, според който Mistral е повтарял невярна информация за Франция, президента Еманюел Макрон и съпругата му Брижит Макрон в 58% от случаите на английски и 31% на френски.
От Mistral обясниха, че проблемите произтичат от разликите между асистенти Le Chat, свързани с търсачки, и такива, които не са.
Докладът посочва също, че някои чатботове са цитирали чуждестранни пропагандни наративи, включително тези на Storm-1516 и Pravda – руски операции за влияние, които създават фалшиви новинарски сайтове.
Докладът излиза въпреки новите партньорства и обявления за сигурността на моделите. Например последният ChatGPT-5 на OpenAI твърди, че е „устойчив на халюцинации“ и няма да измисля отговори, когато няма информация.
Подобно изявление направи и Google за Gemini 2.5 по-рано тази година, според което моделите „са способни да разсъждават преди да отговорят, което води до по-добра производителност и по-висока точност“.
Докладът заключава, че моделите „продължават да се провалят в същите области, в които се проваляха и преди година“, въпреки уверенията за безопасност и точност.
Източник: Euronews