就在AI競(jìng)爭(zhēng)白熱化的關(guān)鍵時(shí)期,BBC的最新研究公布:AI在回答新聞或時(shí)事類問題時(shí)會(huì)產(chǎn)生扭曲事實(shí)、不準(zhǔn)確或誤導(dǎo)性內(nèi)容。
BBC在2月發(fā)布的研究報(bào)告中表示,全球多家知名AI引擎(包括OpenAI的ChatGPT、微軟的Copilot、谷歌的Gemini和Perplexity AI)生成的新聞?wù)嬖谏鲜鰡栴},無一幸免。
BBC公開了實(shí)驗(yàn)過程,研究人員要求這些AI工具以BBC的文章為來源回答100個(gè)問題。然后,讓專門研究相關(guān)主題領(lǐng)域的BBC記者對(duì)答案進(jìn)行評(píng)分。
結(jié)論是,大約五分之一的答案在數(shù)字、日期或陳述方面引入了事實(shí)錯(cuò)誤,幾乎一半的回答被判定為“存在某種形式的重大問題”。
這些錯(cuò)誤包括,里希·蘇納克仍然是首相,尼古拉·斯特金仍然是蘇格蘭的首席大臣,以及伊斯梅爾·哈尼耶在伊朗被暗殺數(shù)月后成為哈馬斯領(lǐng)導(dǎo)層的一員等等。
關(guān)于產(chǎn)生這些錯(cuò)誤的原理,研究人員的觀點(diǎn)是:“AI難以區(qū)分觀點(diǎn)和事實(shí)”。所以在實(shí)驗(yàn)階段,AI才會(huì)多次將意見或過時(shí)的檔案誤認(rèn)為是最新事實(shí)。
最后,BBC通過采集到的所有樣本對(duì)比,得出結(jié)論,“微軟Copilot和谷歌Gemini比OpenAI的ChatGPT和Perplexity存在更嚴(yán)重的問題?!碑?dāng)然,Apple Intelligence早在1月就已經(jīng)翻車,該項(xiàng)研究也是在Apple多次生成虛假新聞?wù)筮M(jìn)行,所以對(duì)比中并沒有它。
事后,這些發(fā)現(xiàn)促使BBC的新聞首席執(zhí)行官黛博拉·特內(nèi)斯警告說:“這些AI工具正在玩火,很有可能破壞公眾對(duì)事實(shí)的信任?!?/p>
必須承認(rèn),BBC的研究對(duì)AI在「人文領(lǐng)域」的發(fā)展有很大幫助,此前關(guān)于AI的研究都停留在“理工科”領(lǐng)域,現(xiàn)在終于開始審視AI生成的內(nèi)容準(zhǔn)確性了。
在BBC的研究結(jié)果公布之后,OpenAI的發(fā)言人第一時(shí)間表示,他們尊重所有網(wǎng)絡(luò)媒體內(nèi)容,如果有需要,網(wǎng)站可以使用robots.txt來管理OAI-SearchBot,拒絕AI使用該頁(yè)面。robots.txt是網(wǎng)頁(yè)代碼中的一條指令,它可以要求AI不要在搜索結(jié)果中使用該頁(yè)面。
無論如何,這項(xiàng)研究結(jié)果都將產(chǎn)生巨大的漣漪,尤其在AI創(chuàng)作領(lǐng)域更為明顯。但是,有些局限性似乎很難改善,比如如何用代碼來區(qū)分觀點(diǎn)和事實(shí),畢竟連人類都難以區(qū)分二者。