要聞

AI還可以相信嗎？ChatGPT給出6個(gè)案例并稱(chēng)“千真萬(wàn)確”，30年老律師用來(lái)打官司，結(jié)果全是假的！

每日經(jīng)濟(jì)新聞 2023-05-29 22:53:24

每經(jīng)編輯｜程鵬蓋源源

CFF20LXzkOwFVyDgzO6IPWqKmYT67ubFsgdOvTg6IRu1iawvibE3c7jf53st5WWX8wKsKaceYic5TkU96HSVOxgTg.jpg

ChatGPT，還可以信任嗎？

據(jù)央視新聞5月29日?qǐng)?bào)道，近日，美國(guó)一名律師在一起訴訟案件中，幫原告打官司時(shí)，引用了ChatGPT搜集的6個(gè)案例，而法官卻發(fā)現(xiàn)那些信息全是子虛烏有。律師承認(rèn)自己沒(méi)有核實(shí)信息并為此道歉，眼下面臨處罰。

讓ChatGPT協(xié)助辦案 美國(guó)30年資深律師被坑

據(jù)新華社援引美國(guó)有線(xiàn)電視新聞網(wǎng)28日?qǐng)?bào)道，男乘客羅伯托·馬塔對(duì)哥倫比亞航空公司提起訴訟，稱(chēng)自己2019年搭乘該公司航班飛往紐約市途中，乘務(wù)人員疏忽導(dǎo)致他膝蓋被客艙內(nèi)推車(chē)撞傷。

馬塔的代理律師是已有30多年從業(yè)經(jīng)歷的紐約市律師史蒂文·施瓦茨。為支持馬塔訴求，施瓦茨向法官凱文·卡斯特爾提交了多個(gè)所謂類(lèi)似案例及其判決結(jié)果。

今年4月，哥倫比亞航空公司的律師致信法官，質(zhì)疑施瓦茨所提交案例信息的真實(shí)性。據(jù)美國(guó)《紐約時(shí)報(bào)》報(bào)道，律師之一巴爾特·巴尼諾說(shuō)，他的律所律師精通航空法律，看出那些信息不實(shí)。他說(shuō)，他們當(dāng)時(shí)隱約感覺(jué)那些信息來(lái)自ChatGPT。

法官卡斯特爾本月4日在一份書(shū)面文件中寫(xiě)道，那6個(gè)案例的判決結(jié)果、引語(yǔ)等都是假的，“法庭從未遇到過(guò)這種情況”。他下令6月8日就處罰施瓦茨舉行聽(tīng)證會(huì)。

施瓦茨承認(rèn)那6個(gè)案例為ChatGPT提供。法庭文件顯示，他看到這些案例信息后追問(wèn)ChatGPT信息是否屬實(shí)，機(jī)器人稱(chēng)“千真萬(wàn)確”，還給出了所謂的信息出處。

施瓦茨說(shuō)，他這是第一次用ChatGPT協(xié)助辦案，“沒(méi)有意識(shí)到內(nèi)容偽造的可能性”。

他在書(shū)面文件中“深表懊悔”，愿意承擔(dān)相關(guān)責(zé)任，承諾今后“沒(méi)有完全核實(shí)”就不會(huì)使用聊天機(jī)器人提供的信息。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

研究發(fā)現(xiàn)ChatGPT并非可靠信源?

值得一提的是，今年3月14日，OpenAI宣布正式發(fā)布為ChatGPT提供支持的更強(qiáng)大的下一代技術(shù)GPT-4，稱(chēng)其擁有圖像識(shí)別功能，高級(jí)推理技能，以及處理25000個(gè)單詞的能力，在某些測(cè)試中的表現(xiàn)“可與人類(lèi)相媲美”，并在大學(xué)入學(xué)和法律及醫(yī)學(xué)等專(zhuān)業(yè)領(lǐng)域的許多模擬考試中優(yōu)于其前身GPT-3.5。例如，GPT-4通過(guò)了律師資格模擬考試，分?jǐn)?shù)超過(guò)90%的人類(lèi)考生，而GPT-3.5此前的分?jǐn)?shù)則低于90%的人類(lèi)考生。

不過(guò)，目前最新的研究發(fā)現(xiàn)ChatGPT并非可靠信源?。

據(jù)科技日?qǐng)?bào)5月18日的一篇報(bào)道，加拿大科學(xué)家在16日出版的《放射學(xué)》雜志上刊登新論文稱(chēng)，最新版本的ChatGPT通過(guò)了美國(guó)放射學(xué)委員會(huì)的考試，突出了大型語(yǔ)言模型的潛力，但它也給出了一些錯(cuò)誤答案，表明人們?nèi)孕鑼?duì)其提供的答案進(jìn)行核查。

CFF20LXzkOwFVyDgzO6IPWqKmYT67ubFsDib7zcdqdbIgR9XwibjVukEICs9jx024iaLCUZsxU7JMsCaV1AiaDGKQg.jpg

圖片來(lái)源：物理學(xué)家組織網(wǎng)

ChatGPT是一種人工智能（AI）聊天機(jī)器人，它使用深度學(xué)習(xí)模型在龐大的訓(xùn)練數(shù)據(jù)中識(shí)別單詞之間的模式和關(guān)系，并根據(jù)提示生成類(lèi)似人類(lèi)的反應(yīng)，類(lèi)似的聊天機(jī)器人正被納入谷歌和必應(yīng)等流行的搜索引擎中，醫(yī)生和患者們也會(huì)使用這些搜索引擎來(lái)搜索醫(yī)療信息。但由于數(shù)據(jù)來(lái)源并不一定真實(shí)可靠，該工具會(huì)給出與事實(shí)不符的答案。

為評(píng)估ChatGPT在美國(guó)放射學(xué)委員會(huì)考試問(wèn)題上的表現(xiàn)并探索其優(yōu)勢(shì)和局限性，多倫多大學(xué)的拉杰什·哈瓦那博士及其同事首先測(cè)試了基于GPT-3.5的ChatGPT的表現(xiàn)。研究團(tuán)隊(duì)使用了150道選擇題，這些選擇題與加拿大皇家學(xué)院和美國(guó)放射學(xué)委員會(huì)考試的風(fēng)格、內(nèi)容和難度相當(dāng)。這些問(wèn)題不包括圖像，分為低階（知識(shí)回憶、基本理解）和高階（應(yīng)用、分析、綜合）思維問(wèn)題。高階思維問(wèn)題可進(jìn)一步細(xì)分為影像學(xué)表現(xiàn)描述、臨床管理、計(jì)算和分類(lèi)、疾病關(guān)聯(lián)。

研究人員發(fā)現(xiàn)，基于GPT-3.5的ChatGPT的正確率為69%，接近70%的及格線(xiàn)。該模型在低階思維問(wèn)題上表現(xiàn)相對(duì)較好，正確率為84%，但回答高級(jí)思維問(wèn)題時(shí)表現(xiàn)不佳，正確率僅為60%。而性能更優(yōu)異的GPT-4的正確率為81%，且在高階思維問(wèn)題上的正確率為81%，遠(yuǎn)好于GPT-3.5。但GPT-4在低階思維問(wèn)題上的正確率僅為80%，答錯(cuò)了12道題——GPT-3.5全部答對(duì)了這些題目，這引發(fā)了研究團(tuán)隊(duì)對(duì)GPT-4收集信息的可靠性的擔(dān)憂(yōu)。

這兩項(xiàng)研究都表明，ChatGPT會(huì)有提供不正確答案的傾向，如果僅僅依靠它獲取信息，非常危險(xiǎn)，因?yàn)槿藗兛赡芤庾R(shí)不到其給出的答案是不準(zhǔn)確的，這是它目前面臨的最大的問(wèn)題。當(dāng)前，ChatGPT最適合用來(lái)激發(fā)想法，幫助撰寫(xiě)數(shù)據(jù)摘要，而用于快速信息檢索，需要對(duì)其提供的事實(shí)性答案予以核查。

編輯|程鵬蓋源源

校對(duì)|陳柯名

封面圖片來(lái)源：視覺(jué)中國(guó)