首頁>要聞 要聞
阿里開發(fā)AI謠言粉碎機 謠言識別準確率達81%
錢江晚報
昨天,,一篇《為拯救爸媽朋友圈,達摩院造了“謠言粉碎機”》的文章,,在朋友圈刷屏,,引來一片鼓掌叫好:“這下終于不用費勁勸導爸媽了,!”
文章說的是,,阿里巴巴達摩院的科學家,,造了一個謠言粉碎機,,這是一個算法模型,,可以識別真假新聞,,未來也能應用在各大領域。
這是怎樣一種算法,?準確率高嗎,?真的可以終結謠言?記者聯(lián)系到了正在大洋彼岸的“謠言粉碎機”的創(chuàng)造者李泉志,。
“粉碎機”的前生功能
是為記者提供可靠線索
《速轉,!科學家發(fā)現(xiàn):一味中藥48小時可殺死60%癌細胞!》《晚上喝白開水的朋友,再不看就晚了,!》《專家說了,,這樣東西千萬別吃!》……
你有沒有收到過父母發(fā)來的這些“關懷”,?又有多少次是抱著“算了算了,,你開心就好”的心態(tài)結束話題?
“不能保證百分之百準確,,但基本可以判斷是否為謠言,。”李泉志,,達摩院NLP團隊的核心成員之一,,畢業(yè)于清華大學,后在美國獲得自然語言理解方向的博士學位,,目前在達摩院的西雅圖辦公室工作,。
在加入達摩院前,他曾是路透社重要的“情報官”:通過機器篩選成千上萬的網(wǎng)絡信息,,為數(shù)千位一線記者提供可靠線索,。
“AI謠言粉碎機”就是借助自然語言實現(xiàn)的。在剛剛結束的SemEval(自然語言處理領域的國際權威比賽,,由國際計算語言學學會舉辦)全球語義測試中,,“AI謠言粉碎機”創(chuàng)造了假新聞識別準確率的新紀錄,達到了前所未有的81%,。
判斷一個新聞真假
要分三個步驟
“AI謠言粉碎機”要怎么去判斷是否為謠言呢,?李泉志說,分三步——
首先,,該模型會找到最初的信息源,,分析用戶畫像,,包括:專業(yè)領域,此前傳播或轉發(fā)過什么,,是個人還是機構,,注冊時間,活躍規(guī)律等,,來判斷發(fā)布者是否“可靠”,。最后根據(jù)不同態(tài)度的人群比例、各自的信譽度等信息,,計算出此新聞的可信度,。
第二步,尋找網(wǎng)上所有的信息源,,看看鏈接的域名,,是否來自可信網(wǎng)站,比如新華社,、政府醫(yī)藥管理局等,。
第三步,將正文里關鍵的論證提煉為知識點,,與知識圖譜里的權威知識庫做匹配驗證,。如果毫無聯(lián)系、自相矛盾,,減分,。
李泉志解釋,“AI謠言粉碎機”會考慮一部分人類的想法,,更多的則是 AI的運用,。人工智能有很多人類比不了的地方,比如當一個流言在社交網(wǎng)站上傳播很快的時候,,我們很難去判斷真假,,不知道誰接收到了,是出于什么原因轉發(fā),,不同的人對此的評價是什么,而這些AI可以做到,?!凹偃鐏硪粋€流言,人可以通過網(wǎng)站去查證,,但是AI可以快速把科學研究,、新聞拉出來,加上后臺知識庫的對比,,做一個驗證,。人腦中有基本判斷,,但是沒有大型的知識庫?!崩钊菊f,。
就拿“AI謠言粉碎機”的訓練樣本來說,就要分至少兩個層面:首先拿底層的2億條信息,,幾百萬條新聞,,訓練語言樣本;再將模型進行謠言的真實性訓練,?!笆且粋€復雜且費時的過程?!崩钊颈硎?。
誰制造謠言,論文是否抄襲
未來粉碎機還有更多功能
其實,,要建這樣一個數(shù)據(jù)模型,,并不容易。李泉志坦言,,他在前一家公司就開始研究,,到如今,也還需繼續(xù)完善,。他們有一個小團隊專門在研究這一技術,,因為,總體來說這不是一個單獨能列出來的技術,,是自然語言所有技術的綜合,。
目前,該模型也并未應用于阿里巴巴的任何業(yè)務中,,李泉志坦言,,數(shù)據(jù)模型需要不斷被“訓練”,也需要得到社會的認同,,而這些,,都不是短時間內能解決的。
可以想象的是,,“AI謠言粉碎機”未來將被應用的多個場合,。
比如,可以識別論文是否為抄襲,,用技術從個人的寫作風格,、方法論、主題等多維度去判斷是否為抄襲,。過去有人說某年輕作家后期的作品由人代筆,,以后用AI就能分析得出結論,。
另一方面,可以協(xié)助警方找到真正謠言的制造者,。通過AI去追蹤傳播路徑,,從傳播路徑中,將傳播分解,,可以發(fā)現(xiàn)規(guī)律,,比如傳播了哪些用戶,用戶是什么反應,,是簡單的轉發(fā),,還是贊成、反對,,還是進行了二次加工,?
“當然,該模型也還是需要更多的語言訓練,。比如有些用戶轉發(fā)時,,說的是反話、諷刺,,有些是隱喻,,不知是否是真實的情緒表達,這些作為機器很難對此做出判斷,,但是通過大量的訓練,,是可以實現(xiàn)的?!崩钊颈硎?,他和團隊會繼續(xù)研究該模型。
朱銀玲
編輯:曾珂
關鍵詞:阿里開發(fā)AI謠言粉碎機 謠言識別準確率達81%