IBM人工智能產(chǎn)品Project Debater與辯手Dan Zafrir進(jìn)行“較量”
騰訊科技訊 在上周,IBM推出的名為“IBM Project Debater(下文也稱Debater)”的AI機(jī)器在辯論賽中大勝以色列國(guó)家辯論賽的冠軍,并引起了業(yè)界轟動(dòng)。
與此同時(shí),諸多業(yè)界人士也對(duì)Debater的核心技術(shù)與商業(yè)價(jià)值表出疑問(wèn):Debater究竟是如何運(yùn)作的?使用哪些機(jī)器學(xué)習(xí)技術(shù)?是如何實(shí)現(xiàn)精確的語(yǔ)音語(yǔ)義識(shí)別和自然語(yǔ)言處理的?相應(yīng)的數(shù)據(jù)訓(xùn)練集又是如何組織起來(lái)的?騰訊科技獨(dú)家專訪了IBM Project Debater相關(guān)團(tuán)隊(duì),對(duì)這些諸多問(wèn)題進(jìn)行了逐一解答。
IBM Project Debater 通過(guò)給定主題搜索論點(diǎn)
在與人類辯手的這場(chǎng)辯論中,主題或論點(diǎn)來(lái)自維基百科中的常見(jiàn)論點(diǎn)。
只要給定Debater一個(gè)主題,該系統(tǒng)就能夠進(jìn)行搜尋大量的知識(shí),尋找最相關(guān)的觀點(diǎn)和證據(jù)來(lái)支持或反駁主題。隨后,機(jī)器會(huì)挑選出最有說(shuō)服力、最具多樣性和支持最完善的論點(diǎn),并對(duì)這些論點(diǎn)進(jìn)行編排,從而形成一段完整且有說(shuō)服力的敘述。
Debater 可通過(guò)結(jié)構(gòu)來(lái)發(fā)現(xiàn)正反兩方的論點(diǎn),不偏向任何一方。只要語(yǔ)料庫(kù)中有充足的主張和證據(jù),Project Debater 可就任何主題進(jìn)行辯論,即可作為正方,亦可作為反方參與辯論。
IBM Project Debater涵蓋海量的語(yǔ)料數(shù)據(jù)庫(kù)
那么針對(duì)主題的這些語(yǔ)料庫(kù)都是怎么得來(lái)的呢?IBM Project Debater負(fù)責(zé)團(tuán)隊(duì)表示:Debater 采用了IBM Watson Text to Speech 和 Speech to Text API語(yǔ)料庫(kù),其涵蓋了3 億多個(gè)信息來(lái)源,包含 2011 年以來(lái)全球商業(yè)、法律、學(xué)術(shù)和政府機(jī)構(gòu)等領(lǐng)域的專業(yè)人士所使用的主流報(bào)紙和雜志中的文章(包括維基百科)。
為了訓(xùn)練機(jī)器對(duì)語(yǔ)料庫(kù)數(shù)據(jù)上的深度學(xué)習(xí),IBM開(kāi)發(fā)了幾個(gè)基準(zhǔn)數(shù)據(jù)集。其中一些數(shù)據(jù)集專注于計(jì)算論證任務(wù),而另一些則與更廣泛的自然語(yǔ)言處理(NLP)研究社區(qū)相關(guān)。其中包括:19,276 對(duì)根據(jù)可讀性打分的維基百科詞條 、5,000 個(gè)帶有情感注釋的習(xí)語(yǔ)、3,000 個(gè)帶注釋的句子、2,394 個(gè)關(guān)于 55 個(gè)話題的分類論點(diǎn)、60 篇專業(yè)辯手關(guān)于爭(zhēng)議性話題的演講稿(包括草稿和不帶修訂的版本)。
此外,訓(xùn)練過(guò)程中還加入了人工的參與。Debater團(tuán)隊(duì)負(fù)責(zé)人對(duì)此表示:“在訓(xùn)練過(guò)程中,我們與十幾位辯手開(kāi)展合作,他們有的是非常專業(yè)的辯手,有的在大學(xué)期間就參加過(guò)辯論賽。”
IBM Project Debater具備三大機(jī)器學(xué)習(xí)能力
為了開(kāi)發(fā) Project Debater,IBM 研究團(tuán)隊(duì)為該系統(tǒng)賦予了三大機(jī)器學(xué)習(xí)能力:
首先是在數(shù)據(jù)驅(qū)動(dòng)下的演講稿撰寫與表達(dá)能力,以便于計(jì)算機(jī)能夠理解大量語(yǔ)料庫(kù),使機(jī)器能夠根據(jù)主題撰寫結(jié)構(gòu)良好的演講內(nèi)容,并清晰且有針對(duì)性地表達(dá)出來(lái),甚至還會(huì)適時(shí)地展現(xiàn)幽默風(fēng)趣。
其次是聽(tīng)力理解能力,能夠識(shí)別長(zhǎng)段連續(xù)口語(yǔ)中隱含的重要概念和觀點(diǎn)。 另外,團(tuán)隊(duì)也會(huì)給機(jī)器進(jìn)行模擬一些困境,比如說(shuō)通過(guò)獨(dú)特的知識(shí)表達(dá)方式來(lái)模擬具有人類爭(zhēng)議和困境的場(chǎng)景,使系統(tǒng)能夠根據(jù)需要提出有原則的論點(diǎn)。
IBM Project Debater將首先適用于兩大商用場(chǎng)景
Debater團(tuán)隊(duì)表示,在未來(lái),Project Debater的核心技術(shù)可能會(huì)應(yīng)用在金融顧問(wèn)和律師等職業(yè)中。
金融分析師可以通過(guò)使用機(jī)器的優(yōu)缺點(diǎn)分析技術(shù),從而支持或反對(duì)金融分析師所思考的金融投資選擇。而律師則通過(guò) Project Debater 的匯總技術(shù)來(lái)尋找相關(guān)的案件和觀點(diǎn)主張,以此了解相關(guān)內(nèi)容與手頭案件的關(guān)系,研究可在法庭上可使用的較為合適的法律先例。
雖然從核心技術(shù)和商業(yè)模式來(lái)看,Debater的未來(lái)應(yīng)用潛力較大。但我們需要注意的一大問(wèn)題是,目前有部分媒體記者和分析師認(rèn)為,雖然整體來(lái)看,人類辯手表達(dá)更好,但是AI傳遞的信息量的豐富程度優(yōu)于人類辯手。并且在上周的辯論過(guò)程中,AI系統(tǒng)確實(shí)也做出了一些“瘋狂”的斷言。
總而言之,IBM Project Debater是否能真正具備公認(rèn)判斷力并且落地商業(yè)化,不僅需要行業(yè)的真正實(shí)際應(yīng)用認(rèn)可,還需要更多AI相關(guān)技術(shù)的突破。IBM Project Debater作為IBM在AI領(lǐng)域的又一次嘗試,開(kāi)創(chuàng)了“計(jì)算辯論”(Computational Argumentation)的領(lǐng)域,其技術(shù)積累的經(jīng)驗(yàn)可能會(huì)讓IBM未來(lái)在全新的人機(jī)交互界面和“B To B”商業(yè)項(xiàng)目的拓展上,擁有了更多可能性。
騰訊科技 執(zhí)筆 | 李海丹 審核 | 孫實(shí)