騰訊科技訊 6月23-24日,中文互聯(lián)網(wǎng)知名知識(shí)分享平臺(tái)知乎舉辦了一場(chǎng)“陰陽(yáng)怪氣”主題書(shū)法展,現(xiàn)場(chǎng)不僅有陰陽(yáng)怪氣粉碎機(jī)、“瓦力”實(shí)驗(yàn)室等精彩互動(dòng),知乎社區(qū)治理團(tuán)隊(duì)也首次亮相,和現(xiàn)場(chǎng)用戶(hù)、媒體朋友分享了知乎在識(shí)別陰陽(yáng)怪氣類(lèi)內(nèi)容上的探索。
交流會(huì)上,知乎運(yùn)營(yíng)總監(jiān)孫達(dá)云、內(nèi)容質(zhì)量管理團(tuán)隊(duì)技術(shù)負(fù)責(zé)人劉兆來(lái)分別從運(yùn)營(yíng)、技術(shù)角度,對(duì)知乎在構(gòu)建良性社區(qū)氛圍上所做的努力進(jìn)行了闡述。
在過(guò)去一年里,知乎不斷優(yōu)化算法機(jī)器人“瓦力”,著力挑戰(zhàn)識(shí)別陰陽(yáng)怪氣這一情感分析領(lǐng)域的傳統(tǒng)難題,通過(guò)綜合使用情感模型、用戶(hù)親密度模型和文本識(shí)別模型,其識(shí)別準(zhǔn)確率得以大幅優(yōu)化,已超過(guò)大部分人工判斷。
據(jù)了解,知乎還將在近期對(duì)該技術(shù)進(jìn)行產(chǎn)品化嘗試,向用戶(hù)提供“瓦力”陰陽(yáng)怪氣智能過(guò)濾選項(xiàng),同時(shí),還將對(duì)“瓦力”進(jìn)行更多訓(xùn)練,不斷提升準(zhǔn)確率和召回率,最終將陰陽(yáng)怪氣識(shí)別技術(shù)全面應(yīng)用到社區(qū)治理中。
三大算法模型引領(lǐng),突圍復(fù)雜網(wǎng)絡(luò)語(yǔ)言分析困境
目前,知乎借助AI技術(shù),并輔以人機(jī)結(jié)合和多元的產(chǎn)品舉措,多重手段加強(qiáng)對(duì)社區(qū)氛圍的維護(hù)?,F(xiàn)階段,知乎已實(shí)現(xiàn)對(duì)95%以上的違法違規(guī)、廣告導(dǎo)流和不友善等內(nèi)容的主動(dòng)打擊、覆蓋和篩查 。
過(guò)去一年,知乎全力探索對(duì)陰陽(yáng)怪氣類(lèi)評(píng)論的解決方案。陰陽(yáng)怪氣可用“杠精”這個(gè)詞來(lái)指代,通常以“不針對(duì)發(fā)言?xún)?nèi)容,而是批評(píng)對(duì)方的語(yǔ)氣”以及“提出反對(duì)意見(jiàn),但不給或給出極少數(shù)論據(jù)支持”這兩類(lèi)常見(jiàn)言論為代表,此類(lèi)評(píng)論極大了傷害創(chuàng)作者和交流者的體驗(yàn),但難以解決。
解決陰陽(yáng)怪氣類(lèi)評(píng)論的難點(diǎn)核心主要在于網(wǎng)絡(luò)語(yǔ)言的復(fù)雜性,情感分析不同于普通文本分析,例如經(jīng)典的“呵呵”,由于雙方不同關(guān)系、說(shuō)話(huà)的不同場(chǎng)景和時(shí)間都會(huì)帶來(lái)迥然不同的表意。即便是人工判定都存在標(biāo)準(zhǔn)化難度,算法模型的訓(xùn)練挑戰(zhàn)就更為艱辛。
針對(duì)陰陽(yáng)怪氣評(píng)論通常表達(dá)負(fù)面情感的特點(diǎn),知乎構(gòu)建了內(nèi)容情感傾向性識(shí)別的算法模型和識(shí)別用戶(hù)親密度的模型,并通過(guò)訓(xùn)練不斷迭代完善。
此外,針對(duì)陰陽(yáng)怪氣評(píng)論的典型特征,知乎建立了文本識(shí)別模型不斷標(biāo)記訓(xùn)練樣本。三大模型的結(jié)合,不僅擺脫單一算法模型的局限性,也讓“瓦力”的陰陽(yáng)怪氣識(shí)別準(zhǔn)確率超過(guò)了大多數(shù)人工判斷。
持續(xù)迭代技術(shù)方案 攻克情感分析前沿難題
現(xiàn)場(chǎng),劉兆來(lái)詳細(xì)介紹了“瓦力”最新的陰陽(yáng)怪氣技術(shù)方案:首先通過(guò)知乎社區(qū)里的舉報(bào)、反對(duì)等負(fù)向用戶(hù)行為收集訓(xùn)練數(shù)據(jù)。然后通過(guò)各種同義替換、規(guī)則模版方式對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展,以緩解訓(xùn)練數(shù)據(jù)稀疏的問(wèn)題。同時(shí),“瓦力”提取文本、句法、表情符等特征,并利用一個(gè)帶attention的CNN和LSTM的融合模型進(jìn)行分類(lèi),最終判斷出內(nèi)容是否為陰陽(yáng)怪氣。
優(yōu)化技術(shù)方案后,“瓦力”已能實(shí)現(xiàn)對(duì)“暗藏玄機(jī)夸獎(jiǎng)”(忍不住關(guān)注答主了,你的答案很有水平!你博士快畢業(yè)了吧?。?、“好為人師”(我覺(jué)得你挺慘,雖然長(zhǎng)這么大了,還真應(yīng)該回小學(xué)改造)、“強(qiáng)行反駁”(你開(kāi)心就好、請(qǐng)開(kāi)始你的表演)等數(shù)類(lèi)陰陽(yáng)怪氣內(nèi)容的識(shí)別。而根據(jù)知乎社區(qū)治理團(tuán)隊(duì)的調(diào)查,用戶(hù)最反感的陰陽(yáng)怪氣言論大多屬于這些類(lèi)型,這意味著,“瓦力”在處理網(wǎng)絡(luò)言語(yǔ)暴力上取得了階段性進(jìn)展。
劉兆來(lái)表示,未來(lái)將不斷優(yōu)化“瓦力”的識(shí)別能力,提高模型泛化能力,同時(shí)不斷迭代更新模型,緊跟學(xué)術(shù)前沿的同時(shí),適應(yīng)網(wǎng)絡(luò)語(yǔ)言的變化潮流。