新聞記者 吳漢
8月30日,科大訊飛星火極速超擬人交互技術(shù)正式上線訊飛星火APP,率先面向全民開放體驗。據(jù)了解,這是國內(nèi)首個對標(biāo)GPT-4o語音的大模型產(chǎn)品,用戶可在訊飛星火APP中直接體驗使用。根據(jù)官方介紹,星火極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語音可控表達、人設(shè)扮演四個方面實現(xiàn)重大突破,讓整體交互體驗更自然、更具情感。
上線當(dāng)天,科大訊飛研究院常務(wù)副院長高建清針對星火極速超擬人交互技術(shù)及應(yīng)用展開進一步解讀,不僅剖析了星火超擬人交互的“端到端”“共情力”等核心技術(shù)亮點,還為公眾勾勒出技術(shù)產(chǎn)業(yè)化的愿景圖。
據(jù)悉,“端到端”技術(shù)框架是實現(xiàn)極速響應(yīng)的重點。目前在全世界范圍內(nèi),框架模型算法持續(xù)演進,國外以GPT-4o、特斯拉FSD等為代表的多模態(tài)端到端方案,已被證實可進一步提升技術(shù)效果和用戶體驗。而科大訊飛極速超擬人交互作為業(yè)界首個端到端極速超擬人交互,通過將此前級聯(lián)方案升級為統(tǒng)一神經(jīng)網(wǎng)絡(luò),直接實現(xiàn)語音到語音的“端到端”建模,大幅縮短響應(yīng)時間,做到了真正的極速。
而人類語言被稱為世界上最動聽的語言,是因為具有獨特的情緒感染力,能夠傳達復(fù)雜的情感和思想,實現(xiàn)文明的傳承和進化。但長久以來,智能語音與自然語言處理技術(shù)主要針對“內(nèi)容”模塊下功夫,比如能“聽懂”更多的語種,“解答”更多的問題,但想要獲得擬人化的對話體驗,還需要“內(nèi)容”與“情緒”等模塊協(xié)同作用。
大模型時代的到來,恰好能讓不同的模塊化功能進行“大統(tǒng)一”。高建清表示:“以往語音交互系統(tǒng)都是不同的模塊,比如語音識別、語音合成和大語言模型。而科大訊飛星火極速超擬人交互技術(shù)基于端到端大模型框架,并結(jié)合訊飛多維度語音屬性解耦表征訓(xùn)練模塊,實現(xiàn)情感、方言、韻律、音色等的可控,實現(xiàn)了對語音交互的擬人化升級?!?/p>
星火極速超擬人技術(shù)還將星火大模型的“共情力”帶到了新的高度,在這次單交互系統(tǒng)上線之前,業(yè)界的交互系統(tǒng)大多沒有情感,均以中性情緒回復(fù),或者個別系統(tǒng)有這種情感,但大多停留在文本層面。而星火極速超擬人技術(shù)可以實現(xiàn)情感共鳴,當(dāng)人機對話時,機器可以理解你的聲音內(nèi)容,包含情緒表達。高建清認為,雖然目前系統(tǒng)暫時不能使用表情,但未來如果將表情、聲音內(nèi)容與聲音情緒三者結(jié)合在一起,將會是一條可行的新路徑。
星火極速超擬人語音的情緒感知能力,能夠感知到數(shù)十種音頻事件與情緒,比如喜怒哀樂、害怕、困惑等,AI會以“感同身受”的方式進行語言組織和情緒表達。而情感共鳴會結(jié)合聲音和內(nèi)容等不同維度,在合適的情境采用合適的情感進行回應(yīng),比如用戶開心的時候用笑聲呼應(yīng)心情,用戶悲傷的時候用安慰語氣進行安撫,讓AI變得有血有肉有溫度。
共情力對于大模型是一項重要的基礎(chǔ)能力,或許在未來的人形機器人身上,我們將看到共情力的具象表達。比如你一進門,機器人向你笑臉相迎地問候道,就像1999年科幻電影《機器管家》里面的人形機器人安德魯,讓人機之間也有情感紐帶。當(dāng)然暢想這些還為時尚早,現(xiàn)階段的星火極速超擬人交互更有另一部電影《Her》的既視感,TA可以用笑聲回應(yīng)開心,用急促回應(yīng)憤怒,更自然,更逼真,更還原真人對話的語境。
至于快速打斷功能,這也是真人對話中經(jīng)常復(fù)現(xiàn)的狀況。比如你入住酒店問前臺客服,如果對方答非所問肯定當(dāng)即打斷;同理,沒耐心聽AI講一大堆話,或者回答跑偏,立即打斷是人的生理本能?!斑@是個極其復(fù)雜的工程問題,需要去判定何時打斷、何時不應(yīng)打斷,我們通過技術(shù)創(chuàng)新與強化底座認知能力,解決了打斷和響應(yīng)時間平衡的問題?!备呓ㄇ逭f道。