騰訊會議天籟實驗室用AI幫聽障人群“清”聽世界
肖瑋(右三(san))和他的(de)團隊(dui)。
肖(xiao)瑋和同事相信騰訊會(hui)議(yi)背后(hou)先進的會(hui)議(yi)技術能為世界(jie)各地的人們帶來便利(li),人們可以在疫情期(qi)間繼續工作和溝通。
經過(guo)調查研究,他們發現(xian)音頻(pin)質量的改善和(he)降噪效(xiao)果(guo)可以(yi)為聽(ting)障(zhang)人(ren)群提供幫助(zhu),而這(zhe)恰是對騰訊“科技(ji)向(xiang)善”使(shi)命的踐行(xing)。
根據(ju)世界衛生組(zu)織統計,全球有15億人聽力(li)受(shou)損,到2050年,這(zhe)個數字預計會增長(chang)至25億,其(qi)中至少有七(qi)億人需要(yao)康復服務。
聽障(zhang)可(ke)能會帶來嚴(yan)重(zhong)后果,影響人的學習和發展、就業、人際關系、社會活動參與等(deng)等(deng),也會導(dao)致(zhi)孤(gu)獨、孤(gu)立和心理健康問題。
幸好,聽障可以通過輔聽技術來緩解,例如使用助聽器(qi)或(huo)人(ren)工(gong)耳蝸。
聽(ting)障去污名化,鼓(gu)勵早期檢測
如果你有(you)近視(shi)(shi)或遠視(shi)(shi),一(yi)般很(hen)早(zao)就(jiu)會被(bei)發現,能夠透(tou)過佩戴(dai)眼鏡來(lai)矯(jiao)正視(shi)(shi)力(li)。然而佩戴(dai)助聽(ting)器會讓(rang)人(ren)感到尷尬,因為這常被(bei)人(ren)視(shi)(shi)為一(yi)種身障。
改變觀念需要時(shi)間和開展(zhan)宣(xuan)傳教育活動,與此同時(shi),騰(teng)訊會議(yi)天籟實驗(yan)室與中(zhong)國國家耳(er)鼻咽喉疾病臨床醫學(xue)研究中(zhong)心發布了(le)一款簡單的(de)線上測聽工具。該工具融合了(le)中(zhong)國十二生肖的(de)元素,可基于噪聲場(chang)景下的(de)言語可懂度(du)測試方(fang)法,幫(bang)助用戶快速初步評估和掌(zhang)握(wo)自(zi)身的(de)聽力健康情(qing)況。
善用AI音頻(pin)幫(bang)助聽障人(ren)群
肖(xiao)瑋和(he)騰(teng)訊(xun)會議天籟實驗室的同事最初使用通(tong)信技術幫助聽(ting)障人群時,曾盡力消除或抑制背景噪音。然而,測試用戶的反饋表明,過度抑制噪聲反而降低了語音的可懂度。
有一(yi)天,肖瑋跟(gen)一(yi)位(wei)專(zhuan)家聊天時,對(dui)方提醒他,從聽(ting)力(li)學(xue)的(de)角度(du)來說,語音的(de)可懂度(du)是(shi)最(zui)重(zhong)要(yao)的(de)。他突然意識到,“聽(ting)障人(ren)士想(xiang)(xiang)聽(ting)到的是語音(yin)。我們(men)要做的不是對抗(kang)噪音(yin),而是必須保留(liu)(liu)語音(yin)結構,保留(liu)(liu)好用戶想(xiang)(xiang)感知的聲音(yin)成(cheng)分(fen)。”
工程(cheng)師們借鑒騰訊會議使用的AI增強(qiang)技術和深度(du)學習模型(xing),設計了新的方(fang)法,在降(jiang)噪(zao)(zao)之前(qian)先(xian)努(nu)力保留(liu)語(yu)音(yin),這樣可以(yi)有效(xiao)提升噪(zao)(zao)聲場景下的語(yu)音(yin)可懂度(du)。
騰訊天(tian)籟實(shi)驗室的(de)研究員正在(zai)采集室外噪音。
借助智(zhi)能手機駕馭AI音頻
智能手機已經成為AI音頻(pin)技術的重要組成部分。它(ta)們對于(yu)捕捉和(he)處(chu)理(li)聲(sheng)音至關(guan)重要,也(ye)能通過藍牙將聲(sheng)音傳(chuan)輸到聽力設備,例如人工耳蝸或助聽器(qi)。
對于肖瑋來說,難點在(zai)于設計算法(fa),根據環境(jing)和(he)用戶的需求,增(zeng)強(qiang)或降低噪音(yin)。他把這比作“為近(jin)視者(zhe)提供度(du)數(shu)合適的鏡片(pian)”。現(xian)在,聽(ting)障人士可以(yi)使用一款App來個(ge)性化(hua)設置降噪或語音增強(qiang)的程度,獲得個(ge)性化(hua)的輔聽(ting)效(xiao)果,即使專業醫(yi)生不在場(chang)輔導亦(yi)能獨自完(wan)成。
騰訊會(hui)議天籟實(shi)驗室(shi)還為輕度聽損(sun)人群(qun)找到(dao)了(le)經濟實(shi)惠的(de)解決方案,他們只需使(shi)用耳機,不需要定制(zhi)耳蝸或(huo)助聽器(qi)。例如,當他們在教室(shi)或(huo)講堂,可(ke)以把智能手(shou)機放在主講人附近的(de)桌子(zi)上。借(jie)助一款免費(fei)App,手機可以捕捉和處理語音,然后通過藍牙傳輸到用戶的(de)耳機。與(yu)此同時,App上也可(ke)以實時顯示字幕,幫助聽(ting)障用戶理解內容。
老年(nian)人優先
老(lao)年人深受聽障(zhang)問(wen)題影(ying)響,全球65歲以上人(ren)士(shi)有三(san)分之(zhi)一存(cun)在至少中度的(de)聽力受(shou)損,且該情況會隨著年齡的(de)增(zeng)長而嚴(yan)重。研究顯示聽障問(wen)題(ti)與失智和抑(yi)郁相(xiang)關。
為(wei)了評估音頻(pin)技術在現實生活中(zhong)的(de)應用效果,肖瑋和團隊成員(yuan)會(hui)去菜市場等嘈雜的(de)地(di)方實地(di)評估。有一天,他(ta)們觀(guan)察了一位婆(po)婆(po)如何使用App來與商販交談,這個App是利用騰訊會議天籟(lai)實驗室的音頻技術開發的。App能(neng)處理商販說的話(hua),然后轉(zhuan)換(huan)成大(da)字(zi)號(hao)的文字(zi)顯示在智能(neng)手機(ji)上。
同樣,老年人若想跟親朋好友們打電話,只要接聽(ting)電話就會自動啟動一個(ge)微信小(xiao)程(cheng)序,老年人可以一邊(bian)聽(ting)電話,一邊(bian)看到(dao)手機屏幕上(shang)顯示(shi)的(de)字幕。在(zai)這種(zhong)場景下,字幕輔聽(ting)和聲音(yin)輔聽(ting)都發揮了作用(yong)。
跨行(xing)業協作找到問題的(de)解(jie)決方案
跨行(xing)業(ye)協作是(shi)騰(teng)訊天(tian)(tian)籟實驗室的核心工作。實驗室的工程(cheng)師(shi)經常與不同(tong)行(xing)業(ye)的專(zhuan)家聯絡(luo),這些(xie)專(zhuan)家會請他們協助解(jie)決難題。設備制造商也(ye)經常向騰(teng)訊天(tian)(tian)籟實驗室尋求技術(shu)支(zhi)持。憑借強(qiang)大的AI音頻算(suan)法和深度學習能力,騰訊天籟實驗室團隊充分(fen)發揮這項技術的潛力,賦(fu)能合作方實現突(tu)破。
“將算法(fa)技術有(you)效(xiao)地應用(yong)于另一個專業(ye)領域(yu)并(bing)非易(yi)事(shi)。”肖瑋說(shuo),“這有賴于堅實(shi)的(de)(de)技術(shu)基礎(chu),技術(shu)人員(yuan)對(dui)新應用領域的(de)(de)敏感度,以及打通技術(shu)和(he)應用之間(jian)的(de)(de)連(lian)接點。最重要的(de)(de)是,你需要從(cong)對(dui)方(fang)的(de)(de)角度來(lai)理(li)解(jie)問(wen)題,保持開放的(de)(de)心態。”