當前位置: 首頁 > 工業(yè)控制產(chǎn)品 > 自動化控制 > 人工智能
發(fā)布日期:2022-10-09 點擊率:168
關(guān)鍵詞: 聽見智能會議系統(tǒng) 人工智能
摘要:“聽見智能會議系統(tǒng)”是核心語音技術(shù)的集大成者,其包含了自然語言處理、聲紋識別、語音識別、語音轉(zhuǎn)寫引擎、篇章處理、口語風格處理等幾乎最關(guān)鍵的語音人工智能技術(shù)。
公司簡介:科大訊飛股份有限公司成立于1999年,是一家專業(yè)從事智能語音及語言技術(shù)、人工智能技術(shù)研究,軟件及芯片產(chǎn)品開發(fā),語音信息服務(wù)及電子政務(wù)系統(tǒng)集成的國家級骨干軟件企業(yè)。作為中國智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者,在語音合成、語音識別、口語評測、自然語言處理等多項技術(shù)上擁有國際領(lǐng)先的成果。
當今年3月5日兩會工作會議進行網(wǎng)絡(luò)直播時,首次用機器替代人,將李克強總理的現(xiàn)場報告實時轉(zhuǎn)寫成文字,自動同步。這個人工智能技術(shù)來自科大訊飛研發(fā)的“訊飛聽見”,準確率在95%以上。
“訊飛聽見”還為兩會期間安徽代表團會議提供全程轉(zhuǎn)寫服務(wù),21場會議205位代表的發(fā)言同步轉(zhuǎn)寫成文字,在會議結(jié)束時,即刻打印成稿,代表能進一步深入討論,會議也能立刻存檔。

語音技術(shù)“集大成者”
“2013年,當深度神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到語音識別領(lǐng)域時,猶如給語音識別實用化安裝了加速器,直接引發(fā)了今天各類語音識別應(yīng)用的大爆發(fā)。”科大訊飛聽見科技政企業(yè)務(wù)線總監(jiān)洪源說。
兩年后,在2015年底的公司年度大會上,聚焦在智能語音技術(shù)和信息服務(wù)的科大訊飛迅速推出“訊飛聽見智能會議系統(tǒng)”,這是全球首個會議實時轉(zhuǎn)寫系統(tǒng)。
洪源形容,聽見智能會議系統(tǒng)是“核心語音技術(shù)的集大成者”——因為它包含了迄今為止人類最關(guān)鍵的語音人工智能技術(shù),像自然語言處理、聲紋識別、語音識別、語音轉(zhuǎn)寫引擎、口語風格處理等。
在這中間,語音識別讓機器“聽懂”人類的語音,將語音中的文字信息提取出來,相當于給機器安裝了“耳朵”;自然語言處理能“理解”語言,讓機器有了思維,具備翻譯、信息檢索的能力;語音轉(zhuǎn)寫引擎將持續(xù)語流轉(zhuǎn)寫成文字;聲紋識別能分辨說話者;口語風格處理能處理口語詞、猶豫詞、重復(fù)詞,讓轉(zhuǎn)寫的文字更流暢簡潔……
在系統(tǒng)推出的最初兩個季度中,洪源和同事深入一線,讓產(chǎn)品與政企市場充分磨合。在經(jīng)過數(shù)次迭代后,系統(tǒng)現(xiàn)在基本能滿足客戶在各種場景下的典型需求,趨于穩(wěn)定和標準化。
中歐商學院的選擇
中歐商學院、馬云湖畔大學開學典禮、羅輯思維跨年演講、政企單位內(nèi)部會議……各類機構(gòu)正在采用聽見智能會議系統(tǒng)。
從用戶的共性需求中,洪源他們將應(yīng)用場景分為三類——會議、教學和演講。
在中歐商學院的辦公會議中,發(fā)言能實時轉(zhuǎn)寫為文字,會議結(jié)束即可同步出會議紀要。利用會議回溯功能,點擊會議紀要的某部分,錄音會自動回溯到相應(yīng)音節(jié),方便修正和查找重點。
在北京聯(lián)合大學特殊教育學院的教學中,課堂語音能實時轉(zhuǎn)寫成文字,讓聽力障礙學生群體也能像正常學生一樣獲取信息;在課后的課件制作中,字幕能自動轉(zhuǎn)寫,不再需要人工聽錄音、做錄入。
在羅輯思維跨年演講中,現(xiàn)場語音被實時轉(zhuǎn)寫成文字,同步在“得到”APP上做圖文直播,不在現(xiàn)場的觀眾也能獲取第一手信息。
在這些典型場景下,用戶也有著“言必談安全”的需求,科大訊飛提供了離線部署方案。一種是軟硬件一體的單機版。這是科大訊飛與合作伙伴研華科技一起形成的高集成化、能支撐語音識別核心引擎和服務(wù)的一體化方案,適用于單個會議室。另一種針是對智能樓宇多個會議室的網(wǎng)絡(luò)版部署方案,服務(wù)器可部署在客戶機房,統(tǒng)一管理。
因為智能會議系統(tǒng)解決了客戶的業(yè)務(wù)痛點,同時顧及政企市場對安全的要求,中歐商學院管理層甚至向來學院學習的全球行業(yè)精英推薦該系統(tǒng)。
現(xiàn)在,該系統(tǒng)正在政府機構(gòu)、高等教育機構(gòu)、大型企業(yè)展開全面布局。
推進“智慧檢務(wù)”建設(shè)
不僅通用場景,公檢法垂直行業(yè)也迫切想要利用人工智能改善核心工作環(huán)節(jié)的痛點和效率。
在今年全國檢察長會議中提出要加快“智慧檢務(wù)”建設(shè)。基于訊飛聽見打造的聽見智能會議系統(tǒng)、訊(詢)問筆錄系統(tǒng)、檢務(wù)語音輸入法、雙語教學平臺,正在檢察機關(guān)日常辦公會議、審訊、雙語培訓(xùn)等場景下探索深度應(yīng)用。
安徽省人民檢察院檢委會辦公會議應(yīng)用聽見智能會議系統(tǒng),實時記錄會議委員的發(fā)言和意見。
聽見的訊(詢)問筆錄系統(tǒng)也在安徽、浙江、江蘇、北京、新疆、西藏等17家檢察院,在涉黑、非法吸收公眾存款、妨礙公務(wù)、盜竊、貪污等30種不同案件類型中試用。在審訊過程中,首創(chuàng)的麥克風陣列技術(shù)定制硬件加軟件一體化方案,實現(xiàn)審訊室遠距離拾音、自動降噪及說話人分離功能,讓辦案過程全程留痕、精準回溯,有效固定關(guān)鍵證據(jù)。系統(tǒng)還可通過與錄音錄像第三方系統(tǒng)對接,實現(xiàn)“遠程提審”創(chuàng)新模式。
安徽、浙江、新疆三省的檢察院還在辦公辦案中試用聽見檢務(wù)語音輸入法。它能在各種終端設(shè)備上,將口述內(nèi)容自動轉(zhuǎn)為文本,借助針對檢務(wù)語音資源的定制優(yōu)化,實現(xiàn)最快1分鐘可識別400字,相比傳統(tǒng)方式快3~5倍,讓工作高效便捷。
在新疆自治區(qū)人民檢察院及新疆兵團正試點應(yīng)用聽見維漢雙語翻譯及雙語教學平臺。在審訊場景下,它實時將維漢互譯,還將語音轉(zhuǎn)換成維漢對照筆錄,掃除語言交互障礙,縮短案件審理周期。雙語教學平臺還提供精品學習課件,供民族檢察官自由學習。在新疆檢察官學院,每年有1300多檢察官參與學習,舉辦50多場主題會議。在教學培訓(xùn)和主題會議上,雙語互譯平臺讓不同民族檢察官能輕松交流和學習討論。
正在發(fā)生的未來
“我們要開會了。”伴隨用戶的一句話,會議室的燈光、音響、窗簾、空調(diào)、投影儀、幕布等設(shè)備會自動調(diào)節(jié)到會議模式。這是在聽見智能會議系統(tǒng)基礎(chǔ)上,科大訊飛在今年3月推出的“自適應(yīng)語控智能會議系統(tǒng)”。
通過自然的語音交互,會議系統(tǒng)告別了傳統(tǒng)模式下會前手動調(diào)試設(shè)備的不便,化繁為簡。在會議中,麥克風能根據(jù)發(fā)言者的聲音大小、外部噪音強弱自動調(diào)節(jié)增益,不用再像過去那樣“人去配合麥克風”。“技術(shù)很炫,也解決了我們的痛點。在此之前,真沒有什么好辦法解決這些問題。”客戶對洪源反饋說。
“這是公司愿景‘用人工智能建設(shè)美好世界’驅(qū)動的。”洪源說,“期望人工智能技術(shù)為政企市場創(chuàng)造自然舒適的會議體驗。”
與此同時,2016年底,訊飛聽見融合多語種翻譯技術(shù),推出聽見智能會議系統(tǒng)的實時翻譯和語音轉(zhuǎn)寫新功能,將中文演講實時翻譯成英語、日語、韓語和維吾爾語并同步展示在大屏幕上。在2017年美國CES展分論壇中,這個人工智能技術(shù)在現(xiàn)場充當了“一名翻譯”。
“語音轉(zhuǎn)寫是個全新市場,我們對它非常樂觀。”洪源說,“但這塊蛋糕能做多大,有賴于我們對應(yīng)用場景的探索拓展、技術(shù)提升等因素。”
科大訊飛還在進一步提升語音轉(zhuǎn)寫技術(shù),這包括優(yōu)化識別效果、方言識別、分段效果,它們可提升轉(zhuǎn)寫文字的可讀性;還包括提升關(guān)鍵詞提取與主題提取技術(shù),便于用戶提煉價值信息;還有多語種翻譯技術(shù),讓國際會議交流無障礙。
這些技術(shù)結(jié)合市場的探索,聽見系統(tǒng)將實現(xiàn)神機妙用。
這篇案例收錄在《物聯(lián)網(wǎng)·智慧城市創(chuàng)新2017案例精選集》,了解更多案例,請訪問http://select.advantech.com.cn/whitepaper2017/
掃描下方二維碼,完成注冊,獲取紙質(zhì)檔。


下一篇: PLC、DCS、FCS三大控
上一篇: 索爾維全系列Solef?PV