中安在線、中安新聞客戶端訊安徽又一科技創(chuàng)新成果出圈!
6月24日,國家科學技術獎勵大會上,由科大訊飛牽頭,聯(lián)合中國科學技術大學、清華大學、華為終端有限公司、中移(杭州)信息技術有限公司等高校及行業(yè)領軍企業(yè)聯(lián)合完成的“多語種智能語音關鍵技術及產業(yè)化”項目榮獲2023年度國家科學技術進步獎一等獎。
一
含金量高
科技創(chuàng)新,始終是國家關心關切的大事,是推動國家發(fā)展的核心動力,也是當今發(fā)展新質生產力的“牛鼻子”。
1984年,國務院創(chuàng)立國家科學技術進步獎,設一、二兩個獎勵等級,旨在激勵科技人才,促進成果轉化。如今,該獎已成為國務院設立的國家科學技術獎五大獎項(國家最高科學技術獎、國家自然科學獎、國家技術發(fā)明獎、國家科學技術進步獎、中華人民共和國國際科學技術合作獎)之一。
科大訊飛牽頭項目榮獲2023年度國家科學技術進步獎一等獎
為突出質量優(yōu)先、寧缺毋濫,進一步增強獎項的學術性、權威性和榮譽性,2017年,國家自然科學獎、國家技術發(fā)明獎、國家科學技術進步獎三大獎,總數(shù)由不超過400項減少到不超過300項,此后經多次變革,讓其競爭難度進一步提升,換言之,能獲獎的,在當今中國,都可謂科技創(chuàng)新的巔峰之作。
如何才能獲獎?
根據(jù)《國家科學技術獎勵條例》規(guī)定,國家科學技術進步獎,授予完成和應用推廣創(chuàng)新性科學技術成果,以及為推動科學技術進步和經濟社會發(fā)展作出突出貢獻的個人、組織。
可見,想獲獎,滿足創(chuàng)新性科學技術成果的同時,成果還要得到應用和推廣。
值得一提的是,受過去兩年國家科技獎暫停的緣故,2023年度國家科技獎積累了大量優(yōu)秀成果,堪稱國獎史上最難一年,提名環(huán)節(jié)指標難拿、初評環(huán)節(jié)網評難過,答辯環(huán)節(jié)競爭極其激烈。
以此次獲獎的科大訊飛牽頭“多語種智能語音關鍵技術及產業(yè)化”項目為例,該項目所屬計算機與自動控制組評審組,據(jù)悉,今年該組受理45個項目,通過初評的僅有8項,通過率不到18%。因此,榮獲此次殊榮,含金量不言而喻。
二
應用度廣
作為智能語音行業(yè)的執(zhí)牛耳者,來自合肥高新區(qū)的科大訊飛,長期聚焦多語種智能語言技術研發(fā)和應用,在迎接市場環(huán)境新挑戰(zhàn)的同時,不斷進行技術創(chuàng)新,推動應用落地。如今,在全球化背景下,乘勢而上,讓技術成果逐步從實驗室走向應用場,在各行各業(yè)諸多場景中,得到廣泛應用。
此次獲獎“多語種智能語音技術”,是科大訊飛聯(lián)合多個單位研發(fā)的包含多語種語音識別、多語種語音合成、多語種翻譯技術等為一體的綜合技術,不僅硬核,還很實用。
先看技術本身,大體來看,多語種智能語音技術功能有三:
·語音識別:通過先進的算法,如深度學習,系統(tǒng)能夠準確地將人類的語音轉換為文本。
·語音合成:利用自然語言處理技術,可以將文本轉換為流暢自然的語音輸出。
·機器翻譯:結合語言學和計算機科學,實現(xiàn)不同語言之間的高質量自動翻譯。
據(jù)悉,連同6個聯(lián)合國通用語種(漢語、英語、法語、西班牙語、俄語、阿拉伯語在內),此技術共支持世界69個語種,其中不乏挪威語、丹麥語等54個小語種,且均達到使用門檻。
同時,項目還覆蓋維、藏、蒙、哈、朝、壯、彝等24種主要中國方言,未來還將覆蓋更多方言。
這項技術有多牛?
記者從科大訊飛了解到,在CHiME、openASR、Blizzard Challenge、IWSLT等國際權威比賽中,該技術的成績可謂“遙遙領先”,近五年就累計獲得國際權威評測冠軍20余項;在與谷歌、微軟等國際廠商的盲測對比中,該技術也實現(xiàn)了多個語種整體并跑,其中14個重點語種領跑,并在安全部等組織的多次翻譯評測中業(yè)界領先。
在產業(yè)化方面,據(jù)德勤數(shù)據(jù)發(fā)布的《2020-2021中國語音產業(yè)發(fā)展白皮書》及華經產業(yè)研究院的《2023-2028年中國智能語音行業(yè)市場發(fā)展現(xiàn)狀及投資方向研究報告》,國內市場份額科大訊飛穩(wěn)居第一,在全球多語種市場中,占比也在持續(xù)提升。
眼前便是例證。會議轉寫方面,截至2024年,借用該項技術的訊飛聽見APP,已全面覆蓋人大政協(xié)各個駐地會議三周年。
訊飛聽見APP助力聽障人士日常交流
今年全國兩會,為更好輔助會議簡報記錄工作,科大訊飛推出“訊飛聽見智慧簡報系統(tǒng)”,實現(xiàn)將會議發(fā)言,實時轉成文字,且全程離線進行,在保證簡報記錄原汁原味,內容詳實的同時,也確保了會議的信息安全。
與此同時,訊飛多語種智能語音技術,已助力國內車企以及華為等品牌的產品出海。其中,中國汽車出海10強企業(yè)中有8家和科大訊飛合作,覆蓋23個語種,出口60余個國家。
還有在業(yè)界開創(chuàng)的智能翻譯機、智能錄音筆、智能辦公本等新品類。以訊飛翻譯機為例,可在線翻譯支持85個語種,覆蓋全球200多個國家和地區(qū),支持17個語種無網絡翻譯,35個語種自動識別翻譯,32個語種拍照翻譯,可解決用戶全球旅游、商務等跨語言溝通問題,已在北京冬奧會、進博會、博鰲論壇、國家安全、海關等重大活動和場景中獲廣泛應用。
還有助力公益。2017年,科大訊飛發(fā)起“方言保護計劃”,截至目前,方言庫收集近170萬條方言,貢獻人數(shù)超過85萬,其成果已在影視、教育、文旅、媒體等多個行業(yè)尋找到可切實落地的應用場景。
此外,自2019年起,科大訊飛聯(lián)合中國聾協(xié)、中國殘疾人藝術團發(fā)起“聽見AI的聲音”公益關愛行動,為聽力障礙人士提供免費的實時語音轉文字服務、捐贈免費時長。截至今年6月,已累計捐贈時長超一億分鐘。
三
大模型時代
2023年,可謂AI元年,大模型興起、諸多公司跑步進場,“大模型是AI時代的基礎設施”的提法漸漸深入人心。
2024消博會上科大訊飛帶來AI消費新體驗
與此同時,語音是人類信息傳播的基本方式,多語種智能語音技術,在支撐人機交互、人類語言互通及國家安全等方面,都具有重大戰(zhàn)略意義。
將AI大模型與多語種智能語音技術進行結合,將會是怎樣的未來?這是當今國際科技競爭的焦點,也是科大訊飛正著力描繪的未來。
語音屬性解耦、語音信號時空分離等技術突破,可以將語音信號經過編碼后輸入到大語言模型,顯著提升語音大模型的效果。大模型技術可以在復雜語義理解、長文本建模能力上進一步提升語音識別、合成和翻譯的效果,同時基于其強大的語義理解、知識問答、多輪對話、多模態(tài)建模能力,也能進一步大幅提升智能語音技術的使用場景和應用價值。
今年1月30日,科大訊飛發(fā)布星火語音大模型,迅速實現(xiàn)了對openAI2023年11月發(fā)布的whisper_v3多語種大模型的大幅領先。
6月9日,科大訊飛成立25周年司慶活動上,科大訊飛董事長劉慶峰表示,利用語音合成、語音識別、機器翻譯等單點技術,再通過大模型的理解能力、文本生成能力的后臺加持,科大訊飛已實現(xiàn)了語義理解、指令跟隨、多輪對話、情緒感知、超擬人合成的技術突破,真正使得語音交互得到提升。
而行業(yè)應用,永遠是技術生命力的源泉。
在此背景下,語音領域的幾乎所有應用,都值得用新方式重構一遍:
醫(yī)療導診機器人、酒店服務機器人、所有企業(yè)的客服機器人等都可以重新做一遍;7*24小時營業(yè)場所的部分崗位、企業(yè)中的服務類崗位等都可以用數(shù)字員工;汽車、手機、家庭助手等終端的智能語音服務也能得到很大提升。
類似的應用領域和產業(yè)空間不勝枚舉……
總之,大模型時代的語音技術,本質上是一次推動萬物互聯(lián)和原有人機交互場景重構的巨大產業(yè)機會,科大訊飛也正著力抓住其中的核心技術和應用紅利。
創(chuàng)新引領,步履不停,6月27日,科大訊飛將發(fā)布訊飛星火V4.0,底座能力將全面對標GPT-4 Turbo,語音大模型也將迎來全新升級,在科大訊飛國際領先的智能語音技術基礎之上,訊飛星火將進一步向著“解放生產力、釋放想象力,為每個企業(yè)和每個人打造專屬AI助手”的更大愿景。(記者 孟一凡)