小鹿角智庫(kù)
要點(diǎn):
1、近年來,語音技術(shù)被廣泛運(yùn)用于B端和C端各個(gè)場(chǎng)景,包括醫(yī)療、客服、教育、智能家居、移動(dòng)設(shè)備、車載等等。
2、語音被視為下一代交互途徑,語音交互在音樂行業(yè)發(fā)揮著越來越重要的作用,同時(shí)語音助手也能為音樂平臺(tái)錦上添花。
3、國(guó)內(nèi)語音技術(shù)領(lǐng)域公司大致分為兩類:獨(dú)立的語音科技公司和互聯(lián)網(wǎng)巨頭公司的語音部門,前者偏B端市場(chǎng),后者偏C端。
在2013年的上映的電影《Her》中描繪了這樣一副未來圖景,男主與一個(gè)名叫Samantha的AI語音陷入了愛情。不得不說,聲音作為一種有溫度的介質(zhì),相較于觸控而言承載了更多的情感,更容易讓用戶產(chǎn)生舒適、親切的感覺。
雖然目前大多數(shù)語音助手的聲音仍是冷冰冰的狀態(tài),無法實(shí)現(xiàn)影視作品中所構(gòu)建的場(chǎng)景,但也有不少公司已經(jīng)開始著手解決這一問題。例如,小冰公司在去年7月發(fā)布的全新超級(jí)自然語音技術(shù),首次將人工智能語音自然度提升到與真實(shí)人類聲音幾乎無法分辨的程度。
伴隨著物聯(lián)網(wǎng)的發(fā)展和5G時(shí)代的即將到來,人機(jī)交互從手機(jī)拓展到智能家居、智能出行等更廣闊的場(chǎng)景。語音作為與技術(shù)打交道最“自然”的方式,成為了被寄予厚望的下一代交互途徑,語音技術(shù)領(lǐng)域的公司也隨之獲得資本青睞。
去年4月,微軟宣布收購(gòu)語音技術(shù)公司Nuance Communications。該交易經(jīng)過歐盟、美國(guó)和澳大利亞監(jiān)管機(jī)構(gòu)的層層審查后,終于在本周掃清了最后的障礙,獲得了英國(guó)競(jìng)爭(zhēng)和市場(chǎng)管理局的同意。
這筆價(jià)值197億美元(約1248.98億元人民幣)的交易,被稱為微軟史上第二大收購(gòu)案。對(duì)于為何將Nuance納入囊中,微軟CEO Satya Nadella給出的解釋是:“Nuance在醫(yī)療保健交付點(diǎn)提供人工智能技術(shù),是企業(yè)AI在現(xiàn)實(shí)世界中應(yīng)用的先驅(qū)。而AI是科技的最重要優(yōu)先事項(xiàng),醫(yī)療保健是其最緊迫的應(yīng)用。”
Nuance(NASDAQ: NUAN)是全球最大的專門從事語音識(shí)別軟件、圖像處理軟件及輸入法軟件研發(fā)、銷售的公司,目前世界上最先進(jìn)的電腦語音識(shí)別軟件Naturally Speaking就出自于Nuance。該公司第一次被大眾熟知源于它與蘋果之間的合作,當(dāng)時(shí)被譽(yù)為下一代交互系統(tǒng)的Siri采用了他們的語音技術(shù)后,這家悶聲鉆研技術(shù)的公司瞬間被各大媒體相繼曝光。
這些年來,語音技術(shù)被廣泛運(yùn)用于各個(gè)場(chǎng)景,無論是B端的醫(yī)療、客服、教育還是C端的智能家居、移動(dòng)設(shè)備、車載等等,都出現(xiàn)了智能語音的身影。
我國(guó)智能語音產(chǎn)業(yè)近年也迎來了蓬勃發(fā)展,核心技術(shù)有所突破。今年1月最新發(fā)布的《2020-2021中國(guó)語音產(chǎn)業(yè)發(fā)展白皮書》顯示,2020年我國(guó)智能語音市場(chǎng)規(guī)模達(dá)到217億元,同比增長(zhǎng)31%,2021年可達(dá)到285億元,同比增長(zhǎng)44%,有力帶動(dòng)產(chǎn)業(yè)數(shù)字化發(fā)展。
讓計(jì)算機(jī)能聽、能看、能說、能感覺,是未來人機(jī)交互的發(fā)展方向,其中語音成為最被看好的交互方式之一。那么,語音技術(shù)的交互優(yōu)勢(shì)在哪里?它的主要應(yīng)用有哪些?在這一領(lǐng)域涌現(xiàn)出來了哪些巨頭和機(jī)會(huì)?
語音技術(shù)在音樂行業(yè)的應(yīng)用
囊括了語音喚醒、語音識(shí)別、語義理解等多項(xiàng)技術(shù)的語音助手,是語音技術(shù)應(yīng)用最廣的領(lǐng)域。
今年年初,向元宇宙公司發(fā)展的Meta也宣布,正在推進(jìn)用語音生成虛擬世界的AI研究,改善人與語音助手的互動(dòng),強(qiáng)化不同語言之間的翻譯。通過語音助手,所有年齡段的人不需要學(xué)習(xí)用戶手冊(cè)就能輕松實(shí)現(xiàn)操控,大大降低了新技術(shù)應(yīng)用和推廣的壁壘。
在音樂行業(yè),語音交互也在發(fā)揮著越來越重要的作用。
智能音箱與語音助手是天生的一對(duì),2014年11月,亞馬遜推出了第一款智能音箱Echo和語音助手Alexa并取得巨大成功。此后智能音箱逐漸成為行業(yè)“風(fēng)口”,Alexa和蘋果的Siri、谷歌的Google Assistant、微軟的Cortana成為了市面上最流行的四個(gè)語音助手。
除了自家的智能音箱之外,亞馬遜、蘋果、谷歌和微軟的語音助手在其他智能硬件和平臺(tái)都有廣泛的應(yīng)用。
例如,Sonos當(dāng)年入局智能音箱領(lǐng)域后,迅速與亞馬遜、蘋果、谷歌達(dá)成了合作。2019年11月,Sonos還以3700萬美元的現(xiàn)金收購(gòu)了語音助理初創(chuàng)公司Snips,在Snips的幫助下,Sono將能夠?yàn)槟切┚哂?“隱私意識(shí)” 的用戶提供語音控制選項(xiàng),同時(shí)更多地專注于音樂播放控制。
對(duì)于音樂平臺(tái)來說,語音助手也能為其錦上添花。
去年10月,蘋果公司在秋季發(fā)布會(huì)上宣布將語音助理Siri整合到Apple Music,推出每月售價(jià)4.99美元的Apple Music “Voice Plan”套餐計(jì)劃。與蘋果其他音樂訂閱項(xiàng)目的區(qū)別在于,用戶只能通過Siri訪問Voice Plan,沒有空間音頻等高級(jí)功能。
去年4月,Spotify正式推出了“Hey Spotify”語音助手功能,這是Spotify向Alexa/Google Assistant/Siri風(fēng)格的流媒體語音助手邁出的重要一步。當(dāng)用戶說“Hey,Spotify”時(shí),應(yīng)用程序開始接收用戶說的話,并一直持續(xù)到你的問題或請(qǐng)求得到處理為止。用戶可以通過此功能調(diào)出想聽的歌曲和歌單,甚至包括自定義的情緒播放列表,用戶可以通過授權(quán)Spotify使用麥克風(fēng)來開啟這項(xiàng)功能。
除了音樂平臺(tái),環(huán)球音樂旗下的音樂同步授權(quán)公司Universal Production Music早在2020年7月就推出了Alexa語音(Alexa Voice Skill)功能,來幫助用戶更簡(jiǎn)便地檢索公司龐大的曲庫(kù),欣賞超過百萬的音頻歌曲。Universal Production Music聲稱自己是第一家這樣利用聲控技術(shù)的音樂發(fā)行公司,通過支持亞馬遜語音助手Alexa的設(shè)備,用戶只需說“Alexa,讓Universal Production Music播放……”便可以播放自己想要聽的作品。
作為人工智能產(chǎn)業(yè)中極其重要的一個(gè)組成部分,語音識(shí)別擔(dān)任著人機(jī)交互應(yīng)用時(shí)的輸入和輸出接口,也相應(yīng)地受到產(chǎn)業(yè)風(fēng)口的影響,受到一眾投資機(jī)構(gòu)的追捧。
據(jù)融中研究數(shù)據(jù),語音識(shí)別企業(yè)是投資機(jī)構(gòu)最青睞的技術(shù)服務(wù)方向。從2017年至2021年2月,語音識(shí)別行業(yè)投資事件達(dá)150多件,投資金額達(dá)180億元左右。在音樂行業(yè),語音/音樂識(shí)別也是語音技術(shù)的重要應(yīng)用之一。
2018年,蘋果以4億美元收購(gòu)知名音樂識(shí)別應(yīng)用Shazam,將其正式納入蘋果生態(tài)的一環(huán)。作為Shazam最大的競(jìng)爭(zhēng)對(duì)手,總部位于美國(guó)的語音識(shí)別公司SoundHound去年年底通過與Archimedes Tech SPAC Partners Co.合并,計(jì)劃在今年第一季度交易結(jié)束后在納斯達(dá)克公開上市。SoundHound于2005年由一群斯坦福大學(xué)的畢業(yè)生創(chuàng)辦,開發(fā)了這款音樂識(shí)別應(yīng)用程序“SoundHound”,該應(yīng)用在全世界的下載量已超過3.15億次。
除了這些知名的海外企業(yè),國(guó)內(nèi)語音技術(shù)領(lǐng)域也不乏高端玩家。
那些入局語音技術(shù)領(lǐng)域的大佬們
近年來,智能語音市場(chǎng)的火熱吸引了越來越多的公司入局,縱觀國(guó)內(nèi)那些語音技術(shù)領(lǐng)域的大佬們,可以大致將其分為兩類,一類是獨(dú)立的語音科技公司,以訊飛、云知聲、靈聲科技、思必馳為代表;一類是互聯(lián)網(wǎng)巨頭公司的語音部門,以百度、搜狗、阿里、騰訊為代表。
作為國(guó)內(nèi)語音技術(shù)行業(yè)的頭部公司,2008年上市的科大訊飛如今的市值已從剛上市時(shí)的34億元增長(zhǎng)到了1047億元,令人望塵莫及。
科大訊飛在中文語音技術(shù)市場(chǎng)和語音合成產(chǎn)品市場(chǎng)都占有較大份額,其商業(yè)模式既2B也2C。在B端市場(chǎng),科大訊飛面向教育、政法、醫(yī)療、汽車和客服等多個(gè)行業(yè)提供相應(yīng)的解決方案。在C端市場(chǎng),科大訊飛提供面向消費(fèi)者的家庭、汽車、翻譯等個(gè)人消費(fèi)品,包括硬件產(chǎn)品如訊飛學(xué)習(xí)機(jī)、訊飛翻譯機(jī)、智能辦公本等,以及軟件產(chǎn)品如訊飛輸入法、AI電視助手等。通過這些產(chǎn)品努力向消費(fèi)端傾斜,加強(qiáng)品牌認(rèn)知度。
成立于2009年的盛大語音院曾是科大訊飛最強(qiáng)大的競(jìng)爭(zhēng)者,但隨后因盛大退市而導(dǎo)致資金不足,語音院的上級(jí)機(jī)構(gòu)盛大創(chuàng)新院幾乎全部解散。在動(dòng)蕩中,一部分員工離開成立了“云知聲”公司,原盛大語音院也于2013年正式獨(dú)立,成立了一家名為“靈聲科技”的公司。
出身于盛大的云知聲,其主營(yíng)業(yè)務(wù)分為智能語音交互產(chǎn)品、智慧物聯(lián)解決方案和人工智能智慧服務(wù),這幾年在語音科技領(lǐng)域也獲得了不錯(cuò)的發(fā)展。據(jù)天眼查資料,云知聲截至目前總共完成了10輪融資,去年6月完成近1億美元D+輪融資,投后估值約18億美元。
值得一提的是,云知聲曾于2020年11月遞交招股說明書擬在科創(chuàng)板上市,但2021年2月卻以公司戰(zhàn)略發(fā)展因素為由主動(dòng)撤回科創(chuàng)板IPO申請(qǐng)。與文章開頭提到的Nuance一樣,以語音病歷錄入為切入口,AI醫(yī)療也是云知聲的主要賽道之一。如今Nuance以197億美元被微軟收購(gòu)后,有不少分析師認(rèn)為,“見好就收”可能會(huì)是AI語音獨(dú)角獸云知聲最好的出路。
相比于單純的語音科技公司而言,互聯(lián)網(wǎng)公司成立語音部門的商業(yè)化路徑會(huì)更加清晰。
在Google驗(yàn)證過語音搜索對(duì)于移動(dòng)終端的重要性后,百度和搜狗這類具有搜索業(yè)務(wù)的公司跟進(jìn)投入智能語音領(lǐng)域顯得十分順理成章。同時(shí),由于自然語言處理(NLP)是搜索引擎的關(guān)鍵技術(shù)之一,因此百度、搜狗也自然而然地成為頭號(hào)玩家。近幾年,兩家公司的語音技術(shù)不僅用于自身產(chǎn)品,還通過與行業(yè)其他技術(shù)和產(chǎn)品提供方合作,推出面向C端的產(chǎn)品和應(yīng)用。
例如,搜狗聯(lián)合四維圖新推出全語音交互的車載導(dǎo)航產(chǎn)品;百度度秘事業(yè)部推出的對(duì)話式人工智能系統(tǒng)DuerOS聲稱其語音識(shí)別準(zhǔn)確率可以達(dá)到97%以上,該系統(tǒng)廣泛應(yīng)用于家居、隨身、車載等多種場(chǎng)景,幫助硬件廠商、開發(fā)者最大程度降低了對(duì)話式人工智能系統(tǒng)的應(yīng)用門檻。
由于互聯(lián)網(wǎng)平臺(tái)公司直接面向用戶,所以很少涉足醫(yī)療、客服、金融等傳統(tǒng)垂直行業(yè),而是會(huì)把重心放在消費(fèi)類產(chǎn)品和應(yīng)用上。
近幾年的疫情對(duì)全球的生產(chǎn)和生活都產(chǎn)生了巨大的影響,在這一背景下,為非接觸型生產(chǎn)和生活提供服務(wù)的語音交互技術(shù),自然也迎來了發(fā)展機(jī)會(huì)。例如,音視頻通訊技術(shù)在疫情初期就迎來了一輪爆發(fā)。伴隨音視頻通訊需求的增長(zhǎng),在線翻譯、在線會(huì)議內(nèi)容實(shí)時(shí)識(shí)別和翻譯、音視頻通訊的內(nèi)容分析和挖掘等賽道也出現(xiàn)了更多需求。
智能語音是個(gè)技術(shù)密集型的行業(yè),無論是元宇宙還是AI,當(dāng)下最火的這些概念都離不開語音技術(shù),但同時(shí)也對(duì)技術(shù)的發(fā)展提出了更高的要求。無論是獨(dú)立的語音科技公司還是互聯(lián)網(wǎng)公司旗下的語音部門,都還有機(jī)會(huì)。
關(guān)鍵詞: 價(jià)值197億美元 為什么語音技術(shù)公司會(huì)被如此看重