在2018中國(深圳)IT領(lǐng)袖峰會(huì)期間,網(wǎng)易科技對圖靈機(jī)器人創(chuàng)始人兼CEO俞志晨進(jìn)行了專訪。俞志晨透露,2018年語義識別領(lǐng)域最核心的就是圈場景,這也是圖靈機(jī)器人目前最核心的目標(biāo)。此前圖靈機(jī)器人主要產(chǎn)品在兒童機(jī)器人市場,2018年下半年,圖靈機(jī)器人將進(jìn)入更多場景。(溫泉)
以下為訪談全文,略經(jīng)編輯:
網(wǎng)易科技:之前提到人工智能,提語音和圖像識別比較多,為什么語義識別不像前兩者那么廣為人知?
俞志晨:圖像識別,它會(huì)更前端一些,語音很多時(shí)候是會(huì)偏后端一些,后端一些支撐的技術(shù),包括一些后端的應(yīng)用,這兩個(gè)其實(shí)是有些差別的。而且它的整個(gè)的技術(shù)的發(fā)展的節(jié)奏也不太一樣,比如說語音,包括應(yīng)用語音的整個(gè)市場發(fā)展,從時(shí)間上來看,第一語音整個(gè)的模式和它的商業(yè)化這塊,其實(shí)是走得最前的,視覺主要是去年,去年的市場處于爆發(fā)期。然后語義,語義實(shí)際上還是屬于第三波的產(chǎn)業(yè)機(jī)會(huì)。
單從大的未來來看,語義毫無疑問它的市場覆蓋面肯定會(huì)比語音和視覺要大。
網(wǎng)易科技:這是為什么?
俞志晨:你看語音的發(fā)展契機(jī)像科大訊飛,還有包括國內(nèi)出來一些語音公司,基本上都屬于大概,最早第一波2000年初就開始起來了,2000年左右科大訊飛就屬于發(fā)展的比較好的,上市,包括國外也是這樣的。之前整個(gè)人工智能行業(yè),早期就是以語音為主。去年、前年視覺開始爆發(fā)。
這一方面是說本身這個(gè)技術(shù)在不斷成熟,另一方面是說,有安防的這個(gè)場景來托它,這么一個(gè)大的市場機(jī)會(huì),就導(dǎo)致整個(gè)視覺這塊的市場在催化。語義現(xiàn)在還處于一個(gè)沉淀、積累的階段。我認(rèn)為語義的能量還遠(yuǎn)遠(yuǎn)沒有爆發(fā)出來,這是從目前整個(gè)市場的形態(tài)來看是這樣的。
網(wǎng)易科技:為什么它還處于沉淀和積累的階段,它為什么發(fā)展的程度沒有語音和視覺那么成熟?它要解決哪幾個(gè)關(guān)鍵問題才算比較成熟,它目前已經(jīng)解決了哪幾個(gè)問題,有哪幾個(gè)問題沒有解決?
俞志晨:剛才為什么說像語義將來的市場空間會(huì)更大?我認(rèn)為語義現(xiàn)在技術(shù)通常有兩個(gè)階段。一方面是說很多時(shí)候它會(huì)提升效率,給to B的企業(yè)來用,這個(gè)是目前不管是語音、視覺、語義都會(huì)經(jīng)歷這個(gè)階段,這個(gè)過程是必不可少的。當(dāng)然我認(rèn)為再往后走,整個(gè)語義整個(gè)是能夠,比如客服也好,其實(shí)它的基本技術(shù)全部是圍繞語義來做的。
客服是一大塊,它實(shí)際上像很多的智能音箱,語音識別是一部分。但是為什么一開始大家很關(guān)注語音,因?yàn)檎Z音它是一個(gè)很容易感受到的東西,你里面所有的功能都是基于語義來做出來的東西。
但是對用戶來講,他可能以為它是基于語音做出來的。但是實(shí)際上像智能音箱那個(gè)產(chǎn)品,90%的東西是在語義。但是你可能感覺這就是語音識別,就跟SIRI是一樣的,因?yàn)槿藢@種,有一個(gè)詞叫定義,定義上語音的這個(gè)詞更容易帶人們腦中里面產(chǎn)生一個(gè)更加直觀的印象。語義這個(gè)詞太過技術(shù)化,一般大部分的消費(fèi)者其實(shí)不太容易理解語義這個(gè)詞的。你看絕大部分語音交互的產(chǎn)品,大部分是在語義這塊。
網(wǎng)易科技:所以您剛剛是解釋它將來的市場空間更大,是因?yàn)榇蟛糠值恼Z音交互的產(chǎn)品,語音交互的產(chǎn)品90%的工作是在語義這塊,而不是語音這塊?
俞志晨:這是必然的,從可辨性來看,語音和視覺的可辨性其實(shí)是固定的,它的價(jià)值就很明確,就是我要把語音信號轉(zhuǎn)成文字。但是它的前期的落地性會(huì)比較容易一些,因?yàn)樗康拿鞔_,所以它的普及度更快一些。視覺也一樣,視覺這塊也是說通過人臉識別、物體識別去做一些視覺的事情,它的場景相對來講比語音復(fù)雜一些,但是也是相對來講比較明確的,就是它作為市場是比較明確的,就是是別人,識別物體。但是語義的合并性就多了,我用語義怎么來跟這些場景結(jié)合。相當(dāng)于這種場景的結(jié)合性和延伸性,會(huì)比單純一個(gè)語音識別的模塊要大很多的。
就像是說我做手機(jī)的,其實(shí)毫無疑問,你說做手機(jī)公司整個(gè)市場價(jià)值規(guī)模更大,還是說基于移動(dòng)互聯(lián)網(wǎng)整個(gè)這一套里面的App市場價(jià)值更大?
網(wǎng)易科技:我覺得有一個(gè)比喻可能更能翻譯您的這個(gè)意思,是不是就是有一千個(gè)讀者,就有一千個(gè)哈姆雷特,你一段文字在那,有一千個(gè)人理解的是不同的意思,他反饋出來的行為也是完全不同的,是這個(gè)意思吧?
俞志晨:你也可以這么來去理解,因?yàn)檎Z義實(shí)際上真的是一個(gè),它其實(shí)目前來講是一個(gè)偏技術(shù)化的概念。它不像語音這么通俗,但是語音其實(shí)就是說我剛舉的例子,你看現(xiàn)在智能音箱這個(gè)硬件,硬件其實(shí)沒多少錢,一百多塊錢,但是里面的那些應(yīng)用和那些服務(wù)技能,全部是基于語義來做的。所以語義能夠延伸的價(jià)值會(huì)比,其實(shí)音箱,一個(gè)硬件或者一個(gè)語音識別的模塊,其實(shí)要大很多的。但是很多時(shí)候它倆是不同的階段,不同的模塊。
網(wǎng)易科技:您為什么覺得它還處于積累和沉淀期?
俞志晨:因?yàn)檎Z義不好實(shí)現(xiàn),就像你剛才說的,一千個(gè)讀者有一千個(gè)哈姆雷特,這個(gè)事情從技術(shù)層面來講很難實(shí)現(xiàn)它。不像語音識別,剛才說語音是一個(gè),比如我說一個(gè)字,它是一對一的關(guān)系,視覺也是一對一的關(guān)系,就是傳感,感知系統(tǒng)是一對一的關(guān)系。但是語義是一對X,不知道多少個(gè)關(guān)系。所以這個(gè)事情本身從技術(shù)上來說很難,因?yàn)樗茈y,所以它結(jié)合起來的話,可能需要的工作量會(huì)大很多。
網(wǎng)易科技:語義識別現(xiàn)在發(fā)展到什么程度了,哪些問題是可以現(xiàn)在完全能解決掉的,哪些問題是沒有被解決掉的?
俞志晨:語義通常有幾個(gè)方面,從大的來看,第一個(gè)是說指令型的這種理解,比如說很多音箱,智能家居,說打開或者關(guān)閉,我們叫指令級的理解,這個(gè)是屬于最低的層次,但是這個(gè)也是目前解決的比較好的。第二是問答系統(tǒng)。比如說很多客服,它實(shí)際上還是多輪,就是屬于帶有一定的復(fù)雜任務(wù)的,這個(gè)其實(shí)會(huì)更高階一些,用在客服,用在一些其他的虛擬的一些助手這些領(lǐng)域。這個(gè)領(lǐng)域其實(shí)門檻又會(huì)更高了一些。第三個(gè)層次是在開放域的聊天系統(tǒng),就跟人一樣,我們閑聊,天馬行空的在聊。這個(gè)從技術(shù)實(shí)現(xiàn)來說應(yīng)該是最難的,這也是整個(gè)行業(yè)的難點(diǎn),從技術(shù)上來講,可能技術(shù)上還做不到這種突破吧。
網(wǎng)易科技:目前能夠達(dá)到的這個(gè)和用戶需求的當(dāng)中,這個(gè)距離還有多遠(yuǎn),還有哪些問題沒有解決?
俞志晨:我的感覺,第一是說它的整個(gè)問題單子里面有很多個(gè),有一堆問題需要解決。第一個(gè)是說,這種語境的理解,上下文這塊的理解。比如我說我餓了,你說我真的餓了嗎,其實(shí)不是。那它怎么判別是不是餓了還是不餓,還是說他到底說這句話是什么意思。
網(wǎng)易科技:它需要的信號不光是這個(gè)語言這個(gè)項(xiàng),它需要很多環(huán)境的信號。
俞志晨:其實(shí)單純從文字的信息抽出來的話,它永遠(yuǎn)不能夠百分之百能夠去理解這句話的真實(shí)意圖。但是它需要去融合一些背景信息,融合一些這種環(huán)境信息,包括時(shí)間,你的一些習(xí)慣,還有包括你的一些性格,然后判定你是不是真的餓了,以及你真正的意圖。語義是一個(gè)意圖理解和識別的過程。
網(wǎng)易科技:你剛剛指的這個(gè)對語境的理解是其中的問題之一,還有很多問題沒有被解決。
俞志晨:對,語境是一塊,第二是說整個(gè)知識圖譜體系。理論上講,如果我們想要做通用的東西,前提是我需要去構(gòu)建一個(gè)龐大的體系化的知識圖譜,而且它還得具備推理功能,這個(gè)其實(shí)還是挺難的一件事情。第三個(gè)是語言的表達(dá)層面,說實(shí)話現(xiàn)在目前機(jī)器人的語言表達(dá)的豐富性還是不夠的,語言的表達(dá)這塊,怎么讓它像個(gè)人一樣的去表達(dá)這些語言。它能做到一定的表達(dá)的能力,比如說像如果打分的話,100分是滿分,它可能能做到50分、60分,但是離我們所謂的比較好的效果還有一定的差距。
最后還有一個(gè)歸于它的性價(jià)比,我們做的事情,很多時(shí)候技術(shù)跟它整個(gè)的它商業(yè)化的場景,它倆是相輔相成的。如果說這個(gè)技術(shù)投入過大,那可能這個(gè)事情就很難推。但是如果這個(gè)技術(shù)推起來還能賺到錢,這個(gè)事情就比較容易推。像語音識別一樣,它已經(jīng)能賺到一點(diǎn)點(diǎn)錢了,圖像也一樣,圖像識別是它確認(rèn)已經(jīng)能夠開始去掙錢了,而且能夠商業(yè)化的還不錯(cuò)。
網(wǎng)易科技:你們之后還會(huì)如何來推動(dòng)語義的應(yīng)用?
俞志晨:我們跟百度的VR這塊有合作。用VR結(jié)合圖靈AI做了一個(gè)虛擬機(jī)器人,也就是VR版的一個(gè)機(jī)器人,就相當(dāng)于Siri加一個(gè)人工形象,然后用在VR世界里面去做交互。
網(wǎng)易科技:那我明白了。我之前在很多場合聽過圖靈機(jī)器人,但是我不知道現(xiàn)在你們的產(chǎn)品是用在哪些領(lǐng)域,我們生活當(dāng)中,哪些產(chǎn)品背后其實(shí)是用你們的技術(shù)?
俞志晨:很多音箱,很多機(jī)器人可以跟你對話,可以跟你互動(dòng),但背后的技術(shù)你肯定不知道是誰家的。我們原來最早一大塊是在微信里面,比如微信公眾賬號,微信群還包括有QQ。從過去一兩年也更多是向很多兒童機(jī)器人、兒童玩具這類的產(chǎn)品用我們的語義技術(shù)。
網(wǎng)易科技:你們在微信公眾賬號里面的應(yīng)用是什么?
俞志晨:類似很多的一些公眾賬號,比如你可以給它發(fā)文字、發(fā)語音,然后它給你回答,它就是一個(gè)類似一個(gè)自動(dòng)的個(gè)性化的群管理機(jī)器人。
網(wǎng)易科技:圖靈機(jī)器人目前主要的競爭優(yōu)勢是什么?
俞志晨:第一就是語義技術(shù),第二就是產(chǎn)品體驗(yàn)。
網(wǎng)易科技:你們目前在語義這塊是國內(nèi)第一嗎?
俞志晨:我只能說我們至少在語義這個(gè)行業(yè)里面數(shù)一數(shù)二,因?yàn)榈谝贿@個(gè)事情是沒法兒去驗(yàn)證的,你說我們比微軟的好,這個(gè)事情好像也沒有辦法去實(shí)際證明。但是至少說從客戶,從整個(gè)的各種指標(biāo)來看,我們還是這個(gè)領(lǐng)域的,算是領(lǐng)先的公司吧。第二是說在一些特定場景,那肯定以我們最好,比如像兒童語義,那我們肯定是最好的。比如同樣做語音和對話,微軟小冰可能會(huì)用在二次元,或者是一些偏90后、95后這個(gè)群體比較多一些,我們的年齡段更小一點(diǎn),我們可能是在05后,10后,就是偏兒童這塊更多一些。
網(wǎng)易科技:我們現(xiàn)在在市場上能見到的那種兒童陪伴的機(jī)器人,背后絕大部分都是用的你們的語義識別技術(shù)?
俞志晨:差不多。
網(wǎng)易科技:任何一個(gè)牌子嗎?現(xiàn)在我在機(jī)場看到好多商店里面不是好多那種陪伴機(jī)器人。
俞志晨:我看了一下,應(yīng)該有一半了吧。
網(wǎng)易科技:另外一半用的是誰的?
俞志晨:有訊飛,也有用百度的,也偶爾會(huì)用其他的一些第三方的語義公司的,零零散散的。我去機(jī)場看,一半多。因?yàn)闄C(jī)場擺的東西不太一樣,我只能說一半、一半多。
網(wǎng)易科技:2018年語義這塊,您覺得會(huì)有什么樣的一個(gè)進(jìn)展,市場整體上發(fā)展到一個(gè)什么狀況?
俞志晨:從市場來看,今年各家公司對于語義的關(guān)注力度會(huì)更大,很簡單因?yàn)檎Z義其實(shí)格局還是比較確認(rèn),而像科大訊飛和百度,這幾家語音的市場份額是比較固定的,想搶也不太容易搶,視覺的那幾家也基本上占得比較緊。
第二是說關(guān)于這個(gè)技術(shù)本身的走勢來看,在今年或者明年會(huì)有更多的一些好的產(chǎn)品能落地,這是必然的趨勢。
第三今年最重要的一個(gè)事情就是各家來圈場景,誰能夠真正把場景拿下來,這是很重要的事情。因?yàn)槲矣X得像對于語義來講,它跟場景有很大關(guān)聯(lián)性,它目前還不像語音和圖像那樣做得那么通用,但是語義實(shí)際上跟場景的依賴性還是比較強(qiáng)。
網(wǎng)易科技:圖靈機(jī)器人目前,你們今年主要做哪些事,今年主要的核心也是圈場景嗎?
俞志晨:圍繞著兒童場景來進(jìn)行,兒童AI是關(guān)鍵。
網(wǎng)易科技:圖靈不是已經(jīng)兒童機(jī)器人這個(gè)場景不是已經(jīng)圈住了嗎,你們還準(zhǔn)備圈什么場景?
俞志晨:兒童有核心場景,也還有更大的場景,比如穿戴、學(xué)習(xí),還有包括線下,比如商超。
網(wǎng)易科技:你們主要會(huì)圍繞兒童的市場來做嗎,還是說今年你們也會(huì)做別的?
俞志晨:今年第一肯定是兒童,我們會(huì)首先把它做好。別的領(lǐng)域我們也會(huì)做,但是現(xiàn)在我估計(jì)今年下半年我們會(huì)有一些其他領(lǐng)域的產(chǎn)品,會(huì)有一些發(fā)布,到時(shí)候可以關(guān)注一下。
網(wǎng)易科技:目前在語義這塊是不是大部分是集中在兒童這個(gè)市場上的?
俞志晨:也不是,你像客服就很多,還有做輿情,其實(shí)挺多的,做輿情分析、客服,還有做一些語音助手,包括智能家電、音箱、車載,其實(shí)都有涉及。
網(wǎng)易科技:為什么你們沒有選擇那些場景,而是選擇了兒童這個(gè)場景呢?
俞志晨:我們覺得對于公司來講,可能這個(gè)場景相對來講更容易成熟一些,比較容易去把這個(gè)市場真的能夠做得比較成熟。
網(wǎng)易科技:其他的比如客服好像我也聽到,也挺多的。
俞志晨:但是客服這個(gè)事情比較分散,這個(gè)市場也很大,但是這個(gè)市場很分散,很難一家把它占到一個(gè)很大的市場份額,就這個(gè)意思。所以這個(gè)就跟公司的選擇有關(guān)系,我們可能不太去選擇做那些定制化程度比較高的領(lǐng)域。
網(wǎng)易科技:你們先做通用性比較高的?
俞志晨:對,垂直場景在我們看來是說,它的場景的通用性還是比較強(qiáng)的,我們會(huì)去做。
網(wǎng)易科技:除了兒童機(jī)器人這個(gè)市場,你們還覺得有哪幾個(gè)市場也是比較不錯(cuò)的,符合你剛才說的比較通用的,能夠大范圍真正落地的?
俞志晨:VR、AR這種當(dāng)然也可以,但是這個(gè)市場可能還需要再培育一下。說實(shí)話我別的關(guān)注的倒不是很多,我現(xiàn)在最主要就是關(guān)注兒童還有機(jī)器人領(lǐng)域這兩塊。別的車載其實(shí)也還行,車載這個(gè)市場足夠大,但是車載這個(gè)時(shí)間會(huì)長一點(diǎn)。智能家居也不錯(cuò),但是智能家居短期之內(nèi)想掙到錢,可能不會(huì)那么容易。
網(wǎng)易科技:為啥不會(huì)那么容易?
俞志晨:我說對AI技術(shù)來講,因?yàn)檎麄€(gè)市場處于變革期,像音箱這個(gè)領(lǐng)域現(xiàn)在量很大,吸引大家的眼球,但是音箱想掙到多少錢,其實(shí)有點(diǎn)難。
網(wǎng)易科技:為啥?
俞志晨:因?yàn)樗麄冊跓X,補(bǔ)貼。
網(wǎng)易科技:他們賣的價(jià)格比較低?
俞志晨:對,因?yàn)樗鼜脑搭^開始就不掙錢,他們就補(bǔ)貼。補(bǔ)貼完了之后其實(shí)你,如果它整個(gè)前端不掙錢的話,后端這塊也很難真正的能收到錢,這個(gè)沒有那么快。
網(wǎng)易科技:你們會(huì)進(jìn)入哪些新的領(lǐng)域?
俞志晨:我們還是圍繞服務(wù)機(jī)器人的方向去走。
網(wǎng)易科技:但是就不光是兒童了?
俞志晨:別的可能會(huì)涉及一下,但是現(xiàn)在,可能到下半年我們會(huì)明朗一些,現(xiàn)在還在做一些驗(yàn)證。
2025-04-28 14:41
2025-04-27 18:25
2025-04-24 13:29
2025-04-21 08:38
2025-04-20 07:42
2025-04-19 09:16
2025-04-18 09:06
2025-04-18 09:06
2025-04-16 13:34