重點嘉賓演講

  音樂創(chuàng)作我們不說了,后面我們有一段語音的介紹給大家聽聽。我們聽一下這首歌,這是我們給山東衛(wèi)視演唱的一首歌叫《幸福出發(fā)》。我們做這個東西的目的不是讓它唱整首歌,而是驗證機(jī)器今天去模擬人的聲音,我們正在幫中國幾個唱片公司做他們歌手虛擬化的項目,虛擬化的項目到什么地步?讓機(jī)器重新做完這個歌手的歌發(fā)回去給他們,他們CEO說我們歌手從來沒唱過這首歌,唱的不好嗎?不是,這是是機(jī)器做的。

  今天我們認(rèn)為一些好的資源,好的聲音的資源同樣它可以低成本被用來教育工作。過去很多東西大家認(rèn)為不合適,機(jī)器的聲音度、自然度太低,當(dāng)自然度太低的時候,達(dá)不到一定的標(biāo)準(zhǔn)。這是為什么他們對人的聲音特別的敏感。把聲音的技術(shù),如何去考驗一個聲音的技術(shù)的實施程度或者成熟程度呢?我們在音樂領(lǐng)域之前包括教育領(lǐng)域之前,嘗試另外一個垂直領(lǐng)域就是在廣電領(lǐng)域,讓廣電領(lǐng)域用機(jī)器的聲音,用這種技術(shù)去制作廣播和電視的節(jié)目。到目前為止我們已經(jīng)在大概超過49家廣播和電視臺,生產(chǎn)了1868個小時廣播電視節(jié)目,這幾乎大概是等同于中國如果在廣播電視局公司里面能排到前十位的位置。同樣這種成本幾乎只有人類制作團(tuán)隊4.5%,我給大家看它制作出來的效果。

  這里邊其實生產(chǎn)大量的廣播電視節(jié)目,上個月上海舉辦中國廣播大會上,用我們技術(shù),一共有三家獲獎,用我們這個技術(shù),今天你生產(chǎn)廣播節(jié)目成本將會非常低,能實現(xiàn)一邊聽廣播,一邊和廣播的主持人進(jìn)行實時交流。

  同樣道理我們上個月宣布我們擁有繪畫和設(shè)計能力,我們和中國紡織工業(yè)協(xié)會推出第一代,由機(jī)器根據(jù)他們設(shè)計師設(shè)計主題的布料和服裝進(jìn)行創(chuàng)作,這在上海展示過了。

  文本撰寫,我們講說機(jī)器在文本撰寫方面極致會達(dá)到什么地步?今天在中國我不知道大家炒不炒股票和買不買基金,中國金融市場95%的滬深兩市其他主要金融摘要信息都是由機(jī)器生產(chǎn),持續(xù)到目前為止已經(jīng)8個月了,這是非常嚴(yán)肅的金融信息的生產(chǎn)。它的記錄是非常高的可靠性和成熟度。

  我們講講今天跟教育主題可能是有一些相關(guān)的,我們剛才講了文本生成,講了聲音。把所有東西都結(jié)合在一起可以做什么?我給大家看一下我們嘗試的一個小小的東西。

 ?。úシ臯CR)

  大家剛才聽到的這段音頻是百分之百由機(jī)器生產(chǎn),現(xiàn)在我們?nèi)斯ぶ悄芗夹g(shù)可以做到你只要把這段文字給機(jī)器,機(jī)器通過自然語言理解來判別這段故事有幾個角色,為每一個角色分配聲音處理不同的聲音。同時根據(jù)這個角色講的內(nèi)容來決定她朗讀的語氣。最后我們?yōu)槭裁刺岢鲎鲈~曲創(chuàng)作呢,整個這段背景音樂是機(jī)器自己生成。這里沒有任何版權(quán)問題,全是機(jī)器自己生產(chǎn)。這里角度來講,這里最大的變化在于說這個過程速度非常快,我們今天講一個200小時格林童話人生產(chǎn)要讀多長時間,機(jī)器來做17分鐘就能做完。我們從去年的11月份開始到今年3月,每天找一些公版的有聲讀物放服務(wù)器里面,然后人就回家了,第二天早上回來機(jī)器生產(chǎn)完了,我們到現(xiàn)在已經(jīng)生產(chǎn)了1680個小時的公版的有聲讀物。

  從3歲聽到6歲,每天不停的聽不重樣也聽不完。同時我們把這項技術(shù)給當(dāng)當(dāng)包括其他的出版社用來生產(chǎn)有聲讀物,整個有聲讀物的生產(chǎn)的效率和速度能得到極大的提升。喜馬拉雅搜索小冰講故事,我們把所有生產(chǎn)的東西都放在上面讓大家去驗證。這個技術(shù)的改變可能是改變我們對所有內(nèi)容的生產(chǎn)的方式、生產(chǎn)的效率以及消費它的方式。生產(chǎn)效率和生產(chǎn)方式可以理解,今天可以讓機(jī)器生產(chǎn),機(jī)器可以低于人的成本。那什么是消費方式呢?這個生產(chǎn)技術(shù)流程我稍微說一下。在所有過程里面,你知道我們可以讓機(jī)器不用線性生產(chǎn),但是生產(chǎn)完了之后如果你要去檢查的話,你也是要花一樣的時間。一個20分鐘故事不快進(jìn)也要聽20分鐘。怎么解決這個問題?我們研發(fā)另外一套系統(tǒng)機(jī)器自我去審聽多音字的錯誤。包括各種問題,我們做了免檢,可以把準(zhǔn)確率免檢提高到97%,就意味著今天機(jī)器自動生產(chǎn)有聲讀物的質(zhì)量能夠超越我們今天在所有有聲讀物市場上,比如今天喜馬拉雅上絕大多數(shù)的人類有聲讀物生產(chǎn)者讀的東西,在準(zhǔn)確率是要高于他們。當(dāng)然這種技術(shù)永遠(yuǎn)不會替代今天人類社會最頂尖的有聲讀物生產(chǎn)者,比如今天在中國比如凱叔講故事,凱叔生產(chǎn)的東西由導(dǎo)演反復(fù)策劃包括后期修,我們比不了。但是大規(guī)模生產(chǎn)領(lǐng)域,技術(shù)其實現(xiàn)在已經(jīng)?揮形侍???

分享到: