亚洲一卡2卡3卡4卡5卡6卡_99RE6在线观看国产精品_99欧美日本一区二区留学生_成人国产精品日本在线观看_丰满爆乳在线播放_免费国产午夜理论片不卡_欧美成 人影片 免费观看_日产中字乱码一二三_肉感饱满中年熟妇日本_午夜男女爽爽影院免费视频下载,民工把我奶头掏出来在线视频,日韩经典亚洲,国产精品JIZZ在线观看无码

中華網(wǎng)

設(shè)為書簽Ctrl+D將本頁面保存為書簽,,全面了解最新資訊,,方便快捷,。
軍事APP
當(dāng)前位置:新聞 > 社會新聞 > 社會新聞更多頁面 > 正文

搜狗發(fā)布AI合成主播 連唇形、面部表情也能完全吻合

搜狗發(fā)布AI合成主播 連唇形,、面部表情也能完全吻合
2018-11-08 14:27:07 騰訊科技

原標(biāo)題:搜狗發(fā)布AI合成主播 背后技術(shù)“搜狗分身”同時浮出水面

騰訊科技訊(孫宏超)11月8日消息,,在11月7日開幕的第五屆世界互聯(lián)網(wǎng)大會上,搜狗宣布其與新華社合作開發(fā),、全球第一個全仿真智能合成主持人——“AI合成主播”正式亮相,,同時搜狗未來人工智能的核心技術(shù)“搜狗分身”也獲得了廣泛關(guān)注。

據(jù)介紹,,觀眾只要向“AI合成主播”輸入一句既有的新聞文本,,屏幕上就會出現(xiàn)一位合成的新華社新聞主播,他不僅會用和真人一樣的聲音進(jìn)行播報,,連唇形,、面部表情也能完全吻合。這樣的視頻效果,,無論看上去還是聽起來,,都與現(xiàn)實中的新華社主播的本人播報沒有太大差別。

在合成主播的開發(fā)過程中,,搜狗公司的相關(guān)技術(shù)人員同新華社的新聞主播一同進(jìn)行了各種探索嘗試,,在“搜狗分身”技術(shù)的支持下,通過人臉關(guān)鍵點(diǎn)檢測,、人臉特征提取,、人臉重構(gòu)、唇語識別,、情感遷移等多項前沿技術(shù),,并結(jié)合語音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練后,,“AI合成主播”正式誕生,。

同時,據(jù)搜狗公司智能語音事業(yè)部總經(jīng)理王硯峰介紹,,“搜狗分身”技術(shù)是搜狗人工智能的核心技術(shù)之一,,誕生于搜狗“自然交互+知識計算”這一人工智能理念之下。該技術(shù)能夠利用搜狗的AI能力,,從圖像表情,,聲音語言習(xí)慣,邏輯思維等層面對AI進(jìn)行擬人化訓(xùn)練,,然后克隆制造人類的AI分身,,進(jìn)而幫助人類提高信息表達(dá)和傳遞的效率。該技術(shù)是支撐“AI合成主播”正常運(yùn)轉(zhuǎn)的核心,。

會后,,搜狗公司CEO王小川接受騰訊科技等媒體采訪,以下為部分采訪實錄(在不改變原意情況下有所刪減)

媒體:像剛剛主持人說的,,會不會他就失業(yè)了,?

王小川:首先AI技術(shù)分為了感知技術(shù)和認(rèn)知技術(shù)。感知是有聲音的,、有圖像的,,感知技術(shù)方向上,機(jī)器基本有機(jī)會可以做到跟人一樣好,。但是在認(rèn)知技術(shù)方向上,,機(jī)器背后的推理、知識,、思考,,以語言為核心的邏輯性的東西,機(jī)器的處理能力是有限的,,這種情況下,,涉及到人的高級活動的時候,機(jī)器現(xiàn)在是做不到的,。

媒體:以后有可能做到嗎,?

王小川:現(xiàn)在沒有這個技術(shù),。如果是在垂直領(lǐng)域里,特別細(xì)分的特定領(lǐng)域,,像法律或者醫(yī)療,,面越窄,機(jī)器更有機(jī)會在這個特定的領(lǐng)域里做到更接近人類,。不能把AI當(dāng)成大的詞兒,,AI里面有很多內(nèi)涵。在這種情況下,,把AI上升到跟人們認(rèn)知相關(guān)的事情,,機(jī)器在里面只能做輔助,是沒有辦法取代人類的,。但如果只是聽個聲音,,看個圖像,現(xiàn)在像Face++或者商湯做的事情,,機(jī)器就已經(jīng)能取代一部分感知上的事情了,。對于人類的高級活動,現(xiàn)在機(jī)器取代人類是沒戲的,。高級活動叫認(rèn)知,,低級活動叫感知,目前的機(jī)器可以做到感知,,這是先給大的框,。

媒體:您怎么看AI合成主播,人類跟機(jī)器是怎樣的關(guān)系,?取代還是配合,?

王小川:名字我們跟新華社定了,叫AI合成主播,。這項技術(shù)里面涉及三個合成:聲音合成,、表情合成、唇型合成,,特別是唇型合成,。因為本身虛擬這個詞,畫個卡通畫也叫虛擬,,如果叫虛擬主播的話別人容易較真,,說這個東西怎么叫虛擬,所以我們叫AI合成主播,。AI合成主播和人類的關(guān)系是取代還是配合這個問題的話,,如果只是感知問題,不涉及到后面的語言組織、撰寫深度稿件的話,,它是可以去跟真人接近的,。

媒體:意思是人可以做寫新聞稿的人,剩下的事就交給它,?

王小川:如果想做到惟妙惟肖,,比如什么地方該發(fā)怒,什么地方該柔情,,這樣的事情機(jī)器很難做到,因為稿子的內(nèi)容機(jī)器是不懂的,,它不理解真正的含義,。如果只用視覺和聽覺表達(dá),AI合成主播可以接近真人,,一旦與內(nèi)容有高度相關(guān)性,,機(jī)器的作用就會弱一些。

媒體:搜狗的AI合成主播跟微軟小冰做的主播有什么差異,?

王小川:搜狗的AI合成主播是真人的形象,,小冰給的是虛擬形象,聲音跟真人不一樣,,也沒有表情和唇型的變化,。AI合成主播真的是合成之后,能夠起到真人的替身作用,。

媒體:這個技術(shù)除了在主播領(lǐng)域,,還有哪些其他場景的應(yīng)用?

王小川:比如說現(xiàn)在我們跟凱叔講故事談,,以前是凱叔去講故事,,以后可能就會變成你的爸爸媽媽給你講故事。在我們大的理念下,,主播是其中一塊,,之后要把它個性化,變成其他的人,。

媒體:搜狗現(xiàn)在有考慮進(jìn)一步怎么去做么,?

王小川:未來搜狗輸入法的方向,我曾經(jīng)講過是叫輔助對話,,就是幫你去說話,。去年搜狗上市的時候,我一天收到三千條祝福的微信,,如果我用語音回,,我也要說三千條,而且發(fā)信息的人不一樣,有的是記者朋友,,有的是老同學(xué),,那么回復(fù)內(nèi)容也不一樣,這個時候你就需要個分身了,,它能用你的個性幫你去說話,,幫你去做機(jī)械性的、重復(fù)性的勞動,。搜狗有兩個理念,,一個理念就是讓機(jī)器能夠成為你的分身,一個是讓機(jī)器成為你的助理,。搜狗搜索做問答就是要成為你的助理,。這是搜狗AI兩個核心的方向。

媒體:在語言這塊,,門檻并不高,?

王小川:語言這塊門檻挺高,高德地圖合成林志玲的聲音的時候,,林志玲是讀了非常多句話的,,不是固定的“向左轉(zhuǎn)向右轉(zhuǎn)”的句子。搜狗現(xiàn)在只要求十幾分鐘的數(shù)據(jù)量就夠了,,可以用很小的數(shù)據(jù)合成一個人的聲音,。

媒體:為什么?是有什么算法的突破嗎,?

王小川:所謂小數(shù)據(jù)其實也是離不開大數(shù)據(jù)的,,機(jī)器要看很多聲音,然后找到這個人的聲音特征跟別人有什么不一樣,,所以小也是大,。我們以前說嬰兒學(xué)習(xí)很快,看一張圖片就會了,,其實他是看了很多圖片之后再看一張圖片,。所以對特定領(lǐng)域來說,數(shù)據(jù)越小越好,,但是要掌握足夠多的通用領(lǐng)域的數(shù)據(jù),。因此這里涉及到的技術(shù),既要有海量聲音的訓(xùn)練,,同時能做到用更少的聲音數(shù)據(jù)訓(xùn)練特定人的聲音,,這是有技術(shù)壁壘的。

媒體:合成主播商業(yè)化的節(jié)奏會不會比之前做的其他AI落地的項目要快一點(diǎn),?

王小川:最快的話,,第一是翻譯,翻譯是剛需。不只是翻譯寶,,搜狗搜索支持用中文搜索全球信息,,用中文閱讀全球信息,這是應(yīng)用了翻譯技術(shù)的,。翻譯是搜狗的使命之一,,輸入法輸入中文轉(zhuǎn)成外文,搜索能搜外文轉(zhuǎn)成中文,。我們本身是做信息橋梁的公司,,所以翻譯是很重要的,這也是最快落地的技術(shù),。首先是語音,、圖像,然后是翻譯,,翻譯之后是分身,,訓(xùn)練一個人的數(shù)據(jù)之后,,幫助他去做表達(dá),。最后是問答,就是個人助理,,幫你回答問題,。對于消費(fèi)者而言,這是技術(shù)演進(jìn)的路線,。

媒體:搜狗做通用訓(xùn)練的時候,,語音素材是怎么拿到的,是平常語音輸入的時候的語音嗎,,還是怎么樣的,?

王小川:我們有很多合作,很多標(biāo)注,。比如現(xiàn)在我們跟喜馬拉雅有合作,,他們讀的東西我們可以拿過來用,盡可能多的采集不同的語音,。

媒體:除了醫(yī)療以外,,搜狗也在做法律相關(guān)的內(nèi)容搜索,對這種領(lǐng)域的選擇標(biāo)準(zhǔn)以及下一步擴(kuò)展垂直搜索的規(guī)劃是什么,?

王小川:首先最大的是醫(yī)療,,法律是中間有明顯的知識結(jié)構(gòu)化能力在,這個知識邊界是相對有權(quán)威和規(guī)范的,,在這種情況下,,我們可能去做一個選擇。但是醫(yī)療還是遠(yuǎn)遠(yuǎn)優(yōu)于法律的。

媒體:搜狗還會擴(kuò)展其他領(lǐng)域嗎,?

王小川:其他領(lǐng)域,,百科我們還是想努力能把它做得更加權(quán)威和真實??傊行╊I(lǐng)域,,互聯(lián)網(wǎng)的信息不夠好,我們希望能夠在里面能用新的方法做好,,用AI技術(shù)或者用不同的方式,。

媒體:為什么要做搜狗號,這塊內(nèi)容是怎么樣的,,為什么要介入這個市場,?

王小川:因為今天做平臺,就像頭條或者像抖音,,一頭是用戶在里面去消費(fèi),,一頭生產(chǎn)方是合作關(guān)系,這種合作不是光簽合同的,,確實能夠做個平臺,,把它放進(jìn)來了,但搜索引擎不是,,搜索的模式是抓來的,,頭條號或者說像這樣的搜狗號很大意愿是希望增加內(nèi)容的合作比例,是更規(guī)范,,比如這里大家廣告做多少,,有一定的互相的共識,這樣能夠提升合作的內(nèi)容和質(zhì)量,,讓用戶體驗更好,。

媒體:會覺得做得晚嗎?

王小川:再早對我們講也不會成為戰(zhàn)略上的突破點(diǎn),。

媒體:這種信息流的改變會給搜狗帶來更大的營收嗎,?

王小川:會有一些,信息流廣告主要是基于APP,,搜狗APP或者瀏覽器,,能有些補(bǔ)充。如果APP量特別大,,收益是大的,。

媒體:之前您說一直刷抖音,刷頭條,,很容易沉迷進(jìn)去,,搜狗號能不能改變這件事情,?

王小川:我們做搜狗號很大層面是為搜索服務(wù)的,而不是只說為做信息流這件事情,。第二,,有些東西改不改變,比如游戲,,我們就不做了,,對我們而言,從我們興趣愛好經(jīng)驗上不是游戲,,游戲一樣,,滿足你沉迷在里面,一直獲得虛擬世界,,有太虛幻景表達(dá)這樣的概念,,人是需要的,但是怎么去引導(dǎo),,我們沒有這方面創(chuàng)造引導(dǎo)能力,,我們愿意把我們的優(yōu)勢發(fā)揮在我們自己擅長的地方上,我們讓信息表達(dá)更加簡單,,我們做翻譯,,我們在中間去做問答技術(shù)。

媒體:搜狗搜索以后在流量渠道或者獲客層面有什么樣的想法,?

王小川:渠道方面有兩個事是要突破的,,一個地方是利用自有的流量渠道,,比如用戶在輸入法輸入的時候,,如果甄別到他有這樣的意圖,我們能直接給他提供更好的信息滿足他,,甚至給別人做分享,,這個事情上我們還有大的空間提升的,搜索跟輸入行為的連接,,第二我們希望在搜索結(jié)果里,,能有更好的差異化或者權(quán)威性,就像之前做的微信內(nèi)容,,現(xiàn)在我們是著力在強(qiáng)調(diào)醫(yī)療健康內(nèi)容,,希望內(nèi)容上有差異化,使得用戶變成主動使用,,而不是靠合作的,,QQ瀏覽器或者手機(jī)廠商,這樣的話成本會降下來,。

媒體:搜狗AI方面戰(zhàn)略還是比較聚焦的,,有沒有考慮相關(guān)多元化或者更多AI的軟件或者科研或者硬件,?

王小川:不考慮,我覺得我們已經(jīng)張得很開了,,我們在信息文明時代核心就是對知識或者對語言的理解,,做AI我認(rèn)為要滿足幾條,今天說AI是屬于大公司做,,大公司有幾個,,第一個有場景,有數(shù)據(jù),,所以你做AI,,如果你沒場景,沒有數(shù)據(jù),,只做技術(shù),,這件事情是很困難的,我們數(shù)據(jù)和場景是在用戶表達(dá)和信息獲取里,,在輸入和搜索里,,所以我們圍繞場景做這件事情。第二,,中間是需要在這里面有持續(xù)的投入,,投入里很多創(chuàng)業(yè)公司或者沒有商業(yè)模式的公司,它今天投這樣,,如果哪天市場沒打開,,那可能這個東西就掉下去,我們是有足夠資金去投,,但是也希望跟可見的商業(yè)價值去匹配,,我們做翻譯已經(jīng)沒有考慮商業(yè),已經(jīng)在拓展,,我們最近一共支持500場同聲傳譯,,我們已經(jīng)努力往外拓展的時候,往外拓展不是考慮商業(yè)問題,,還是圍繞我們的使命來進(jìn)行,,就是表達(dá)和獲取信息更簡單,以及未來讓機(jī)器部分取代人或者給人提供服務(wù),。

媒體:單純同傳這個問題,,機(jī)器有沒有可能取代人?

王小川:不能,,做不到,。如果用好的人,機(jī)器是趕不上的,,但是有很多地方是因為你沒有優(yōu)秀的同傳或者出國旅游沒法給一個人配一個人,,這種情況下,,機(jī)器可以去作用,翻譯往簡單走是重復(fù)性勞動,,但是真的好的翻譯是有知識,,有思考的,你讓他思考的東西,,機(jī)器就沒人強(qiáng),,開放性思考,如果只是棋盤上封閉思考,,機(jī)器下圍棋,,可以干,但是開放性的環(huán)境,,機(jī)器是不夠的,。

媒體:會考慮在多媒體搜索上有一些布局嗎?

王小川:搜索核心是以語言為核心的,,如果離開了文字,,只是畫圖,這是不夠的,。我們是有圖像搜索能力,,有聲音去做搜索,但核心要點(diǎn)是在閱讀理解,,這個事情不是我們最受益或者是我們突破點(diǎn)最大的地方,。我們突破是在語言的理解里面,這個更難,,比5G還難,。

媒體:從硬件的產(chǎn)品上,未來有可能做OEM嗎,?

王小川:有可能,,但是現(xiàn)在通過自己的東西把它給做透了,,再開放,,就像亞馬遜一樣,之前做echo的音箱,,也是自己做,,自己做才有機(jī)會跟別人一塊玩,否則第一天就是B2B2C,,你不知道客戶在哪兒,,或者跟客戶沒有形成正面的習(xí)慣,to C公司不夠的,,先把自己做透,,然后發(fā)現(xiàn)能力不夠了,,再開放。

媒體:要到達(dá)真正的AI個人助理,,還要多久,,還要突破哪些東西?

王小川:我們之前20年,,我們稱之為信息時代,,每個時代都有它的起點(diǎn),就像最早輪子發(fā)明,,有了農(nóng)業(yè)時代,,輪子發(fā)明,可以推著小車去種地了,,這是原始走過來,。后來有蒸汽機(jī),進(jìn)入工業(yè)時代,,后來有了計算機(jī)和互聯(lián)網(wǎng),,我們進(jìn)入信息時代,信息時代大的特點(diǎn)就是能夠跨地域,,跨時間,,時空跨越進(jìn)行信息的傳遞。像e—mail或者IM就能跟大家進(jìn)行遠(yuǎn)程的交流,,或者把信息放在網(wǎng)上,,然后你用搜索檢索到,在這種情況下,,輸入法,、搜索引擎和通訊軟件是對新時代最核心的應(yīng)用,你剛才問的問題是AI個人助理往下20年里很重要的事情,。

媒體:它真的到能夠很好地幫助人,,協(xié)助人的階段,還要多久,?

王小川:垂直領(lǐng)域慢慢就有了,,真的輔助人,給普通人做翻譯,,也是AI助理,,以前靠真人,現(xiàn)在靠機(jī)器能做一部分了,,再往下,,像我們垂直場景里,我們也在做機(jī)器幫你做自動回復(fù),,給銷售公司或者客服公司在用,。他已經(jīng)開始在做,,但是他需要領(lǐng)域支持,是要靠人把這種知識進(jìn)行訓(xùn)練之后再做,,不是只有思考能力,。所以往下是靠數(shù)據(jù)驅(qū)動做這件事情,你讓它只會幫助人,,他現(xiàn)在沒有取代人,,現(xiàn)在看不到技術(shù)取代人,但是幫助人的事已經(jīng)開始發(fā)生了,。

媒體:這里是賣解決方案嗎,?

王小川:我們是to C,我們會把它用到消費(fèi)者,,讓消費(fèi)者使用更方便,。

媒體:AI合成主播或者未來做的AI合成影像,未來的使用場景是什么樣,?

王小川:合成主播,,今天給我們核心能力要做對話和問答,同時可以互動的,,因此在醫(yī)療,,在法律,在一些人機(jī)交互里,,承擔(dān)了一個讓人更友好溝通的角色,,但真正服務(wù)內(nèi)容是去要面對內(nèi)容的,就是把服務(wù)帶進(jìn)去,。另外一種場景就是今天看到一種,,交給新華社,他們有編輯在里面寫出稿子來,,機(jī)器只是讀的角色,,是單向的,不是雙向的,,所以他只是自然交互,,在知識計算里還沒有把這個能力放進(jìn)去。

媒體:搜狗未來的戰(zhàn)略是AI+IoT(物聯(lián)網(wǎng)),,可以這么理解嗎,?

王小川:IoT只是一個界面,我不能把IoT放在這么高的高度去,,AI是核心,去幫助人表達(dá)獲取信息,,IoT只是中間幫助你表達(dá)獲取信息的入口,。

媒體:搜狗為什么不做智能音箱,?

王小川:這個產(chǎn)品的核心點(diǎn)在于足夠低價便宜,不是靠技術(shù)驅(qū)動的,,沒有這方面的能力,,只能靠資金驅(qū)動,沒啥AI在里面,。相當(dāng)于虧著錢賣,,像打車外賣是燒錢的活,我們其實是不會做的,,沒那個能力,。

媒體:人工智能賺錢的拐點(diǎn)是什么時候?

王小川:人工智能是項技術(shù),,你說技術(shù)賺錢,,這個詞是不成立的,你要變成某個業(yè)務(wù)才能變成賺錢的事情,。而且人工智能技術(shù)尤其還需要數(shù)據(jù)驅(qū)動,,所以小公司更困難。它是一個場景,,能做附加的東西,,這個不是從拐點(diǎn)上來看的。所以這是社會大分工,、讓數(shù)據(jù)交換,,讓小公司給大公司提供技術(shù)服務(wù),看現(xiàn)在的趨勢,,人工智能還真是大公司的事,。另一條,如果政府做了很大的數(shù)據(jù)開放,,可能會帶來新的投資機(jī)會,,等于小公司有機(jī)會獲得數(shù)據(jù)了,如果政府開放數(shù)據(jù),,可能會帶來新的機(jī)會,,這個事不知道會不會發(fā)生。

媒體:科創(chuàng)板塊有一個新的進(jìn)展,,會不會投資一些公司,?會不會自己上。

王小川:我們模式不會變的,,我們不會投資賺錢,,這不是我們干的活,我們做不過其他專業(yè)機(jī)構(gòu)的。談到我們自己,,因為我們在美國已經(jīng)上了,,國內(nèi)環(huán)境,科創(chuàng)板塊如果做成功了,,有巨大的意義,。但是這東西就看政策,只知道這個事發(fā)生了,,但是最后怎么演化,,希望它成功,對中國是革命性的意義在,。

媒體:在選擇2C智能硬件的產(chǎn)品的時候,,您覺得現(xiàn)在還有哪些場景不被滿足的?

王小川:第一,,需要有更好的錄音筆,,真的是給老師,自媒體的人做演講的時候或者雙方談合同的時候,,只要有商務(wù)活動都能用到,,這是需要做的一件事情,但還不是品牌性的產(chǎn)品,,要是能力上有升級,,會有新的產(chǎn)品,我認(rèn)為努力帶來大家一起新的技術(shù)的思考,,也可能是跟硬件廠商合作,。

媒體:在數(shù)據(jù)及隱私保護(hù)這塊有什么新的變化嗎?

王小川:第一尊重隱私,,保護(hù)隱私這是屬于很嚴(yán)肅的話題,,得去做遵守,是符合法律和用戶的文化,,但是我們知道如果一邊倒,,隱私不可侵犯,這個視角是特別有害的,,因為只有別人了解你的個性,,才能給你更好的服務(wù)。所以這種情況里,,從社會整體的價值看,,個人能夠把自己一些數(shù)據(jù)開放開,讓企業(yè)知道,,可以提供更好的服務(wù),,這種事情在安全情況下,,該去倡導(dǎo)的一件事情,所以歐盟的做法,,最后會把自己坑死掉的,,用戶消費(fèi)者也不買賬,,最后沒能服務(wù)升級,,倒變成整體落后了。

媒體:當(dāng)搜狗新開一項業(yè)務(wù)的時候,,什么是取決于這個業(yè)務(wù)要不要開,,最大的思考維度是什么?

王小川:第一個,,我們知道未來趨勢是什么,,這個得知道,這是一個源頭,。但是第二個事情為什么是我們做,,我們在做這事的時候,跟我們價值觀也好,,跟我們的能力也好,,跟我們當(dāng)前的狀態(tài)也好,有什么樣的關(guān)系,。為什么是我,,這個事情也是很嚴(yán)肅的事。這個事最好有全局的使命,,如果這是在趨勢里,,在你的使命里,你會努力去做,。

媒體:在搜狗公司您對自己的定位更像職業(yè)經(jīng)理人還是聯(lián)合創(chuàng)始人,?

王小川:其實我雙重屬性都有,我同時承擔(dān)著創(chuàng)始人的精神作用和引領(lǐng)方向,,但是因為股權(quán)關(guān)系,,我又得像職業(yè)經(jīng)理人干活,這個是挺獨(dú)一無二的狀態(tài),。

關(guān)鍵詞:

相關(guān)報道:

    關(guān)閉
     

    相關(guān)新聞