人工公司-比如搜狗將語音變聲技術、AI合成主播技術等與行業結合

  • 时间:

【科创板火速开板】

也就是說,一個好的信號是,未來AI換臉、甚至語音合成技術的應用或將受到法律管制。

據介紹,該技術使用百度端到端語音風格分離和建模方案,使用多組神經網絡對語音的不同維度,例如音色、情感、風格等,進行獨立的編碼建模,從而指導最終合成。

這是搜狗最新的語音合成技術,可以實現把任何人的聲音轉化成特定聲音,秒變林志玲、馬雲的聲音都可以。王小川表示,這不只是一個簡單的語音合成,可以把語音語調情感做遷移。

這原本是一則惡搞或者純娛樂視頻,但是,這一操作背後,卻讓不少人擔憂技術會被濫用,如果沒有使用在正確的地方,將涉及版權、肖像權、安全等問題。

他表示,對於音頻用戶來說,同樣的內容,讀稿和講述的收聽體驗會有很大區別,只有最真實的人聲才能引發深刻的情感共鳴,也是音頻的價值所在。

百度也有相關技術的落地應用,今年5月初,在中央電視臺公益節目《等著我》中,百度大腦基於智能語音技術,合成了已故老兵的聲音,幫助分別64年的老戰友實現“重逢”。

AI技術背後的人文思考其實,AI技術背後的“以假亂真”現象不只出現在聲音領域,近日三星的一項技術應用也引起人們的註意。

不過,目前技術的發展仍然是走在倫理、法律的前面。周鴻禕曾在今年5月份的世界智能大會上提到過,在AI領域,如果沒有人文的思考,可能設計出來的系統就是一個悲劇。

此前,劉慶峰還提到,人工智能領域要技術合作,更要法律倫理的合作。

在談到語音cos時,牛森指出,這件事在實操層面有非常多的硬傷,比如合成後的音頻與真實的人聲在情緒和情感表達上肯定是做不到完全一致的。

“你看到的是劉慶峰,但聽到的是老羅的聲音。”臺上的劉慶峰表示,這是公司最新的實時變聲技術。據悉,這項新的語音合成技術只需要1分鐘的聲音樣本,就可以模仿任何人說話。

3、變聲後的聲音在微信、QQ等App中使用,不能轉發複製,能夠做到對發送者追蹤溯源。

不止科大訊飛,也是在近期,搜狗CEO王小川在一場大會上展示了搜狗變聲功能,通過手機軟件,王小川模擬了高曉松和東北妹子的聲音,引得現場連連發笑。他隨後展示了歌曲中的聲音替換,據介紹,系統先用14分鐘對他的語音做了訓練,然後把音色做遷移。

據外媒報道,三星位於莫斯科的人工智能實驗室研究人員,基於大量動圖和視頻素材,以及“深度捲積神經網絡”訓練,通過AI技術準確識別某些面部特征,可以將靜止圖像變為動圖甚至視頻。

在實驗中,研究人員以愛因斯坦、瑪麗蓮·夢露甚至蒙娜麗莎的靜止圖像為基礎,分別生成了他們正在說話的視頻,不過目前視頻質量較低。

另一方面,未來可能存在的技術漏洞、技術濫用等風險也不容忽視。有網友就指出“小心被用於電信詐騙”“以後可能會收到‘馬雲’的電話”……

互聯網技術在悄無聲息地改變我們的生活,對人工智能企業來說,語音識別技術的廣泛應用已不是難事。但背後的倫理道德和安全隱患,或將成為伴隨AI技術發展不容忽視的一個問題。

此前,王小川在媒體採訪中也提到過人工智能立法:在當前人工智能發展的階段,儘快根據技術發展不斷調整和完善,是應對人工智能所帶來的法律和倫理風險最為切實的手段。

值得註意的是,在4月全國人大常委會審議的《民法典人格權編(草案)》里,正式加了一條:任何組織和個人不得以利用信息技術手段偽造的方式侵害他人的肖像權。

據瞭解,在一些音頻平臺上,語音合成技術主要用於兒童類節目,其他的內容上,AI模擬效果沒那麼好,尚未被廣泛應用。

在此之前,AI換臉也曾在社交媒體上引起熱議。有人將94版《射雕英雄傳》里朱茵扮演的黃蓉換上了楊冪的臉,網友直呼“毫無違和”“以假亂真”,甚至調侃“老劇新拍最省成本的方式”。

語音合成技術在實操層面還有非常多的硬傷

而在道德和安全層面上,牛森認為,首先要從技術上對人聲和合成音進行篩選確認,從權利上需要明確版權鏈條,任何未經授權的合成音頻屬於侵權違法行為,“作為平臺方我們會進行嚴格的版權和品質把控”。

在接受新浪科技採訪時,蜻蜓FM大教育品類負責人牛森表示,語音合成技術在音頻領域會大大降低文字內容轉向音頻的人員、時間和經濟成本。

而不管是AI變聲,還是AI換臉,高科技迅速發展的同時,也給法律規則帶來新的挑戰。

今年,很多AI公司發力語音合成在變聲、語音cos等場景下的應用,將真人發出的聲音轉化成特定聲音。

語音合成技術在商業化落地方面,可見的在諸如語音交互、有聲讀物、新媒體、智能客服、泛娛樂等領域被應用。

一音頻領域業內人士認為,對於音頻作為交互方式的工具型產品應該是有用的,但對於音頻作為內容載體的線上音頻平臺,正面意義有待觀察。

搜狗透露,為了保證這項技術不被有心之人濫用,公司作了嚴格的管理和限制:

這些AI技術落地應用的背後,一方面體現了AI技術應用的進展,和為社會帶來的普惠價值理念。比如搜狗將語音變聲技術、AI合成主播技術等與行業結合,在媒體、教育、內容製作、旅游等場景結合,將會帶來更大的價值想象空間。

對於語音合成存在的安全隱患,在發佈了變聲技術後,劉慶峰現場曾強調:人工智能要持續發展,最核心的是它的價值觀如何陽光健康與人為善,所以像變聲技術這樣一個黑科技,我們顯然是不會輕易在各種App中對外開放的,一定是要有一種健康、安全又有趣的方式來跟這個世界來對接。

對於安全問題,搜狗公司向新浪科技表示,“技術是一柄雙刃劍,可以用來造福也可能帶來災難,搜狗堅守科技向善。變聲技術是當下人工智能的前沿應用,基於語音表徵學習、遷移學習技術,可以將任何人的聲音轉換成特定人的聲音(Any-to-One)。搜狗在這方面取得突破,率先進入實用階段。這項技術還可以應用到影視配音,家人陪伴等場景中幫助人們提升工作效率和生活幸福感。”

目前,AI技術的落地應用,正在不斷打通虛擬世界和現實世界的界限,我們需要思考的是,如果未來這些技術越來越強大和普及,明辨真假將會變得越來越困難,技術發展的同時又該如何把控安全隱患問題?

進入2019年,AI技術的應用落地越來越多樣化。科大訊飛、搜狗等技術公司相繼發佈了語音合成技術的應用。通過AI手段,用戶可以一秒變聲社會名人或者其他想模仿的聲音。

▲王小川其實,語音合成早就不是新技術,之前,我們見到更多的是將文字轉化為聲音,比如在導航、轉寫、智能音箱、Siri等智能語音助手等方面的應用,並不是真人在說話。

此外,在一些行業,這樣的技術也將帶來新的思考。比如一些音頻會被篡改,引發社會問題;在未來的影視劇中,可能出現明星替身AI換臉、AI合成的配音等現場。雖然這些技術,一定程度上節約了影視劇製作成本,加快影視劇製作的進程,但在道德和人文層面釋放的價值觀還需要商榷。

據瞭解,逼真的語音合成技術,背後是神經網絡和機器學習的支持。神經網絡模擬電信號在人腦神經元之間的傳遞過程,對輸入數據進行處理,它利用分層的神經元,從大量樣本數據中總結出共同特征。

“嗨,大家好,今天非常開心,來到科大訊飛新品發佈會,一直好喜歡科大訊飛哦……”

2、變聲功能的所有目標音色都由搜狗定義,不支持用戶隨意模仿。

這是發生在科大訊飛2019新品發佈會上的一幕,科大訊飛董事長劉慶峰通過技術,現場模擬了單田芳、林志玲和羅永浩的聲音來做開場白。尤其當羅永浩聲音響起的時候,不少人以為老羅到了現場。

在美國,就已經有人利用人工智能將色情視頻里的女主角換成女明星。這一技術正引發恐慌,遭到查封。

也就是說,未來隨著AI圖像生成技術的進步,可以僅僅通過一張照片就能生成虛假視頻。

如果有一種技術可以一秒複製或模仿你講話,你會感到驚喜還是驚恐?

1、搜狗不向第三方輸出變聲技術,確保該技術的可控性和安全性。

實時變聲技術受AI公司熱捧一秒可換聲

而這類技術早在兩年前國外技術圈就存在和流傳,此前也有網友將主播的臉換成明星的。不過,受多種因素限制,這一技術真正落地應用還比較少見。

因此,對企業來說,在不斷尋求技術突破和商業價值的同時,也應該樹立對技術安全的責任心。

目前,在搜狗輸入法中,用戶可以將自己的聲音自由變換成喜歡的聲音,在微信、QQ、陌陌等主要社交場景均可使用。搜狗提供了明星、卡通人物、游戲IP、方言等幾個類別供19種特定聲音。