1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

搜狗-清華天工研究院提出ChoreoNet模型:讓數(shù)字人聞聲起舞

 2020-08-22 08:42  來(lái)源:A5專欄  我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

近日,搜狗分身技術(shù)團(tuán)隊(duì)聯(lián)合清華大學(xué)天工智能計(jì)算研究院賈珈老師團(tuán)隊(duì)共同發(fā)表的數(shù)字人技術(shù)論文《ChoreoNet:基于舞蹈動(dòng)作單元的音樂(lè)-舞蹈合成框架》被2020國(guó)際頂級(jí)盛會(huì)ACM Multimedia錄用為長(zhǎng)文。

(截圖來(lái)源:ACM Multimedia官網(wǎng)https://2020.acmmm.org)

ACM Multimedia專注于推進(jìn)多種媒體的研究與應(yīng)用,涉及人工智能、計(jì)算視覺(jué)、數(shù)據(jù)科學(xué)、深度學(xué)習(xí)、人機(jī)交互等多個(gè)新興領(lǐng)域,是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的多媒體領(lǐng)域唯一A類國(guó)際學(xué)術(shù)會(huì)議,被認(rèn)為是多媒體技術(shù)領(lǐng)域奧運(yùn)級(jí)別的盛會(huì)。雖然鼓勵(lì)來(lái)自全球的各類機(jī)構(gòu)分享、交流最新研究成果,但該會(huì)議論文接受率很低,只有對(duì)日常生活和技術(shù)突破具有巨大影響潛力的研究項(xiàng)目才會(huì)被通過(guò)。

“攻克難關(guān)”備受認(rèn)可

音樂(lè)和舞蹈是與人們生活密不可分且高度相關(guān)的兩種藝術(shù)形式,近年來(lái),“樂(lè)舞合成”也是業(yè)內(nèi)高度關(guān)注的領(lǐng)域。不過(guò),早期合成基于相似度檢索進(jìn)行,合成結(jié)果的多樣性有限,而目前通行的方法是利用神經(jīng)網(wǎng)絡(luò)模型,將音樂(lè)特征映射到人體骨骼關(guān)鍵點(diǎn),但由于人類骨架關(guān)鍵點(diǎn)的高度冗余和帶噪特性,逐幀關(guān)鍵點(diǎn)預(yù)測(cè)非常困難,導(dǎo)致合成質(zhì)量有限,成為困擾業(yè)內(nèi)人士的一大“難關(guān)”。

搜狗分身技術(shù)團(tuán)隊(duì)與清華天工研究院賈珈老師團(tuán)隊(duì)在論文中提出了一個(gè)極具創(chuàng)造性的解決方案,該方案將人類編舞知識(shí)融合到樂(lè)舞合成框架中,設(shè)計(jì)多個(gè)舞蹈單元(CAU),并使用CAU序列預(yù)測(cè)模型,開(kāi)發(fā)了一個(gè)像人類一樣根據(jù)音樂(lè)編排舞蹈動(dòng)作的舞蹈合成框架——ChoreoNet。通過(guò)實(shí)驗(yàn)驗(yàn)證和數(shù)據(jù)對(duì)比,相較于基線法,ChoreoNet性能更好,合成動(dòng)作也更加自然逼真,無(wú)論是音樂(lè)匹配度、動(dòng)作自然度還是其他方面,表現(xiàn)都更加優(yōu)秀。

(截圖來(lái)源:ChoreoNet論文)

此次,該論文被ACM Multimedia認(rèn)可并錄取為長(zhǎng)文,不僅代表了搜狗AI分身技術(shù)在身體動(dòng)作及姿態(tài)生成方面的突破,也從側(cè)面印證了搜狗強(qiáng)大的AI技術(shù)實(shí)力和能夠?qū)崿F(xiàn)持續(xù)輸出的創(chuàng)新能力。值得注意的是,搜狗是在業(yè)內(nèi)率先選擇通過(guò)音頻來(lái)驅(qū)動(dòng)身體動(dòng)作作為研究課題的先行者。

“死磕技術(shù)”引領(lǐng)方向

在搜狗的AI戰(zhàn)略版圖中,“自然交互+知識(shí)計(jì)算”是核心方向,技術(shù)研究和推動(dòng)技術(shù)向產(chǎn)品的快速轉(zhuǎn)化均以此為基礎(chǔ)和方向,而搜狗“分身”是其中關(guān)鍵和重要一環(huán)。

在2018年發(fā)布全球首個(gè)AI合成主播之后,搜狗分身持續(xù)研究并打造更加逼真自然的數(shù)字人能力,在2D/3D數(shù)字人領(lǐng)域構(gòu)建了音畫(huà)同步、逼真的面部表情唇動(dòng)生成及驅(qū)動(dòng)能力。此外,如何能夠讓數(shù)字人更加自然并且富有表現(xiàn)力也是搜狗分身的重點(diǎn)研究方向,其中身體動(dòng)作以及姿態(tài)的表達(dá)至關(guān)重要。搜狗在首代AI合成主播問(wèn)世后不到3個(gè)月的時(shí)間,便成功推出與“坐播”截然不同的“站播”合成主播,今年5月推出的3D AI合成主播不止面部細(xì)節(jié)經(jīng)得起高清鏡頭考驗(yàn),更是實(shí)現(xiàn)了自如行走。本次與清華大學(xué)天工智能計(jì)算研究院的工作選擇了音樂(lè)場(chǎng)景,重點(diǎn)研究如何提升身體動(dòng)作生成及驅(qū)動(dòng)的表現(xiàn)力和自然度,為AI數(shù)字人的技術(shù)探索開(kāi)啟了新方向。

“未來(lái)應(yīng)用”前景廣闊

人工智能是未來(lái)科技的風(fēng)向標(biāo),而5G時(shí)代的到來(lái)又大大加速了這一進(jìn)程。自2018年搜狗推出全球首個(gè)AI合成主播之后,能夠與普通人的生活深度交融并廣泛運(yùn)用于各行各業(yè)的“AI分身”便深受關(guān)注,不少科技企業(yè)躬身入局。

從上文可以看出,搜狗從未停下突破的步伐,從2D到3D、“坐播”到“站播”、從支持單一語(yǔ)種到支持多語(yǔ)種、再到支持互動(dòng)。目前搜狗分身技術(shù)已經(jīng)在司法、傳媒、會(huì)展、藝術(shù)、金融客服等多個(gè)場(chǎng)地落地,為新華社、央視、平安惠普、北京互聯(lián)網(wǎng)法院等打造了多個(gè)AI合成主播、AI合成客服、AI虛擬法官等,也創(chuàng)造了雅妮、新小微、新小浩、新小萌等多個(gè)經(jīng)典AI數(shù)字人形象。

由音頻驅(qū)動(dòng)的數(shù)字人或數(shù)字舞蹈演員,擁有巨大的想象空間和市場(chǎng)化應(yīng)用前景。特別是與搜狗現(xiàn)有3D數(shù)字人的技術(shù)相結(jié)合后,使用場(chǎng)景可以從目前集中的傳媒、金融、法律等領(lǐng)域向影視、娛樂(lè)領(lǐng)域進(jìn)軍,攪動(dòng)萬(wàn)億規(guī)模的市場(chǎng)。

AI為人賦能,這是搜狗人工智能的發(fā)展理念,也是搜狗分身技術(shù)的愿景。作為一項(xiàng)既能解決行業(yè)痛點(diǎn),又能為用戶創(chuàng)造價(jià)值,既能給社會(huì)帶來(lái)變革、又能對(duì)科技產(chǎn)生影響,同時(shí)還能持續(xù)突破和進(jìn)步的前沿技術(shù),搜狗分身的未來(lái),無(wú)疑具備更多的可能性、極大的想象空間。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
人工智能
ai技術(shù)

相關(guān)文章

  • IoT開(kāi)發(fā)者為王,涂鴉智能硬核“靠邊站”

    IoT盛宴:涂鴉向下,產(chǎn)品向上

    標(biāo)簽:
    人工智能
  • IPO觀察丨黑芝麻智能遞表港交所,車芯行業(yè)已邁向量產(chǎn)決戰(zhàn)期?

    雖然我國(guó)汽車芯片行業(yè)還處在發(fā)展初期,但已經(jīng)迸發(fā)出無(wú)限潛力。一方面,智能汽車的發(fā)展不斷帶動(dòng)需求增長(zhǎng);另一方面,政策引導(dǎo)下,汽車芯片企業(yè)持續(xù)搶占高地。對(duì)此,在7月5日-7日舉辦的2023年中國(guó)汽車論壇上,中國(guó)汽車工業(yè)協(xié)會(huì)副秘書(shū)長(zhǎng)李邵華就做出表示,“中國(guó)將成為未來(lái)汽車芯片發(fā)展的集聚地”。車規(guī)芯片行業(yè)近日的

    標(biāo)簽:
    人工智能
  • 匯聚中國(guó)AI頂尖力量 云天勵(lì)飛參與華為AI大模型聯(lián)合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(huì)(WAIC2023)在上海開(kāi)幕,“人工智能大模型”是本屆大會(huì)的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊(duì)”,云天勵(lì)飛作為中國(guó)人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運(yùn)營(yíng)商、科研院所等優(yōu)秀團(tuán)隊(duì)

    標(biāo)簽:
    ai技術(shù)
  • 用友大易:邁入AI招聘2.0時(shí)代,讓人力資源回歸本質(zhì)

    這幾個(gè)月來(lái),以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個(gè)名詞重回C位。過(guò)去在AI1.0時(shí)代,主要通過(guò)訓(xùn)練模型來(lái)實(shí)現(xiàn)圖像識(shí)別、聲音識(shí)別、語(yǔ)言處理等特

    標(biāo)簽:
    ai技術(shù)
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個(gè)新故事。6月29日,涂鴉智能在開(kāi)發(fā)者大會(huì)上,發(fā)布了企業(yè)級(jí)戰(zhàn)略PaaS2.0,希望通過(guò)一個(gè)平臺(tái)+四大開(kāi)發(fā)服務(wù),建立起IoT生態(tài)。對(duì)于這場(chǎng)發(fā)布會(huì),市場(chǎng)的態(tài)度是積極的。美東時(shí)間6月29日收盤,涂鴉智能美股股價(jià)上漲5.6%,來(lái)到1.87美元/股。近日股價(jià)穩(wěn)定

    標(biāo)簽:
    ai技術(shù)
  • 庫(kù)克已納投名狀:蘋(píng)果AI沒(méi)得選,只能選百度

    蘋(píng)果16弄了兩個(gè)版本,一個(gè)是專門給中國(guó)人用的,準(zhǔn)備用百度的AI,還要交錢。第二個(gè)是全世界都可以用的,用了ChatGPT,包括臺(tái)灣、香港、澳門都可以用。以后都這樣了。好,問(wèn)題就出在這,蘋(píng)果和百度的合作出現(xiàn)問(wèn)題了,新聞連起來(lái)看,才能明白其中含義。新聞一:蘋(píng)果正在和騰訊、字節(jié)初步接洽,考慮將二者的AI模型

  • AI加速時(shí)代的“進(jìn)度條”,我們撥動(dòng)了百分之幾?

    “技術(shù)日新月異,人類生活方式正在快速轉(zhuǎn)變,這一切給人類歷史帶來(lái)了一系列不可思議的奇點(diǎn)。我們?cè)?jīng)熟悉的一切,都開(kāi)始變得陌生?!庇?jì)算機(jī)之父約翰·馮·諾依曼曾這樣說(shuō)到。

    標(biāo)簽:
    ai智能
  • AI視頻賽道,要變天了

    “毀滅你,與你何干?”,這是在劉慈欣的科幻小說(shuō)《三體》里用來(lái)形容人類與三體人之間的戰(zhàn)爭(zhēng)的一句話。

    標(biāo)簽:
    ai智能
  • “創(chuàng)造市場(chǎng)”與“算法進(jìn)化”,中美AI競(jìng)速的岔路口

    “人工智能的商業(yè)模式,是要?jiǎng)?chuàng)造一個(gè)市場(chǎng),而非一個(gè)算法”。這是世界AI泰斗MichaelI.Jordan的觀點(diǎn)。而當(dāng)前的全球AI市場(chǎng),占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個(gè)方向,或許已經(jīng)無(wú)法直接進(jìn)行排位先后、優(yōu)

    標(biāo)簽:
    ai智能
  • 智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進(jìn)化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實(shí)在智能最新發(fā)布的實(shí)在Agent7.0,看RPAAgent的迭代升級(jí)抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實(shí)現(xiàn)了流程全自動(dòng)化AIAgent構(gòu)建到執(zhí)行全自動(dòng)化,持續(xù)進(jìn)化RPAAgent再次降低智能體應(yīng)用門檻實(shí)在智能重磅發(fā)布實(shí)

  • 崔大寶:大模型降溫背后的難點(diǎn)、卡點(diǎn)、節(jié)點(diǎn)

    崔大寶|節(jié)點(diǎn)財(cái)經(jīng)創(chuàng)始人進(jìn)入2024年,大模型似乎有熄火之勢(shì):資本市場(chǎng),與之關(guān)聯(lián)的概念炒不動(dòng)了,英偉達(dá)股價(jià)動(dòng)輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費(fèi)市場(chǎng),BATH們的推新活動(dòng)少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場(chǎng)酣仗:自5月15日字節(jié)跳動(dòng)宣布“以厘計(jì)費(fèi)”,打響國(guó)內(nèi)大模型

    標(biāo)簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對(duì)論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒(méi)錄你,錄了個(gè)數(shù)字人。圖片來(lái)源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來(lái)越多的傳統(tǒng)企業(yè)和機(jī)構(gòu)開(kāi)始用上了“數(shù)字員工”。甚至很多中國(guó)人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡(jiǎn)單翻看一下全國(guó)各地事業(yè)單位的“錄

    標(biāo)簽:
    數(shù)字人
  • 來(lái)到IPO關(guān)口,地平線離“三分天下”還有多遠(yuǎn)?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過(guò)中國(guó)證監(jiān)會(huì)IPO備案,擬發(fā)行不超過(guò)11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計(jì)籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級(jí)輔助駕駛(ADAS)和高階自動(dòng)駕駛(AD)解決方案供

  • 機(jī)器人大會(huì)引領(lǐng)產(chǎn)業(yè)動(dòng)向,卓翼飛思繪制無(wú)人系統(tǒng)教科研新藍(lán)圖

    8月21日,萬(wàn)眾矚目的2024世界機(jī)器人大會(huì)暨博覽會(huì)在北京亦創(chuàng)國(guó)際會(huì)展中心盛大開(kāi)幕。這場(chǎng)為期5天,集“展覽”“論壇”“賽事”于一體的機(jī)器人盛會(huì),反映了當(dāng)下機(jī)器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計(jì)數(shù)據(jù),今年現(xiàn)場(chǎng)逛展觀眾高達(dá)25萬(wàn)人次,比去年增加25%。機(jī)器人行業(yè)有多火?看看2024世界機(jī)器人大會(huì)火爆程度便可知

編輯推薦