337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Soul App開(kāi)源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk

0
分享至

近期,Soul App AI團(tuán)隊(duì)(Soul AI Lab)已開(kāi)源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk 。這是首個(gè)能夠?qū)崿F(xiàn)0.87s亞秒級(jí)超低延時(shí)、32fps高幀率,并支持超長(zhǎng)視頻穩(wěn)定生成的14B數(shù)字人模型。

在持續(xù)建設(shè)AI能力的過(guò)程中,Soul團(tuán)隊(duì)始終致力于通過(guò)技術(shù)創(chuàng)新實(shí)現(xiàn)更沉浸、多元的交互體驗(yàn)。此次開(kāi)源新模型,除了在速度、效果、延遲和保真度上表現(xiàn)出色,更重要的是,為行業(yè)提供了切實(shí)可應(yīng)用的業(yè)務(wù)解決方案,推動(dòng)大參數(shù)量實(shí)時(shí)生成式數(shù)字人邁入可具體商用落地階段。



Project Page:

Technical Report:

Source Code: https://github.com/Soul-AILab/SoulX-FlashTalk

HuggingFace:

SoulX-FlashTalk亮點(diǎn):

四大關(guān)鍵指標(biāo),重塑實(shí)時(shí)互動(dòng)體驗(yàn)

0.87s 亞秒級(jí)延時(shí),即時(shí)交互

在實(shí)時(shí)視頻交互中,延遲是決定用戶(hù)體驗(yàn)的核心。SoulX-FlashTalk 憑借全棧加速引擎的極致優(yōu)化,成功將首幀視頻輸出的延時(shí)降至0.87s亞秒級(jí)。

  • “零延遲”即時(shí)反饋: 首次讓 14B 級(jí)大模型數(shù)字人具備了即時(shí)反應(yīng)能力,徹底消除了傳統(tǒng)大模型生成的“滯后感”。
  • 全場(chǎng)景交互: 無(wú)論是視頻通話中的即時(shí)對(duì)答、直播間彈幕的秒級(jí)互動(dòng),還是智能客服的實(shí)時(shí)響應(yīng),均能實(shí)現(xiàn)自然、流暢的深度對(duì)話。

32fps 高幀率,重新定義“流暢”

盡管搭載了 14B 參數(shù)量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高達(dá) 32 FPS。

  • 超越行業(yè)標(biāo)準(zhǔn):遠(yuǎn)超直播所需的 25 FPS 實(shí)時(shí)標(biāo)準(zhǔn),確保每一幀畫(huà)面都絲滑順暢。
  • 大模型,高性能:證明了 140 億參數(shù)大模型在經(jīng)過(guò)深度加速優(yōu)化后,依然可以擁有極佳的運(yùn)行效率。

超長(zhǎng)視頻穩(wěn)定清晰生成,告別畫(huà)面“崩壞”

數(shù)字人視頻最怕在生成中出現(xiàn)人物面部不一致或顯著畫(huà)質(zhì)下降的問(wèn)題。SoulX-FlashTalk 憑借獨(dú)家的自糾正雙向蒸餾技術(shù),解決了這一痛點(diǎn):

  • 無(wú)感糾錯(cuò),畫(huà)質(zhì)無(wú)損:引入多步回溯自糾正機(jī)制,模擬長(zhǎng)序列生成的誤差傳播并進(jìn)行實(shí)時(shí)修正,就像為 AI 裝上了“實(shí)時(shí)校準(zhǔn)器”,主動(dòng)恢復(fù)受損特征。
  • 超長(zhǎng)視頻,穩(wěn)定生成: 不同于傳統(tǒng)的單向依賴(lài),SoulX-FlashTalk 完全保留了雙向注意力機(jī)制,讓每一幀生成都能同時(shí)參考過(guò)去與隱含的未來(lái)上下文,從根本上壓制身份漂移,這意味著在超長(zhǎng)直播中,主播的口型、面部細(xì)節(jié)和背景環(huán)境將始終保持一致,不會(huì)出現(xiàn)模糊或變形。

全身動(dòng)作交互:不只是“口型對(duì)齊”

SoulX-FlashTalk 突破了傳統(tǒng)數(shù)字人僅能實(shí)現(xiàn)面部“對(duì)口型”的局限,帶來(lái)了更加真實(shí)自然的全身肢體動(dòng)態(tài)表現(xiàn)。

  • 全身肢體動(dòng)態(tài)合成: 不同于僅對(duì)臉部進(jìn)行局部重繪的方案,SoulX-FlashTalk 支持受音頻驅(qū)動(dòng)的全身動(dòng)作生成,產(chǎn)生真實(shí)自然的人體動(dòng)態(tài)。
  • 高精細(xì)手部表現(xiàn): 基于14B DiT的強(qiáng)大建模能力,系統(tǒng)能夠有效消除手部畸形與運(yùn)動(dòng)模糊,精準(zhǔn)呈現(xiàn)結(jié)構(gòu)清晰、紋理銳利的手部動(dòng)作細(xì)節(jié)。
  • 靈動(dòng)而不失穩(wěn)定: 在追求大幅度動(dòng)態(tài)表現(xiàn)力的同時(shí),系統(tǒng)依然維持了極高的身份一致性(Subject-C 達(dá) 99.22),實(shí)現(xiàn)了動(dòng)作靈活性與畫(huà)面穩(wěn)定性的完美平衡。

核心方案:

雙向蒸餾+多步回溯自糾正機(jī)制

在行業(yè)中,傳統(tǒng)數(shù)字人生成方案大多面臨畫(huà)面生成時(shí)間長(zhǎng)、延遲高、生成效果差、效果不穩(wěn)定、保真度低等問(wèn)題。

在這樣的背景下,SoulX-FlashTalk正式開(kāi)源,為了平衡生成質(zhì)量與推理速度,團(tuán)隊(duì)采用了兩階段訓(xùn)練策略:

第一階段:延遲感知時(shí)空適配 (Latency-Aware Spatiotemporal Adaptation),結(jié)合動(dòng)態(tài)長(zhǎng)寬比分桶策略進(jìn)行微調(diào),使模型適應(yīng)較低的分辨率和更短的幀序列;

第二階段:自糾正雙向蒸餾 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架壓縮采樣步數(shù)并移除無(wú)分類(lèi)器引導(dǎo)(CFG),實(shí)現(xiàn)加速;多步回溯自糾正機(jī)制,通過(guò) autoregressively 合成連續(xù)分塊(最多 K個(gè)chunks),顯式模擬長(zhǎng)視頻生成的誤差傳播;隨機(jī)截?cái)嗖呗裕谟?xùn)練中在第 k(< K)個(gè)分塊數(shù)進(jìn)行反向傳播,實(shí)現(xiàn)高效且無(wú)偏的顯存友好優(yōu)化 。



訓(xùn)練流程示意圖

同時(shí),團(tuán)隊(duì)進(jìn)行實(shí)時(shí)推理加速系統(tǒng)優(yōu)化, 針對(duì) 8-H800 節(jié)點(diǎn)設(shè)計(jì)的全棧加速引擎實(shí)現(xiàn)了亞秒級(jí)延遲 ,包括了

  • 混合序列并行 (Hybrid Sequence Parallelism):整合 Ulysses 和 Ring Attention,使單步推理速度提升約5倍算子級(jí)優(yōu)化:采用針對(duì)Hopper架構(gòu)優(yōu)化的FlashAttention3,通過(guò)異步執(zhí)行進(jìn)一步減少 20% 的延遲
  • 3D VAE 并行化:引入空間切片并行解碼策略,實(shí)現(xiàn)VAE處理的5倍加速
  • 整鏈優(yōu)化:通過(guò) torch.compile 實(shí)現(xiàn)全流程圖融合與內(nèi)存優(yōu)化

值得注意的是,在Soul AI團(tuán)隊(duì)發(fā)布的技術(shù)報(bào)告中指出,傳統(tǒng)的單向(Unidirectional)模型在處理全局時(shí)間結(jié)構(gòu)時(shí)存在約束,容易導(dǎo)致時(shí)間不一致和身份漂移。因此,團(tuán)隊(duì)完全保留雙向注意力機(jī)制(All-to-All 交互),使模型能同時(shí)利用過(guò)去與隱含的未來(lái)上下文,顯著提升了生成的一致性與細(xì)節(jié)質(zhì)量 。



SoulX-FlashTalk推理架構(gòu)流程圖

AI+實(shí)時(shí)體驗(yàn)

賦能行業(yè)多元業(yè)務(wù)場(chǎng)景

從模型表現(xiàn)來(lái)看,通過(guò)在 TalkBench-Short 和 TalkBench-Long 數(shù)據(jù)集上的定量對(duì)比,展示了SoulX-FlashTalk在視覺(jué)質(zhì)量、同步精度及生成速度上的全面領(lǐng)先:

在短視頻評(píng)測(cè)中,它以3.51的ASE和4.79的IQA刷新了視覺(jué)保真度記錄,并以1.47的Sync-C分?jǐn)?shù)表現(xiàn)出最優(yōu)的口型同步精準(zhǔn)度;在5分鐘以上的長(zhǎng)視頻生成中,系統(tǒng)憑借雙向蒸餾策略有效抑制了同步漂移,取得了1.61的Sync-C優(yōu)異成績(jī);此外,作為14B參數(shù)規(guī)模的大模型,它在長(zhǎng)短視頻任務(wù)中均維持了32 FPS 的高吞吐量,不僅遠(yuǎn)超25 FPS的實(shí)時(shí)性基準(zhǔn),更在推理效率上顯著優(yōu)于行業(yè)同類(lèi)主流模型。



依托模型優(yōu)越的性能表現(xiàn),開(kāi)源后,SoulX-FlashTalk將有機(jī)會(huì)在多領(lǐng)域、行業(yè)實(shí)際落地,創(chuàng)造更多價(jià)值。例如,在電商領(lǐng)域打造7×24小時(shí)AI直播間,特別是,此前傳統(tǒng)的數(shù)字人直播長(zhǎng)時(shí)間運(yùn)行后常會(huì)出現(xiàn)嘴型對(duì)不上或畫(huà)質(zhì)模糊的問(wèn)題,而SoulX-FlashTalk可以支持全天候的流暢視頻直播,即便是在高強(qiáng)度的實(shí)時(shí)互動(dòng)中(如回復(fù)彈幕),也能保持如同真人出鏡的高保真畫(huà)質(zhì),極大降低直播成本。

此外,在短視頻制作、AI教育、多元互動(dòng)場(chǎng)景NPC交互、AI客服等方向,模型也提供了高質(zhì)量、可落地、可接入業(yè)務(wù)系統(tǒng)的解決方案。

對(duì)Soul而言,SoulX-FlashTalk的發(fā)布也意味著團(tuán)隊(duì)進(jìn)入了開(kāi)源新階段。去年10月底,Soul AI團(tuán)隊(duì)開(kāi)源語(yǔ)音合成模型SoulX-Podcast,在發(fā)布后快速登頂開(kāi)源社區(qū)平臺(tái)HuggingFace TTS(Text To Speech)趨勢(shì)榜,目前該模型在GitHub上收獲了超3100星標(biāo)。

接下來(lái),在聚焦語(yǔ)音對(duì)話合成、視覺(jué)交互等核心交互能力的提升,為用戶(hù)帶來(lái)更加沉浸、智能且富有溫度的交互體驗(yàn)的過(guò)程中,以持續(xù)推進(jìn)開(kāi)源工作為契機(jī),Soul將積極與全球開(kāi)發(fā)者攜手,共建生態(tài),為推動(dòng)“ AI +社交”方向前沿能力建設(shè)貢獻(xiàn)力量。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
90歲牛犇住上海高端養(yǎng)老院!獨(dú)居臥室擺雙人床、客廳超30平:有錢(qián)

90歲牛犇住上海高端養(yǎng)老院!獨(dú)居臥室擺雙人床、客廳超30平:有錢(qián)

一盅情懷
2026-03-31 07:52:59
河南一高校啟用新浴室,每升熱水計(jì)費(fèi)0.045元,有學(xué)生稱(chēng)洗澡10分鐘計(jì)費(fèi)3元至7元,校方稱(chēng)按流量定價(jià),試運(yùn)營(yíng)期間免費(fèi)使用吹風(fēng)機(jī)

河南一高校啟用新浴室,每升熱水計(jì)費(fèi)0.045元,有學(xué)生稱(chēng)洗澡10分鐘計(jì)費(fèi)3元至7元,校方稱(chēng)按流量定價(jià),試運(yùn)營(yíng)期間免費(fèi)使用吹風(fēng)機(jī)

大風(fēng)新聞
2026-04-02 17:06:05
武漢多輛蘿卜快跑停在路上無(wú)法移動(dòng),警方通報(bào):初步判斷為系統(tǒng)故障,無(wú)人受傷

武漢多輛蘿卜快跑停在路上無(wú)法移動(dòng),警方通報(bào):初步判斷為系統(tǒng)故障,無(wú)人受傷

紅星資本局
2026-04-01 08:50:08
夏克立官宣生女,卻與大女兒斷聯(lián)四年,昔日溫情奶爸人設(shè)徹底崩塌

夏克立官宣生女,卻與大女兒斷聯(lián)四年,昔日溫情奶爸人設(shè)徹底崩塌

電影偵探社
2026-04-01 14:47:51
高考大局已定:如果不出意外的話,2026年中國(guó)高考錄取迎3大變化

高考大局已定:如果不出意外的話,2026年中國(guó)高考錄取迎3大變化

蜉蝣說(shuō)
2026-04-02 10:50:08
賽力斯官宣完成第五代2.0T超級(jí)增程技術(shù)開(kāi)發(fā)

賽力斯官宣完成第五代2.0T超級(jí)增程技術(shù)開(kāi)發(fā)

IT之家
2026-04-01 22:24:09
美以還未撤軍,阿聯(lián)酋將對(duì)伊朗宣戰(zhàn),話音剛落,中巴發(fā)表聯(lián)合聲明

美以還未撤軍,阿聯(lián)酋將對(duì)伊朗宣戰(zhàn),話音剛落,中巴發(fā)表聯(lián)合聲明

知法而形
2026-04-01 17:16:28
沒(méi)人信中國(guó)能贏WSBK,他用一臺(tái)4萬(wàn)國(guó)產(chǎn)摩托,干翻所有百年豪門(mén)

沒(méi)人信中國(guó)能贏WSBK,他用一臺(tái)4萬(wàn)國(guó)產(chǎn)摩托,干翻所有百年豪門(mén)

娛樂(lè)圈的筆娛君
2026-04-01 09:47:27
德國(guó)外長(zhǎng):臺(tái)海有事就是德國(guó)有事,我們不能允許暴力改變臺(tái)海現(xiàn)狀

德國(guó)外長(zhǎng):臺(tái)海有事就是德國(guó)有事,我們不能允許暴力改變臺(tái)海現(xiàn)狀

老范談史
2026-04-01 12:49:47
商務(wù)部回應(yīng)Meta收購(gòu)Manus

商務(wù)部回應(yīng)Meta收購(gòu)Manus

每日經(jīng)濟(jì)新聞
2026-04-02 15:46:46
中方奉陪到底!沒(méi)等來(lái)日本道歉,高市卻掀桌了,突然亮出獠牙!

中方奉陪到底!沒(méi)等來(lái)日本道歉,高市卻掀桌了,突然亮出獠牙!

觸摸史跡
2026-04-01 19:45:32
23歲女孩頭痛,硬扛7天后心臟停跳,ICU里開(kāi)顱3次,仍昏迷未醒!元兇幾乎家家都有【930新聞眼】

23歲女孩頭痛,硬扛7天后心臟停跳,ICU里開(kāi)顱3次,仍昏迷未醒!元兇幾乎家家都有【930新聞眼】

930老友記
2026-04-02 18:42:19
業(yè)內(nèi)曝“粉底液將軍”要被開(kāi)會(huì)研討,劇情爭(zhēng)議更大,網(wǎng)友呼吁下架

業(yè)內(nèi)曝“粉底液將軍”要被開(kāi)會(huì)研討,劇情爭(zhēng)議更大,網(wǎng)友呼吁下架

萌神木木
2026-04-01 15:53:39
我和老公分床分房睡十年:他想干啥就來(lái)找我,我有需要我也會(huì)找他

我和老公分床分房睡十年:他想干啥就來(lái)找我,我有需要我也會(huì)找他

皓皓情感說(shuō)
2026-04-01 21:58:01
伊朗用血淚換來(lái)的教訓(xùn):一旦中美開(kāi)戰(zhàn),中國(guó)必須首先鎖定這一點(diǎn)

伊朗用血淚換來(lái)的教訓(xùn):一旦中美開(kāi)戰(zhàn),中國(guó)必須首先鎖定這一點(diǎn)

冷峻視角下的世界
2026-02-20 07:45:35
人到晚年才明白:有存款有退休金,不如離子女近一點(diǎn)

人到晚年才明白:有存款有退休金,不如離子女近一點(diǎn)

藝鑒在線
2026-04-02 18:57:44
告天下子女:再孝順,也不要為年過(guò)70歲的老父老母,做這三件事

告天下子女:再孝順,也不要為年過(guò)70歲的老父老母,做這三件事

楓紅染山徑
2026-04-02 14:36:32
阿爾忒彌斯2號(hào)創(chuàng)下多個(gè)“首次” 美國(guó)為何再度啟動(dòng)月球計(jì)劃

阿爾忒彌斯2號(hào)創(chuàng)下多個(gè)“首次” 美國(guó)為何再度啟動(dòng)月球計(jì)劃

上游新聞
2026-04-02 13:00:05
“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

“黃毛的爹,酗酒的媽”,上海三口之家火了,只有孩子看著不叛逆

妍妍教育日記
2026-03-29 07:40:03
比阿隆索更強(qiáng)!利物浦鎖定 “歐洲最佳少帥”,復(fù)刻克洛普神跡

比阿隆索更強(qiáng)!利物浦鎖定 “歐洲最佳少帥”,復(fù)刻克洛普神跡

瀾歸序
2026-04-02 04:40:22
2026-04-02 19:28:49
智能相對(duì)論 incentive-icons
智能相對(duì)論
智能和車(chē),邊評(píng)邊測(cè);未來(lái)和家,且品且鑒
2489文章數(shù) 2411關(guān)注度
往期回顧 全部

科技要聞

三年虧20億,最新估值58億,Xreal沖刺港股

頭條要聞

河南一高校浴室熱水按升計(jì)費(fèi) 學(xué)生洗10分鐘要花3到7元

頭條要聞

河南一高校浴室熱水按升計(jì)費(fèi) 學(xué)生洗10分鐘要花3到7元

體育要聞

邵佳一的改革,從讓每個(gè)人踢舒服開(kāi)始

娛樂(lè)要聞

宋寧峰帶女兒出軌,張婉婷找董璇哭訴

財(cái)經(jīng)要聞

高油價(jià)、AI泡沫...誰(shuí)將壓垮美國(guó)經(jīng)濟(jì)

汽車(chē)要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車(chē)QQ3 EV

態(tài)度原創(chuàng)

藝術(shù)
健康
旅游
手機(jī)
軍事航空

藝術(shù)要聞

故人西辭黃鶴樓,煙花三月下?lián)P州

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

嘀嗒順風(fēng)車(chē)清明出行預(yù)測(cè):上海市內(nèi)游前三為迪士尼、顧村公園和上海野生動(dòng)物園

手機(jī)要聞

內(nèi)存成本壓垮中端機(jī)!驍龍8E全面退出2000元檔:性?xún)r(jià)比時(shí)代終結(jié)

軍事要聞

伊朗自殺無(wú)人機(jī)突進(jìn) 逼退林肯號(hào)航母

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版