文 | 字母AI
AI視頻這條賽道,最近有點冷,Seedance 2.0陷入版權爭議,OpenAI關停Sora ,讓這條賽道上空陰霾密布。
就在這個時候,阿里牽出來了一匹黑馬。
2026年4月,HappyHorse-1.0沖上Artificial Analysis榜首,在文生視頻和圖生視頻(無音頻)兩個賽道同時壓過字節、快手等對手。
張迪在2025年11月回歸阿里巴巴,接任淘天集團未來生活實驗室負責人一職,并直接向阿里媽媽CTO鄭波匯報工作。
也就是說,張迪從回歸到闖出名堂,中間也就隔了5個月左右。
關鍵在于,HappyHorse和阿里的千問一樣,開放了可商用的開源版本。
現在千問在阿里什么地位?它是阿里集團級的核心通用大模型底座、AI戰略的絕對核心載體。阿里現如今的一切,都是在圍繞千問進行布局。
所以HappyHorse對阿里的意義,可能也遠不止是一個刷榜秀技術的模型那么簡單。
不過在理解阿里的想法之前,我們應該先來聊聊,張迪是誰。
01 從阿里到快手再回阿里
張迪畢業于上海交通大學計算機專業,本碩連讀,2010年畢業后加入阿里巴巴,長期負責阿里媽媽的大數據和機器學習工程架構。
阿里媽媽做的是廣告、推薦、搜索和轉化,背后是大規模數據、大規模分發和復雜工程系統。這些東西聽起來沒有大模型那么熱鬧,但它們正是后來中國互聯網公司訓練AI人才的地方。
很多真正能把模型做成產品的人,并不是純粹從實驗室里出來的。他們更早經歷過搜索、推薦、廣告、內容分發這些系統的歷練。
這我隨便舉幾個例子你就懂了。谷歌CEO桑達爾·皮查伊,他就是做搜索欄和Youtube內容推薦出身的,微軟的CEO薩提亞·納德拉,他在微軟一開始開發的就是必應搜索引擎和微軟廣告體系。
因為這些系統每天都在處理海量用戶行為,也要求模型能在真實業務里穩定運行。它不允許工程師只做一個好看的demo,它強迫你做出真正有用的東西出來,還必須在延遲、成本、效果、反饋之間反復取舍。
張迪在阿里的十年,大致就是在這樣的環境里度過的。那時候外界還沒有把所有事情都叫作大模型,但阿里內部早就有一套圍繞數據、算法和工程化的訓練場。
2020年,張迪離開阿里去了快手。
當時的短視頻平臺,已經從流量競爭進入技術競爭階段。張迪在快手歷任技術副總裁、大模型與多媒體技術團隊負責人,后來主導了可靈大模型的底層架構研發和應用落地。
可靈對快手的意義是非常重大的。
可靈讓快手從過去的 “內容分發平臺”,升級為 “內容生產基礎設施提供商”,構建了 “創意生成-視頻制作-一鍵分發-流量變現-數據迭代” 的完整閉環
2025年4月,快手成立可靈AI事業部,并升級為公司一級部門,直接向 CEO 程一笑匯報,與短視頻主業務平起平坐。
所以當他在2025年9月短暫加入B站,又在兩個月后回到阿里時,這個動作就很難只看成一次普通的人才流動。
B站需要視頻技術,阿里同樣需要視頻技術,只是阿里的需求更復雜。
快手做視頻生成,無非就是分發。但阿里要是做視頻生成,那背后牽連的環節就多了去了。有電商、廣告、直播、云服務和海外商家。
前文提到,張迪2025年11月回歸阿里后,出任淘天集團“未來生活實驗室”負責人,職級P11。
如此安排下來,阿里味還是很濃的。它沒有把視頻模型簡單放在一個純研究部門里,其位置反而更靠近淘天這樣一個交易現場。
換句話說,HappyHorse從構思開始,就是一個強調落地,和阿里現有生態綁定的產品。
五個月后,HappyHorse出現了。
這個速度確實快,阿里給了張迪一個新的業務場景和團隊,他把視頻模型這條路線再次打通。
他既不是從零開始進入AI視頻,也不是單純從外部空降到阿里。
他的職業路徑像一條繞出去又繞回來的線。先在阿里學會大規模商業系統怎么運轉,再去快手把視頻生成做成產品,然后又回到阿里,把這套能力放進更大的商業機器里。
很多公司都在搶大模型人才,但真正稀缺的人,往往是能同時理解模型、業務和組織的人。
單純會訓練模型的人很多,單純會講戰略的人也很多,難的是有人知道一個模型從技術路線開始,到架構設計,到訓練推理,到產品出口,到最后被商家和用戶用起來,中間每一步會在哪里卡住。
HappyHorse把張迪重新推到臺前,也讓阿里過去幾年相對分散的AI敘事有了一個更具體的人物入口。
02 開源模型如何擊敗閉源巨頭
HappyHorse真正引起關注的點,在于它贏得太突然了。
在視頻生成這條賽道上,海外有Runway、Pika、Luma、Google的Veo,國內有字節的Seedance、快手的可靈。阿里排不上號。
所以當HappyHorse剛屠榜的時候,大家甚至更愿意相信說這是某創業公司開發的模型,也不愿意相信這是阿里的模型。
HappyHorse在文本轉視頻和圖像轉視頻兩個賽道都處在第一梯隊,文本轉視頻Elo分數為1333,圖像轉視頻Elo分數為1392。
Artificial Analysis的榜單本身會隨用戶盲測不斷變化,后續頁面分數也有更新,但是它確實在用戶偏好測試中壓過了一批更早出名的閉源模型。
這事其實挺反常的。通常來說,視頻生成是最吃錢、吃數據、吃算力的方向之一。
閉源大廠可以把數據、模型細節、推理系統和產品體驗藏在自己平臺里,持續做內部迭代。
開源模型則要面對更多現實限制,它的參數要能公開,推理要能跑起來,社區要能復現,效果還要經得起橫向比較。
所以在HappyHorse出現之前,開源視頻模型大多數都是玩具,輸出的視頻不夠穩定,人物還經常會出現漂移。
HappyHorse有150億參數、40層統一自注意力Transformer架構,把文本、視頻、音頻三種模態的token放進同一個序列里聯合建模。
這個路數和千問非常像,這也就解釋了為什么張迪僅用5個月就把HappyHorse弄出來了,很可能是沿用千問留下來的高質量原生多模態訓練方法。
像Sora這種非多模態原生的視頻生成模型,經常會出現人物嘴在動,聲音慢半拍的情況。并且有時候人物表情很豐富,但語氣不對。人物還有可能在聲音發出之前就行動了。
HappyHorse評分高的原因就在于,它通過原生多模態解決了這個問題。
HappyHorse原生支持英語、普通話、粵語、日語、韓語、德語、法語等多種語言的唇形同步,詞錯誤率也被拿來和同類開源模型比較。
張迪為什么要這樣做?我的理解是,如果阿里想讓視頻生這項技術進入廣告、電商、短劇、教育和直播,就不能只靠畫面漂亮。
它要能說話,要能配音,要讓聲音和畫面同時成立。
另一個關鍵點是成本和速度。
HappyHorse在單張H100 GPU上生成5秒1080p視頻約需38秒,并采用DMD-2蒸餾技術把去噪步驟壓到8步。
這是視頻生成商業化繞不開的一道坎。模型效果再好,如果生成一條短視頻成本太高、等待太久,就很難進入商家日常工作流。
商家不會為每個商品等半天,也不會為幾十個測試素材支付過高成本。
所以HappyHorse的意義不只是“能生成”,還在于它試圖把生成速度和推理成本壓到可用區間。
對開發者來說,開源意味著可以自托管、微調、接入自己的產品。對平臺來說,開源也會帶來更多社區反饋
一個閉源模型的進步主要依靠公司內部團隊,一個開源模型會被開發者拿去做各種奇怪測試,問題暴露得快,改進方向也會變多。
Artificial Analysis的視頻競技場采用用戶偏好投票,很多時候不只看某一個技術指標,更看用戶在兩段視頻之間更喜歡哪一個。
當然,張迪還不能太驕傲,一次榜單登頂不等于永遠領先。
競爭對手不會停在原地。HappyHorse現在贏下的只是一場公開測試,還不是整個戰爭。
HappyHorse如果只是一個能刷榜的模型,它的意義有限。可如果它能成為阿里云、淘天業務共同使用的視頻生成底座,它就會變成一個入口。
所以說HappyHorse擊敗閉源巨頭,最有意思的地方并不只是分數領先。真正值得關注的是,它讓阿里找到了一種重新進入視頻生成牌桌的方式。
它沒有先做一個面向C端用戶的APP,也沒有只在內部做演示,而是直接拿開源模型接受全行業檢驗。
這場勝利未必會持續很久,但張迪讓外界改變了對阿里在視頻生成模型上的判斷。
新的問題變成了,阿里準備把這項能力用到哪里?
03 HappyHorse對阿里的意義
HappyHorse最直接的落點,是電商。
過去大家談AI視頻,最容易想到影視、短劇、廣告大片、創作者工具。誠然,這些都是實打實的大市場,不過它們離阿里的主業務還有一段距離。
阿里的優勢不在于自己做一個視頻社區,也不在于讓普通用戶每天打開一個AI視頻APP消磨時間。阿里真正有優勢的地方,是它手里有中國最密集的商品、商家、交易和廣告系統。
這也是為什么很多人都在意說HappyHorse誕生于淘天集團的“未來生活實驗室”。
淘天每天面對的是商家怎么賣貨,商品怎么被看見,用戶為什么點進來,又為什么下單。HappyHorse放在這里,大家自然就會想到它能不能提高商品內容生產效率,能不能提高轉化,能不能幫平臺多做生意?
對一個普通商家來說,視頻內容一直是個麻煩事。
拍一條30秒的商品視頻,你要找場景、找模特、打光、剪輯、配音。大品牌可以請團隊,中小商家更多時候只能自己湊。
很多商品賣點并不復雜,問題在于沒人把賣點拍出來。它們放在白底圖里都很普通,一旦進入具體場景,用戶才會意識到它能用來做什么。
前一陣在海外,太陽能噴泉泵這個產品賣爆了,它原本只是庭院小件,效果也就那么回事。但是被AI視頻包裝成鳥浴盆、魚池和兒童浴缸里,酷炫的噴水玩具后,所有人都在瘋搶。
![]()
AI沒有改變商品本身,卻改變了用戶理解商品的方式。它把“功能說明”變成了“使用場景”。
這正好擊中電商內容的痛點。
商品頁里寫滿參數,用戶未必有耐心看;主播講半天,用戶也未必相信。但一條十幾秒的視頻,如果能把場景講清楚,轉化效率可能會高很多。
更重要的是,AI視頻可以批量生成。商家可以為同一個商品生成兒童版、家庭版、節日版、戶外版,也可以為不同國家生成不同語言、不同人物、不同場景。
這對阿里的意義,比單純做一個視頻生成工具要大。無論是淘寶,還是天貓,上面都有大量商家,也都有大量商品數據和交易反饋。
一個AI視頻工具如果只知道生成漂亮畫面,它很快會變成素材軟件;如果它能知道這個商品在什么場景下更容易被點擊,什么文案更容易帶來加購,什么視頻前幾秒更容易留住用戶,它就會接近電商操作系統的一部分。
阿里比其他視頻生成模型公司多出來的,正是這個反饋閉環。
商品圖、詳情頁、評價、問答、搜索詞、點擊率、加購率、退款原因、直播間停留時間,這些東西看起來零碎,卻都是訓練電商內容能力的燃料。
HappyHorse如果接入這些反饋,就可以從“幫商家生成一條視頻”,進化到“幫商家生成更可能賣貨的視頻”。
面向淘天,它可以做主圖視頻、商品場景短片、直播切片、虛擬主播和營銷素材。
過去一個商家上新,可能只上傳幾張圖,最多再拍一條粗糙短視頻。以后它可以把商品圖、賣點、評價和人群標簽交給系統,讓系統生成多條不同版本的視頻,再用真實投放和成交數據篩選出更有效的那一條。
這個過程如果跑順了,平臺內容供給會明顯增加,中小商家的內容門檻也會下降。
不過,AI視頻帶貨也有風險。它可以放大賣點,也可能放大幻覺。一個噴泉泵在AI視頻里噴得很高,現實里達不到那樣的效果。
阿里的機會不該是縱容商家用AI造夢,重點應該放在商品參數、實拍素材、買家評價和平臺審核上,讓生成內容有邊界。
3月下旬,OpenAI宣布關停Sora獨立應用和相關API。原因很現實,視頻生成太燒錢,用戶留存撐不起成本,OpenAI要把算力放回編碼、企業服務和機器人方向。
Sora倒在了商業賬上。
字節也在另一頭遇到麻煩。Seedance 2.0雖然效果也很猛,但是因為版權問題,字節暫停了Seedance 2.0的全球發布。
模型訓練得越強,就越容易踩進版權、肖像權和訓練數據的泥潭。
這時再看張迪帶隊做出的HappyHorse,它有清晰的商業場景。而且阿里手里的商品圖、商家素材、實拍視頻和交易反饋,天然比影視IP更適合可控生成。
所以HappyHorse的價值,不只在榜單。它給AI視頻找了一個更穩的落點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.