周二深夜,AI圈炸了。
在全球知名AI評測平臺Artificial Analysis的Video Arena榜單上,一個代號為「HappyHorse-1.0」的神秘視頻生成模型悄然空降——沒有發布會,沒有技術博客,沒有任何公司背書,直接以碾壓式的姿態登頂榜首。
截止發稿,文本生視頻賽道,Elo積分飆至1357分,領先剛登頂五天的Seedance 2.0 84分,比第三名和第四名的SkyReels V4和Kling 3.0 1080p Pro高出超過100分。HappyHorse-1.0一個模型,就拉開了整個行業梯隊的差距。
![]()
圖像生視頻賽道更是跑出了1402的恐怖高分,刷新了該榜單的歷史紀錄。
![]()
唯一稍顯遜色的,是在包含原生音效的「視頻+音頻」綜合排名上,HappyHorse屈居第二,略低于Seedance 2.0。
![]()
這個榜單,沒那么容易刷
很多人第一反應是:這不會是刷分吧?
這個質疑并非沒有道理。但Artificial Analysis的排名機制,決定了它比普通跑分榜更難被輕易操控——所有排名均來自全球真實用戶的「蒙眼二選一」盲測投票,用戶在完全不知情的情況下,對兩段生成結果進行對比選擇,最終匯總成Elo積分。
模型團隊無法通過刷題作弊,反映的是普通人看過之后最真實的感知偏好。
當然,也有人指出,Artificial Analysis的盲測樣本中人像生成、口播類內容占比超過60%,而HappyHorse在人像場景上天然具備優勢,這在一定程度上可能造成了評測分數與實際綜合能力之間的落差。
X上的討論者也因此分成了兩派:懷疑派認為HappyHorse與Seedance 2.0在人物細節、動態連貫性上仍有可見差距;支持者則對其潛力寄予厚望,尤其期待它能解決多鏡頭序列中畫質一致性這一行業痛點。
其次,根據網上的測評,普通人對這款模型的評價普遍很高。
![]()
![]()
![]()
![]()
"歡樂馬"究竟是誰的馬?
這才是整個AI圈最想搞清楚的問題。
![]()
X上的猜測來得很快。最先被注意到的,是官網的語言排序:普通話和粵語排在英語前面。對于一個面向全球用戶的產品,這個順序相當反常——背后團隊來自中國,基本可以確認。
名字本身也是線索。2026年是農歷馬年,「HappyHorse」這個命名藏著不太含蓄的馬年梗,今年早些時候「Pony Alpha」也玩過類似套路。于是嫌疑名單迅速拉長:騰訊和阿里的創始人都姓馬,天然在列;有人押注小米,覺得雷軍一貫低調,喜歡突然亮牌;也有人覺得氣質更像DeepSeek,畢竟DS此前曾悄悄上線過視覺模型,后來又悄悄下線了。
X用戶Passluo的評論頗為意味深長:"這匹快樂馬是誰的?阿里、騰訊,還是小米?"
![]()
技術層面的"破案"
光靠名字猜不夠,技術圈隨即開啟了福爾摩斯模式。
X用戶Vigo Zhao把HappyHorse-1.0的公開基準數據拿去和已知模型逐條核對,找到了一個高度吻合的對象:daVinci-MagiHuman——也就是今年3月上線GitHub的開源模型「達芬奇魔法人類」。
![]()
視覺質量、文本對齊、物理一致性等多項數據逐項對得上,官網結構也幾乎一樣,兩者同為單流Transformer架構,同為音視頻聯合生成,支持的語言列表完全一致。這種程度的重合,很難用巧合解釋。
目前技術圈認可度較高的結論是:HappyHorse是daVinci-MagiHuman聯合開發方之一的Sand.ai,基于開源模型優化的迭代版本,核心目的是驗證模型在用戶真實偏好下的表現上限,為后續商業化落地做鋪墊。
daVinci-MagiHuman于2026年3月23日正式開源,是兩支年輕團隊合作的產物:
一支來自上海創智學院生成式AI研究實驗室,另一支是北京的Sand.ai(三呆科技)。模型采用150億參數的純自注意力單流Transformer,將文本、視頻、音頻三種模態的token全部塞進同一個序列里聯合建模。
另一條線索,指向阿里淘天
與此同時,坊間還流傳著另一個版本的猜測:
HappyHorse背后的核心團隊,來自阿里淘天集團「未來生活實驗室」,由前快手副總裁、可靈技術負責人張迪領銜。
公開資料顯示,張迪于2025年底加盟阿里,執掌淘天集團「未來生活實驗室」。該實驗室是阿里電商核心算法團隊,集結了頂尖技術人才與核心算力資源,專注大模型與多模態前沿領域,成立僅一年有余,已在國際頂會發表10余篇高質量論文。
值得一提的是,這一傳聞發酵的時間節點,恰好與阿里港股今日的活躍表現有所重疊——當然,這只是一個有趣的巧合,目前并無任何實錘將兩者直接掛鉤,不宜過度解讀。
![]()
這件事真正重要的信號
不論HappyHorse最終花落誰家,這次事件傳遞的行業信號已經足夠清晰。
長期以來,開源視頻模型與閉源產品之間橫亙著一道效果層面的可見差距——在需要向客戶交付的場景里,開源模型的生成質量始終未能跨過「可用」到「可交付」的門檻。可靈、Seedance等閉源產品的定價權,在相當程度上正是建立在這一差距之上。
這一次,一個基于開源模型的產品,在以真實用戶感知為基準的盲測排行榜上,首次正面比肩了當前主流閉源競爭對手。
對于依賴這一差距構建定價權的閉源廠商而言,這至少是一個值得認真對待的信號。
按照Artificial Analysis的「盲測屠榜」慣例,當一個匿名模型賺足關注度后,官方通常會在一周內正式「認領」。
或許就在這幾天,我們就會知道答案了。
在這個馬年,真正值得關注的,或許不是哪匹馬跑得最快,而是賽道本身,正在變寬。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.