網易首頁 > 網易號 > 正文申請入駐

應用爆發之年：聊聊模型技術進化與商業化

2026-02-03 14:09:14　來源: 硅谷101

上海舉報

分享至

（點擊收聽本期音頻）

采訪｜泓君

圖文｜泓君朱婕

兩年前《硅谷101》在播客里聊大模型的時候，大家的普遍感受還是"有意思，但不好用"——幻覺、慢、貴，總覺得離真正的生產力還差那么幾步。

2026年，變化比想象中來得更快。阿里云千問大模型業務總經理徐棟告訴《硅谷101》，一個五六人的小團隊現在用AI一天能生成6000條廣告視頻，成本壓到10元以下，低于市場售價20至50元——商業閉環已經跑通了。AI漫劇也在爆發，國內短劇市場規模已經超過電影市場，視頻生成模型正從5秒進化到15秒，年底有望突破1分鐘。

成本端的變化更加劇烈。徐棟分享了一組數字：千問的推理成本正以每半年接近10倍的速度下降，推理速度從30-50 TPS飆升到80-100+，首包延遲從2秒降到500毫秒。他說，今天端側4B的小模型，能力已經超過兩年前最大的閉源模型，70%以上的通用任務可以在手機和車機上本地處理。

2025年被很多人稱為"AI應用元年"。如果說前兩年的關鍵詞是"模型能做什么"，那今年所有企業都在問同一個問題——用AI，到底劃不劃算？

本期播客，《硅谷101》邀請了阿里云千問大模型業務總經理徐棟、影石Insta360研究院總監亓魯教授、語憶科技聯合創始人兼CEO呂瀛杰，一起拆解大模型在商業前線"開荒"的邏輯、成本和隱藏關卡。

歡迎關注《硅谷101視頻號》的音頻欄目直接收聽本期播客。如果你喜歡我們的節目，更推薦大家使用音頻客戶端來收聽，《硅谷101 》已覆蓋各大主流音頻平臺（渠道見文末），歡迎訂閱！

以下是這次對話內容的精選：

模型的技術進步與商業化

泓君：很開心你能來做客我們的播客，因為在2025年底到2026年初，大家討論最多的一個是AI Agent，還有一個就是AI應用，真的開始走進大家的生活了。今天很開心請你能跟大家聊一聊大模型在商業化方向的一些趨勢。在此之前，你要不要先簡單介紹一下你在阿里的工作，以及你主要負責什么？

徐棟：阿里做大模型時間比較久了，最早的模型可以追溯到2021年左右。首先有一個在海外尤其有名的模型叫千問，英文名叫Qwen。在開源領域，它已經是一個體量非常大的模型，很多北美公司也會用它作為基座模型。它代表的是我們的語言模型，我們會用它去挑戰AI的智慧，看看它能不能用更多工具、進入更多生產環節。這是我們非常主力的一個模型。

第二個是視覺生成類的模型，叫萬相，英文名叫Wan，它可以生成圖片、視頻，也能做圖片和視頻的編輯，同時也有成為未來世界模型的范式的可能性。最近三個月我們重點發布了2.5的preview版和2.6版，在視頻創作方面收到了很多新反饋。

第三個基礎模型是去年云棲大會發布的Fun，一個純音頻模型，它涵蓋ASR、TTS，也包括聲音克隆。我們在這個模型上追求更擬真、支持多語言、不同方言和口音，讓它能更好地理解和表達。

我們的模型還是比較結構化的。在這幾個基座模型基礎上，我們開始與很多客戶交流合作，包括制造業、實體企業、品牌商，還有很多互聯網公司。但最近一年，我的感受是出現了大量AI Native公司，它們通過模型取得了不錯的成果，在很多碎片化的市場里實現了非常好的ROI。

泓君：你剛剛提到了幾個大模型。你覺得過去2025年，模型技術最重要的進化是在哪幾個方向？

徐棟：最近半年進化特別多。以“萬相Wan”為代表的視頻生成模型，如果類比GPT-3.5到4的狀態，我認為它已經達到了GPT-4的水平。過去視頻生成模型更多用于特效、娛樂，但現在它可以進入生產領域，比如最近很火的AI漫劇，增長速度非常快，還有自動化生成廣告視頻。很多15秒的切片廣告已經開始自動化生成，形成完整管線，可能五個人一天就能生成6000個視頻，這是一個非常明顯的趨勢。

從技術角度看，有幾個特點很有意思：

第一，生成時間變長了。視頻生成從過去的5秒、10秒，進入15秒時代，未來可能到一分鐘，這樣內容連貫性會更好。

第二，鏡頭語言更豐富。模型可以切換不同鏡頭，調整光影效果，接近專業影視級能力，用戶通過簡單提示詞就能實現。

第三，角色一致性保持

（Carry）

能力。這是受Sora2啟發，在角色扮演中，保持人物、物體、背景、音色的一致性，也就是“保ID”，讓后續創作有更好延展空間。

簡單來說，我們希望從15秒進一步延長生成時長，目前我們已經做到國內最長的視頻生成模型；讓鏡頭切換、光影變化這些原本需要專業導演、攝像、美術協作的能力，現在通過模型門檻大大降低；最后，角色扮演，保持一致的能力，我相信會成為未來所有視頻生成模型的標配。

萬相模型生成的AI動漫圖片來源：萬相Wan

泓君：角色扮演具體是指什么？

徐棟：舉個例子：你可以用手機自拍一段5秒鐘視頻，抬頭或轉頭，說幾句話，類似試鏡。模型輸入這段視頻后，可以對人物形象和聲音進行“保ID”，后續創作中這個形象和聲音可以被復刻出來。

泓君：也就是說以后只需要真人出鏡5秒，后面的內容可以由AI生成、模型化運作。

徐棟：對，這意味著生成內容的可控性更高。以前可能依賴抽卡

（隨機生成）

，現在可以在輸入端提供更多參考維度，在動漫創作領域其實挺多的，以前是參考圖，現在開始參考視頻。

泓君：你剛剛提到，比如五個人一天可以生成6000個視頻，AI漫劇也比較火了，你覺得基于模型能力提升，你看到哪些比較好的商業化案例或應用？

徐棟：國內短劇市場已經超過電影市場。在視頻宣傳方面，很明顯短劇從原來的真人拍攝或大量人工編輯，開始有一定比例轉向AI生成。最近最火的是漫劇，它從動態漫發展過來的，劇情連貫，商業化能力強，已經成為與AI結合的一個典型。

泓君：像短劇市場、AI生成短劇、真人IP短劇，還有批量生成AI廣告，大家最關心的問題是，用AI做的成本和用人做的成本分別是多少？廠商在考慮接入模型時看重什么？

徐棟：現在按品質分為S級、A級、B級。一部短劇，如果成本合理，AI可能能做到2萬元以下，加上投流和ROI計算，有可能打正或實現不錯收入。如果對精品要求更高，需要投入更多后期制作資源，成本會更高，但劇集品質也會更好。

廣告方面，15秒視頻的AI成本可以控制在10元到15元以下，在市場上有比較好的商業空間。一般來說，一個合格的15秒廣告市場價在25元到50元之間，這樣就形成了較好的商業循環。

萬相模型生成的AI短片圖片來源：萬相Wan

泓君：這個成本確實挺低的。阿里有淘寶電商生態的，是這些電商賣家在用AI做廣告嗎？

徐棟：這個結構是比較復雜的?，F在每個流量平臺會給廣告主或代理公司一定的編輯能力，以匹配其平臺。廣告主自己也有大量素材，可能是自己做的，也可能是第三方代理公司做的。在廣告生成方面，有可能是代理公司做，也可能是代理公司分包給AI Native的創業公司做。這類創業公司越來越多，它們將萬相和千問模型結合成管線，形成剛才說的五六個人一天生成6000個廣告的能力，再交給代理公司或流量平臺的廣告組。

泓君：挺有意思的。這是視頻生成模型方面。你們還有音頻生成模型和千問模型，你覺得另外兩個模型在2025年有哪些進步和突破？

徐棟：語言模型正在發生持續而深刻的變化，雖然我們很難再看到一個巨大的范式上的改變，我簡單說一下我們在做的事情。

第一，高質量數據集越來越少，大家都在精耕細作，通過調整數據順序、角度，提升模型知識學習效率，使模型在一些corner case

（邊緣案例）

上表現越來越好。

第二，模型結構會越來越稀疏，多Token預測

（MTP）

等技術在不同模型中實踐，速度會更快，甚至成倍提升。未來首包響應可能從2秒縮短到500毫秒都是有可能的，TPS可能從30-50提升到80-100以上，在性能要求高的場景下表現就會變得非常棒。

其實大家也可以從機器吞吐角度來去理解，模型稀疏化后，推理成本也會下降，可能以一個量級下降。

此外，指令遵循能力、Agent能力（尤其是工具調用）、上下文長度等都在持續迭代。疊加coding能力提升，未來可能會出現大量連續運行的Agent，它不像今天的Chatbot那樣，馬上給我個結果，而是能利用閑時計算資源做AI for science研究或生成深度報告，這背后它可能調用檢索引擎、CRM、ERP等工具。如果它會用了這么多工具，我們相信輸出質量一定會比純文本模型更好。

泓君：你講了很多基礎模型在細微點上的提升。去年我們追蹤大模型和Agent發展趨勢時，注意到2025年是AI從模型走向應用的關鍵一年，Agent大爆發，中國應用創新尤其活躍。為什么是去年這個時間點？是因為模型基礎能力提升，還是有其他關鍵點推動？

徐棟：第一是推理能力。2024年底OpenAI推出o1后，模型不再依賴所謂的概率，開始表現出邏輯偏好，這是我覺得是非常根本性的改變。

第二是模型規模變大，原本存在的挑戰是你訓不動它，但通過預訓練改進，模型變大的同時可控性也提高了，復雜指令能力越來越強。以前依賴確定性的workflow，但現在模型指令遵循和理解能力增強，只要有準確上下文，就能在泛化性和準確性之間找到平衡。

第三是工具調用

（Tool Use）

。隨著Claude Skills、MCP等標準逐漸被大家接受，越來越多工具顯性化，今天的模型開始跳脫了輸入輸出窗口，開始進入更多生產環節。這個環節可能不是一個框，而是一個標準的SaaS流程或硬件交互方式。

泓君：我注意到剛剛結束的CES展上有一個趨勢，所有產品都想與AI搭上關系，比如耳機、智能眼鏡、剪輯拍攝工具等。今年有很多中國客戶參展，背后也有千問大模型的影子。你能否聊聊，在AI硬件產品中，大模型扮演什么角色？

徐棟：模型與硬件結合不是新鮮事，早在十年前，ASR、CV模型都與硬件有關，但商業價值不大。這一次，我覺得最重要的是，模型變得更擬人，可以執行更多任務了。以前只能識別，現在能聽懂、看懂，給出你想要的結果。今天通過千問App，你可以通過自然語言直接訂咖啡、訂座位等。如果是眼鏡，通過自然語言完成這些任務，就跟過去是很大的區別。這背后離不開語音、視覺理解和文本模型。

泓君：通過眼鏡訂咖啡已經實現了嗎？

徐棟：準確說，早就實現了。千問App通過自然語言可以點咖啡、完成商業閉環，全部在一個基于大模型的架構里面去完成。我剛剛試過，它會生成卡片，如果大模型操作界面和原來App一樣，可能會有挑戰，推薦咖啡時會考慮距離、偏好、歷史選擇，因為戴眼鏡時希望AI懂我、有記憶，這樣更方便。你可以切換，點開就是完整菜單。

圖片來源：千問APP發布會

泓君：我們可以看看未來這類應用的發展情況。今天我們主題是大模型商業化，你能否整體介紹一下阿里千問是如何商業化的？

徐棟：做大模型與做云的最大區別是，云的覆蓋是比較慢的，最早是手游，慢慢覆蓋到金融和制造業。大模型這一波的改變是全行業覆蓋，每個行業都在用，只是滲透率不同，我們從兩個方向看：

第一，模型與企業結合，提升企業生產力。企業內部有很多流程和角色，大模型可以在設計、編程、研發、銷售等環節發揮作用。

第二，產品與大模型結合。很多互聯網公司和消費電子硬件天然與用戶交互，經過大模型改造后，交互體驗發生很大變化，產品定位發生根本改變，所以我們與之有深入合作，不僅限于云上合作，像一些手機和車廠有低延時和本地化需求，我們發布了Omni模型（4B參數），他們對這類端側模型很感興趣。

泓君：這是類似賣端側模型嗎？

徐棟：是。這個場景更多針對算力較強的手機廠商和車廠，畢竟涉及功耗、發熱等問題。經過兩三年打磨，很多車廠和手機廠開始考慮端云結合架構。因為需求越來越旺盛，僅靠云模型不夠，我們今天已經進入到一個深水區了，端云模型結合，都成為大家關心的話題了。

泓君：從消費者視角看，未來每部手機甚至每輛車都可能具備智能化交互能力，變得很智能，它是一開始就嵌入到手機里的。

徐棟：對，智能設備是每個人的貼身入口，涉及隱私、高時效性任務，所以一些硬件廠商的規劃里就會考慮這些因素。

泓君：我們把比如Omni的這個模型，放到一個手機或者是一個車里，它有一些任務是在云上處理的，會接入阿里云，還是客戶自己的云？

徐棟：絕大部分企業，基本上都在阿里云上面提供這樣的云服務，通過MaaS服務平臺“百煉”直接與設備交互。這個平臺的核心要求就是高并發、低延時、可觀測，支持鑒權管控，是一個相對完整的平臺?？梢岳斫鉃榻^大多數企業通過這個平臺連接業務。

泓君：什么場景可以直接在端側處理？什么場景移到云上？端側跟云，大概會占到一個什么樣的比例？

徐棟：這是動態變化的。現在端側模型效果比兩年前的百B模型還好，現在只要一個4B的模型可能就效果發生改變。通用類任務、基本交互任務、語音和視覺理解，七成以上可以由端側模型較好地去解決了。

泓君：客戶與阿里合作時，最關心什么問題？

徐棟：這是一個變化過程。最早關心的是效果，因為模型效果還不夠好，客戶會提很多垂直任務，構建評測集。最近半年到一年，客戶從效果轉向性能和成本。因為我們的模型體量增長了幾十倍，客戶也進入了嚴肅的生產環節，模型效果基本得到驗證了。

客戶關心TPS、首包延時，甚至精細化到4K輸入和10萬輸入，有分別不同的TPS跟首包的要求。

有些業務有高并發需求，比如智能外呼，半小時內完成10萬通電話，對并發要求很高。

最后是成本，當使用量增長幾十倍、上百倍后，成本勢必成為客戶非常關心的話題。像一開始說到的視頻生成模型，目前還比較貴，如果客戶要批量生成自動化的廣告，他對成本訴求也會進一步提高。

泓君：聽起來客戶對行業理解已經很深，知道什么場景用小模型，什么場景用大模型。我感覺行業商業化已經不是起步階段，大家開始提出具體需求，對垂直細分和精細化程度有了更多的考量。

徐棟：是的，最近小模型需求特別多，重復性的任務，用小模型會更有性價比。意圖理解、意圖抽取等場景，很多企業的Chatbot或Agent第一步就是對用戶的理解和判斷，這方面小模型需求也很多。中小模型的post-training

（后訓練）

或fine-tuning

（微調）

需求最近三個月開始越來越多，客戶希望基于閉源模型混合自己的數據，訓練出適合他的小模型。

泓君：成本是大家非常關注的。從阿里角度看，推理成本降了多少？

徐棟：推理成本基本上每半年下降近一個量級（十倍）。成本下降受多個因素影響：

第一，模型結構稀疏化、混合精度、MTP等技術的應用。

第二，芯片與模型的垂直一體化設計帶來潛在紅利。

第三，調度優化，提高利用率。我們通過不同模型切換、時間段任務切換、夜間跑批任務等，帶來了利用率的提升。利用率非常高的話，成本就會下降。

補充一個具體案例吧，2025年底我們發布了Qwen3-Next，一個80B參數、3B激活的模型，稀疏比很高，相信很多開發者已經試過了，它的推理效率、效果和速度都有很大提升。

泓君：除了模型結構和算法，芯片設計和軟硬一體化對推理成本下降非常有幫助。谷歌TPU早期推理成本是OpenAI、Anthropic的十分之一，就是因為它是根據模型算法專門去設計的。

徐棟：所以我們看阿里巴巴的科技板塊，有云、有模型，有芯片的投入，三位一體，聽起來和谷歌有點接近。垂直一體化的好處很多，不僅是芯片和模型，還涉及到云，比如剛剛說的調度優化，就是跟云相關的。

泓君：我注意到你們是全球最全面的開源大模型，當時為什么決定開源？

徐棟：2023年8月前后，我們的7B模型得到非常大的市場反饋，基于這個模型，我們打開了全球格局。千問和萬相在海外社區活躍度很高。開源有幾個好處：

第一，增強人才吸引力，很多頂尖科研工作者或學生在學校就開始用千問模型，對其特性很了解。

第二，社區反饋幫助我們快速迭代，早期的時候非常明顯，社區里面包括推理框架、推理引擎，甚至端側部署等開發者圍繞生態幫我們做建設，提出的數據集和失敗案例問題，對我們模型快速迭代的幫助非常多。

我們在開源這塊是投入非常大的，國內外企業幾乎沒有開發者不知道千問，企業內部或多或少都會用到千問的一些能力。尤其是我們開過小參數模型，如1.5B、3B以下，我們還有一個最“甜點”的模型是32B（單顯卡可運行），在企業中有大量應用。

圖片來源：Hugging Face

泓君：開源和閉源，你們怎么做商業化平衡？客戶拿到開源模型就可以免費用，閉源模型是有商業化收入在里面的。

徐棟：首先，阿里云是一家云公司，開源對我們云業務的帶動非常明顯，形成了商業化的正循環。第二，開源模型在發布時是離線版本，我們會在API版本（閉源）會進行修正和能力提升。很多開源生態用戶也希望使用更簡單易用、并發更高的MaaS服務。另外，開源模型考慮開發者易用性，參數不會太大。我們最大的模型千問3 Max沒有開源，因為部署成本很高，有需求的客戶會選擇千問3 Max。

泓君：2025年春節前后，DeepSeek發布開源模型，讓中美眼前一亮。你覺得他們的發布對阿里有沖擊嗎？包括商業化方面。

徐棟：市場還處于中早期階段，更多模型公司推動技術進步是最重要的。他們的論文清晰有參考意義，對整個行業是很好的推動。開源后反而帶動了開源生態活躍，讓千問開源得到進一步發展。千問從0.5B到235B版本跨度大，企業不同場景都可以用到，更新節奏快，基本上我們一個月發三個小版本，三個月到半年發五個左右的大版本。這是一個相互促進的過程。

泓君：今年大家討論如何衡量應用是否火爆，行業常用方法是看用了多少Token。你覺得未來如何評價大客戶或火爆應用？Token量是合理的評估指標嗎？

徐棟：我認為階段性有參考意義，很多公司用Tokens衡量創業估值，但長期來看，一定會回歸到收入，不一定是Token直接帶來的收入，也可能是封裝成Agent的收入。我們內部探討Model As Service

（模型即服務）

和Agent As Service

（智能體即服務）

。Tokens有一些弊端，比如最小模型和最大模型的成本、收入可能差1000倍，商業價值也會有很大不同。再比如說多模態，語音模型和文本模型的Token度量衡也沒有清晰地統一起來。但Token依然是目前觀察業務使用量的較好指標，我們比較關注。

泓君：Model As Service

（模型即服務）

和Agent As Service

（智能體即服務）

，有什么區別？

徐棟：Model As Service強調的是模型的服務能力，比如你能不能時刻推出最新的模型、你的API應用性是否足夠高，包括實時API、跑批任務等，這些都是它衍生出的很多產品的用法。

Agent As Service可能按場景或行業劃分，它可能用到多個模型，最后封裝出標準的任務結果給客戶使用，比如Deep Research就是一種智能體即服務能力。

泓君：你覺得現在大家在大模型研發上的投入還多嗎？我指的是基礎大模型最前沿的、性能最高的、再把模型推向極限的模型研發。我的感受是，現在大家也關注模型進化，但討論熱度不如商業化高。

徐棟：這可能是一個小的反共識，或誤區。從模型角度看，我覺得模型研發投入反而變大了。市場上每家公司、實驗室都說自己缺算力，這意味著他們的工作結果可以被定量衡量的，這是一個高度競爭的過程。只是它可能不像過去那么顯性，比如突然推出o1模型，它具有推理能力了，或者突然有了Nano Banana，它可以做編輯了。現在模型進入精耕細作階段，可能沒有太多極端的范式上的改變，但是有大量工程細節需要推敲。所以為什么成本在以量級下降？就是因為可以做的工作太多了，比如數據清洗、評價標準等，過去用規則，現在可以用模型，有大量細節工作可以做。

圖片生成質量在4個月里的進化圖片來源：千問Qwen

泓君：現在模型研發主要表現在哪些方向？剛才我們講到了多模態是大家關注的重點，去年Agent大爆發，比如在Coding Agent方面，Anthropic和硅谷幾家大的模型廠商在代碼提升方向放了更多數據配比和優化。你覺得未來行業趨勢中，大家的模型研發在拼哪些方向？

徐棟：籠統講是Agentic能力。Agent或者Agentic這個詞，每個人定義都不一樣。從結果表現看，我期待的是一個模型能連續運行兩個星期，并拿到好結果。在這個過程中，它需要與環境不斷交互，它需要自己做思考判斷和假設。這樣的模型結果一定會是非常棒的?；氐揭婚_始講到的語言模型的投入方向：工具調用能力、上下文能力、復雜指令遵循能力、推理能力。這些能力不斷提升，組合起來會帶來實際業務落地的很大改變。

泓君：所以主要是精耕細作，而不是在模型智能上？

徐棟：對，這取決于智能的定義。如果智能可以打分，這些精耕細作都是讓智能分數越來越高。

從全景理解到自動剪輯

泓君：亓教授先來講一下，你們Insta360的產品是怎么樣跟AI結合的？

亓魯：我們是一家影像公司，使命是讓用戶更好地記錄和分享生活。所以與阿里的合作中，比較典型的是云端自動剪輯。我們希望用戶拍了一天或一整年的素材，能夠智能地剪輯成一條拿得出手或愿意分享的視頻，這對我們公司的戰略非常關鍵。

泓君：影石是我非常喜歡的公司，亓教授您可不可以詳細講一講，你們是怎么用到AI工具在視頻剪輯中的？

圖片來源：Insta360

亓魯：自動剪輯本身是一件特別主觀、玩法比較多的事情。難點不是把用戶片段拼起來，而是能命中用戶的剪輯意圖。不同人喜好不同：有的用戶在意故事延續性，希望視頻像一部小型紀錄片；有的用戶想要高光瞬間，讓影片節奏更快；還有的用戶注重氛圍和表達，比如配樂情緒、鏡頭語言、轉場風格。

所以我們與阿里的合作主要集中在兩個方面：一個是千問的多模態理解模型，另一個是萬相的視頻生成模型。前者偏感知和理解，后者偏特效生成。

泓君：假設我給AI工具輸入指令：“剪輯我所有從雪山滑下來失敗的瞬間?！彼紫纫斫庹Z義，其次要在視頻里分析哪些是失敗的瞬間。

亓魯：對。我們的多模態理解負責看懂用戶素材，理解每個片段發生了什么，進一步做高光提取、人物與事件判斷，最后將片段以結構化形式編排，讓素材成為有邏輯、有主線的內容組合。

泓君：你覺得現在整個模型的能力，它能理解到哪一步？能剪輯到哪一步？

亓魯：現在多模態理解在語義層面能滿足一定需求，更大的問題是如何進行用戶意圖識別。用戶意圖可能與素材無關，更多是用戶行為或給出的指示詞。但很多時候用戶自己也不知道如何表達想剪輯成什么樣。這是一個比較大的難點：怎么讓剪輯算法理解用戶到底想要什么。

泓君：就像用戶是不是一個好甲方，能否讓乙方清楚理解意圖。比如“失敗的瞬間”可能不夠，要說“從雪橇上飛出來的畫面”，給出更清晰客觀的定義，是這一步很難嗎？

亓魯：對。如果要求用戶給出清晰定義，那這個體驗也會很差。我們更希望用戶用模糊語句，我們就能理解。這在模型層面還比較難。

泓君：在你們用AI做影片時，推出了哪些具體功能？如何用到多模態的？可以跟大家講一講嗎？

亓魯：影石最核心的產品是全景相機，秉承“先拍后剪”理念：拍攝時用360度全角度覆蓋記錄現場，剪輯時再挑選最佳視角、最合適節奏，把內容講成故事。

全景素材與普通廣角相機不同，是360度全景圖。雖然通用大模型在預訓練階段會用到360度素材，但在海量平面素材面前，全景數據量就顯得很少，導致模型對360度全景素材理解較差。

影石會分為自研和調用API兩部分。我們通過自研的全景理解模型，先對全景素材進行高光提取，這是影石的核心技術壁壘，然后接入通用大模型進行平面內容編排。

泓君：哪部分自研，哪部分調用API？補充一句：從全景相機中提取可用素材，這個需求很硬核，因為你有一個主方向，可能三分之二素材是沒用的。

亓魯：如果是360度素材，即使場景相對單一，加上各種運鏡玩法，也可以讓素材更為生動。我們自研的部分主要是基于全景的多模態理解模型，后面更傾向于用通用大模型幫助理解平面素材。

泓君：比如用戶拍一段三分鐘左右的360度視頻，AI把最有亮點的環節剪出來，大概消耗什么成本？卡在哪？成本下降的核心驅動力是什么？

亓魯：用戶剪一段這樣的素材可能需要十幾塊錢成本，還是蠻貴的。我們希望在技術上解決，包括對模型輸入做更高的信息壓縮，因為全景素材可壓縮率較高。我們更希望結合全景特性，從技術手段上把Token數量壓下來。

不止是降本，更是增效

泓君：接下來聊第二個案例，語憶科技如何幫助大型零售公司用AI提升業務能力。呂總，我知道雀巢、寶潔、泡泡瑪特等都是你的客戶?？梢韵冉榻B一下你們主要做什么嗎？

呂瀛杰：我們是為國內和跨境消費品牌提供全域消費者洞察分析的、AI ToB的一家SaaS公司。

泓君：可以分享一下你們怎么做AI，怎么與客戶合作嗎？

呂瀛杰：以前，中國消費品電商企業主要運營方式是通過產品買流量直接轉化客戶，非常依賴流量紅利。2023年后，流量紅利見頂，很多頭部企業逐漸意識到要從流量思維進化到“流量+消費者思維”，這就誕生了大量消費者調研需求。

企業在電商領域有很多消費者與客服溝通的數據，很多客戶曾用大模型直接對原始數據進行意圖理解和抽取，但他們自己做準確率連70%都達不到。

我們想幫他們解決這個問題。我們從2021、2022年開始用GPU跑顯卡，做了一個非常垂直的、針對不同行業的消費者意圖識別小模型?？蛻粝Ｍ覀儗υ颊Z料打標，打出消費者畫像，并且識別意圖，幫他們搭建意圖識別Agent。

這些畫像不同于傳統投流用的年齡、職業等，而是與產品興趣直接相關，比如一個頭部美妝品牌，希望了解消費者膚質情況、使用產品后的反饋、是否過敏等。

泓君：這些信息怎么收集？我覺得這些信息很有用，比如我買護膚品或化妝品時，覺得選擇太復雜，研究清楚要花很久。

呂瀛杰：比如您買東西時，我們會讓客戶在接待話術中做埋點改造?？蛻暨M線后，客服主動說：“我是您的護膚美妝顧問，為了更好地推薦產品，希望了解您的膚質情況?！边@樣改造后，消費者提及率會高很多。

這是一個方向。在處理過程中我們發現幾類意圖：第一類是消費者畫像；第二類是消費者對產品、服務、物流、營銷的反饋（正面或負面）；第三類是歸因，舉個例子，一個國內頂級日化品企業，原來有六個員工人工登記退貨原因，對應責任部門，用于績效評定。我們幫他們搭建Agent歸因模型后，現在只有一個人復審。

泓君：你們與這些企業合作，他們用AI有好幾層動力。我們可以一個一個分析，取代客服可能是最常用的AI功能，你覺得效果好嗎？

呂瀛杰：我們不覺得是完全替代客服?？头ぷ髁鞣质矍敖哟褪酆筇幚?。售前接待中，客戶問產品問題，大模型經過知識庫訓練校準后，回答準確率可能比人還要好，非常棒。但客戶的真實咨詢場景更復雜，比如客戶問優惠券，大模型可能直接回答金額，但客戶接著問浙江地區能否參加國補，大模型再調取政策，如果再復雜到怎么湊單最能優惠，這樣延展下去，AI的準確率可能就不夠好。

泓君：在這些環節中，你們與基礎模型如何合作？以千問大模型為例，它們提供哪部分能力？

呂瀛杰：基座模型能提供消費者問題的意圖識別。其次，普遍做法是為客戶搭建AI知識庫，通過大模型識別意圖后，進入下一個工作流，用RAG方式獲取外掛知識庫。此外，大模型對知識庫清洗也有很大幫助，因為企業內部知識可能不是標準化文檔，可能有詳情頁圖片、Xmind工作流等。這么多復雜的知識源，都需要大模型梳理到知識庫中。這也是基座模型能力的重要體現。

泓君：你們選模型時最看重什么？是基座模型能力，還是調用接口？

呂瀛杰：我們的核心是幫品牌做消費者意圖識別理解，所以非?？粗鼗Ｐ驮谶@方面的能力。我們也有一些跨境的客戶，也有一些多語言的數據，我們測試過國內外模型，發現阿里的千問在電商場景的消費者意圖理解能力還是比較強的。

泓君：你們的位置很有意思：上游是基座模型，你們是中間層，下游連接想應用AI的企業客戶。你覺得這些客戶用AI是為了省成本還是增銷量？是做存量還是增量市場？

呂瀛杰：這是個動態發展的過程。2023年大家探索如何用AI幫助企業時，非常關注降本。但去年市場變化很大，很多企業發現用AI自動化節省一些人工，雖然能打平用人成本，但也沒有帶來特別大的效益價值。2024年下半年開始，越來越多企業想用AI增效，希望AI去幫他們發現深度的產品機會、消費者需求點，或老產品的新場景。

舉個例子，一個國內頂級家電品牌的高端產品線（客單價2萬以上），通過我們提供的AI消費者畫像識別和產品反饋分析，針對客戶功能需求設計營銷賣點、主播話術、客服話術。合作一年半后，整體銷量漲幅23%，高端線產品客單價提高6%以上。因為我們和這一個事業部合作效果很好，2025年他們把我們推薦給整個集團，每個事業部都接入了AI識別模型和SaaS產品、Agent能力。

泓君：像你們這樣一端連模型、一端連客戶的中間服務層，核心競爭力是什么？是對業務的理解深度，還是技術能力？

呂瀛杰：我們兩方面都有。我們會訓練針對不同行業意圖識別的模型，形成自己的數據飛輪?？蛻艨吹降氖且鈭D識別標簽和成品Agent，但我們會留存數據訓練垂直模型，在意圖識別場域越來越準，尤其是對同類目的客戶。

更重要的是，客戶希望我們不僅是技術供應商，還能以行業專家的身份提供行業know-how，比如頭部企業如何應用AI產品，所以我們的客戶成功團隊

（CSM）

也會配置不同行業的專家提供服務。

泓君：有個更未來的問題：AI在意圖識別后匹配更精準商品，確實能帶來銷量提升和轉化。那么隨著越來越多行業和大品牌把AI打入工作流和銷售環節，最終所有企業都用上AI后，效果會不會慢慢變弱甚至追平？我們現在是否還在紅利期？

呂瀛杰：這個問題有意思。大家都升級軍火庫后，還有什么競爭力？我認為AI未來的價值核心還是掌握在人手里，看如何使用它。在意圖識別、方向匹配、Deep Research報告生成上，各企業可能大體一致。但最終決策者如何看待這些數據、挖掘AI處理后的洞察，非?？慈说亩床炷芰?。最后還是要人找到真正的機會點。

泓君：這個總結特別好。現在是在AI紅利期，越往后歸因，未來真正的好產品才最具競爭力。

呂瀛杰：對。所以好的產品經理、好的伙伴永遠有機會。我再提個題外話：AI對To B SaaS行業在客戶收費意識教育上起到了非常好的效果。以前中國To B企業客戶付費意愿和金額不高，因為他們認為誰都可以做軟件，價值不大。但AI這波影響很大，客戶明確認識到AI按Token計費，用了多少數據量就有相應成本，如果不付錢，就無法提供服務。在付費意識這塊，我們也在朝著美國To B市場同步。

【音頻收聽渠道】

公眾號：硅谷101

收聽渠道：蘋果｜小宇宙｜喜馬拉雅｜蜻蜓FM｜網易云音樂｜QQ音樂｜荔枝播客｜嗶哩嗶哩

海外用戶：Apple Podcast｜Spotify｜TuneIn｜Amazon Music

聯系我們：podcast@sv101.net

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.