前幾天,在AI產品經理大會上,聲網對話式AI產品的負責人姚光華,被很多人圍住了。
原因是他在大會上分享了聲網去年與OpenAI合作推出全球首個Realtime API背后的故事,大家都很好奇OpenAI為啥會選聲網。
我研究了一下,原來OpenAI很早就公布了3家語音API合作者:Agora、LiveKit、Twilio。
其中,Agora是聲網在美國的兄弟公司,也是OpenAI長期深度的合作伙伴。
![]()
據說當時OpenAI找過不少候選方。有技術更強的實驗室,也有規模大的云廠商。但它們都有明顯短板。
實驗室技術行,可沒什么商業化落地經驗,扛不住真實場景的高并發。
云廠商的RTE服務大多是“附帶業務”,沒把這當核心方向發力。
聲網的優勢剛好在這里。
成立于2014年的聲網,已經在RTE領域深耕11年,早就在真實場景里受過考驗。
比如之前幫新東方扛過百萬師生同時上網課的流量峰值,還幫重慶120做過急救視頻會診的穩定支撐。
這種“能扛高并發、經得住實戰”的穩定性,正是OpenAI最需要的。只是交互的對象從人與人之間變成了人與 AI。
01. OpenAI Realtime API 與聲網的結合
OpenAI 自從推出 GPT-4o 之后,一直在推動模型語音交互能力。
GPT-4o 不僅支持文本,新增了音頻和視覺的推理能力,能更快響應音頻輸入,這讓實時語音交互進入到真實可用階段。
在 2024 年 10 月發布的 Realtime API 中,OpenAI 選擇了 Agora 作為其中一個集成伙伴,這標志著 OpenAI 正試圖把其語言模型的實時語音交互能力推向更廣泛的開發者生態。
通過 Agora 的 Conversational AI SDK,開發者可以在自己的應用里快速構建基于 OpenAI Realtime API 的實時語音交互產品。
![]()
解釋一下到底聲網和OpenAI合作了個啥~有幾個重要設計方向值得關注:
首先一個,是真實實時需求。
開發實時語音對話應用,不能把網絡延遲和語音處理疊加成可預期的抖動。
Agora 提供的底層實時網絡,沒有用普通 HTTP 或 WebSocket 去做請求,是有一套專門針對實時音視頻設計過的協議和網絡路由,能把延遲和丟包控制在更低水平。
再一個,是全鏈路優化。
為了提高真實環境下的語音交互質量,Agora 的 SDK 里加入了對環境噪聲抑制和 AI 回聲消除的支持。
這是典型的工程優化需求:用戶在街上、辦公室、家庭不同噪音環境下交互,需要快速把干擾降到可用水平,這樣模型才能接收到清晰輸入,反應才不會出現誤識別。
最后還得有高可擴展性。
這套 SDK 并不鎖定某個模型或一個服務商,開發者可以根據具體業務需求,將 OpenAI Realtime API 作為其中一個模塊接入使用。
通過標準化的調用方式,不同業務可以復用一套實時通信和語音處理能力。
這一整套解決方案的目標是減少開發者在實時語音對話這件事上的“自定義環節”,讓產品團隊能把更多精力投入在業務邏輯和產品體驗上,不需要再因為處理底層協議、丟包重傳、環境噪音等細節問題焦頭爛額。
![]()
02. 不止OpenAI:國內AI公司也在用聲網
在當下國內的AI產業中,既有摩爾線程、DeepSeek、MiniMax這樣的明星企業,也有很多像聲網這樣在背后默默提供AI底層技術支撐的企業,搭建起AI產業的基建,他們也同樣值得敬佩。
想搞懂聲網在AI領域的核心競爭力,看國內合作案例就很直觀。
最近MiniMax在沖刺國內大模型第一股,其實聲網去年就和它合作了。
倆家一起發布了國內首個Realtime API,2024年10月在RTE 2024實時互聯網大會上首次亮相。
這個API就是為了提升端到端實時多模態處理能力,讓延時更低,語音對話更自然。
還有像智譜、商湯等大模型公司,以及國內知名的AI應用/硬件,例如星野、豆神AI、芙崽Fuzozo等,也都在用聲網的對話式AI技術,構建極致的人機交互體驗。
![]()
現在AI陪伴、AI伴侶式應用越來越火了,而聲網的底層技術支撐,成了很多AI伴侶機器人規模化應用的關鍵基礎設施。
像聲網為Fuzozo芙崽提供對話式 AI 引擎,通過低延遲、高穩定的實時互動技術實現自然流暢的情感交互。
更早之前,MiniMax、星野、智譜清言,在打造多媒體互動平臺、語音交互體驗的時候,背后的技術支持也是聲網。
可以說,聲網為很先鋒的這批AI公司的核心體驗,提供了很深入、很細致的技術支持。
好比聲網對話式 AI 引擎提供的智能打斷處理技術賦予了智能體、機器人靈活的對話能力,能夠根據用戶的表達實時調整,極大地提升了交互的適應性與流暢度,告別機械式應答。
硬件、機器人公司的需求,也在聲網的技術服務射程范圍內。
機器人技術初創公司Carbon Origins,就已在通過 Agora的技術以及 OpenAI RealtimeAPI,實現重型設備的無接觸操作,提升操作人員的工作效率。
再比如在兒童智能手表場景里,屏幕本身很小,語音交互成為核心的輸入與反饋方式。
實時語音對話不僅要求聽得清,還需要語義理解準確,這對于設備端的處理能力和網絡調度提出了要求。
聲網在 IoT 端配合大模型能力,構建了一套低延遲語音識別、降噪處理、云端實時推理和混合多模態輸入的方案,幫助設備廠商在終端產品上實現更自然的語音體驗。
客服、娛樂等場景,也是聲網積累多年的優勢領域。
而近年和AI深度結合后,實時互動、場景拓展,帶來了更真正的效果提升。
![]()
人和人之間的實時互動和人和 AI 之間的實時對話從本質上有區別,但考驗底層通信穩定性的需求是一致的。
不同的是,前者是數據傳輸可靠性要求高,后者在此基礎上還需要對接模型推理和語音識別、合成等模塊。
![]()
現在很多人在談 AI 語音時只盯著模型和算法,但對實時性的要求是層層疊加的工程挑戰。聲網的價值正在于它把這些工程難題,做成了對開發者可復用的能力。
任何產業的崛起從不是單點的勝利,而是生態的共榮。當越來越多的中國企業通過創新在世界的舞臺上閃耀,我們才能在全球AI的浪潮中勇立潮頭。
03. 從實時音視頻到對話式交互:聲網的技術積累
聲網從最早做實時音視頻切入市場。過去十年,它積累了全球實時互動的基礎設施能力,規模和影響力已經非常明顯。
在教育、遠程辦公、娛樂直播、社交互動等領域,實時互動技術是基礎設施級別的能力。
這種技術看上去很靠底層,但實際上涉及非常多復雜工程問題。
不同國家、不同運營商的網絡環境差異很大,移動網絡的丟包、抖動、本地終端性能的不同,都對實時通信提出了極高要求。聲網在這部分積累的經驗,成為它進入 AI 實時互動的最大基礎。
到 2025 年10月,聲網的年度服務時長已經突破1 萬億分鐘級別,這說明有大量應用在背后持續使用它的實時能力。
![]()
一個技術在實驗室能跑,跟在全球真實網絡條件下跑是完全不同的兩個世界。
一個跑一兩百次請求成功,很容易;要在數千個物理節點和數百萬用戶并發訪問下保持穩定,需要的設計和工程迭代完全不是一丁點功夫。
這也是為什么 OpenAI 在全球范圍內尋找能夠支持 Realtime API 的合作伙伴時,會最終把 Agora 納入清單的一部分原因。
![]()
Agora 的實時網絡覆蓋范圍廣,存在多年的運營經驗、本地網絡調度優化能力,已被全球眾多開發者在實際商業場景中驗證過。
在網絡層、音頻處理和實時路由上,聲網有一套完整的解決方案,能縮短端到端的延遲,提升語音識別準確率和穩定性。
對企業和開發者的吸引力在于,不僅能讓開發者更快交付產品,還在實際復雜使用場景下表現更可靠。
![]()
有幾個我非常喜歡的功能,也是聲網的技術亮點,在實現人和AI 智能體的自然交互表現很突出:
自動問候:確保實時感知會話狀態,并提供自然、友好的初始交互體驗。
混合模態交互:支持在單個交互會話內,實現語音與文本輸入的無縫切換。
靈活的話輪檢測選項:為開發者提供對對話流程和話輪轉換行為的精細化控制。
無中斷輸入:通過選擇性注意力鎖定技術,可過濾環境噪音與干擾語音,確保交互過程不中斷。
這套方案不僅能簡化Realtime API的應用流程,還能為多模態 AI 智能體解鎖全新功能與應用場景。
將 OpenAI的實時語言模型與聲網的全球實時網絡基礎設施(SD-RTN)及定制化開發者工具包相結合后,開發者既能縮短產品上市時間、簡化應用開發流程,又能交付更優質的實時對話式 AI 體驗。
04. 技術提供者與生態構建者的角色
今天的 AI 技術發展已經進入一個新的階段,從單一模型能力向產品生態擴展推進。
開發者關注的不只是模型本身,還關注用戶是什么時間、在什么場景、以什么形式和模型互動。
聲網所處的位置,恰恰是核心基礎設施。
它長期積累的實時網絡能力、弱網適配、跨平臺支持、SDK 開發套件等,讓大規模實時互動成為可能。
不只是與 OpenAI 合作,現在,聲網支撐的實時互動覆蓋超過 200 多個國家和地區,月服務分鐘數已經達到了700億。
IDC 的市場數據還表明,在中國實時音視頻市場,聲網的份額持續保持著領先。
這種基礎設施級別的能力,不會因為模型更新而消失,它會隨著 AI 越來越多落地行業而變得更重要。
也許在2026年,隨著AI應用/硬件的規模化落地,AI行業的聚光燈,將真正打在聲網這樣的「幕后英雄」身上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.