Brockman一條推文,3小時20萬轉發。內容是GPT-4o的演示:實時看、聽、想,三位一體。
這有點像你終于等到一個同事——以前他聽你說話要回去消化三天,現在能當場接梗、改PPT、還能看你臉色調整語氣。延遲從"異步郵件"變成了"面對面眨眼"。
技術細節是:端到端訓練,一個模型處理音頻、圖像、文本,不再像過去那樣拆成三個部門走流程。結果是響應速度232毫秒,接近人類對話節奏。
用戶最直觀的感受是"它終于不卡了"。之前的語音模式像打電話找客服,每說一句要等轉接;現在像直接揪住了技術人員的袖子。
但Brockman沒說的是,這功能在內部已經跑了多久。OpenAI的發布節奏,向來是"能用了"和"敢放了"之間的博弈。20萬轉發里,有多少是驚訝于技術本身,有多少是驚訝于"你們居然現在才放出來",不得而知。
演示視頻里有個細節:研究員打斷它說話,它停下來,等。這個"等"比任何參數都說明問題——它開始理解對話的禮貌距離了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.