![]()
2024年,一個做LLM可觀測性的開源項目Langfuse在GitHub攢了2.1萬星。同年,ClickHouse——那家做列式數據庫的俄羅斯公司——把它收購了。這筆交易沒透露金額,但信號很明確:LLM監控這個賽道,已經從"要不要做"變成"誰能吞掉誰"。
與此同時,另一家公司OpenObserve正在用完全不同的打法切市場。他們的賣點不是"專精",而是"通吃"——把LLM可觀測性和傳統基礎設施監控塞進同一個二進制文件,存儲成本壓到行業平均的1/140。
這像極了云計算早期的故事。當年AWS用EC2+S3的組合拳打垮了一堆垂直廠商,現在OpenObserve想復刻一遍。
為什么傳統監控工具在LLM面前失靈
Grafana和Prometheus能告訴你CPU占了多少、內存夠不夠、請求延遲在第99百分位是多少。但LLM出錯的方式完全不同:模型可能突然開始胡說八道(幻覺),提示詞模板被同事改了一個詞導致輸出質量暴跌(提示漂移),或者某個Agent循環調用了47次API才完成任務(成本失控)。
這些問題的共同點是——它們發生在語義層,而不是基礎設施層。
CHI 2025年的一項研究找了30個開發者,總結出四條設計原則。簡單說就是:你得能看到每次調用的完整鏈條(追蹤),能把這次輸出和上周的對比(版本控制),能自動標記"這回答很爛"(評估),以及所有數據必須能導出,不能鎖死在某個SaaS里。
滿足這四條的,目前市面上有明確開源協議的,主要就三家:OpenObserve、Langfuse、Arize Phoenix。
OpenObserve的"作弊"打法
大多數LLM監控工具選擇做減法:只盯AI應用層,傳統DevOps的事交給Grafana。OpenObserve反著來——它用Parquet/Vertex列式存儲+激進壓縮,把日志、指標、追蹤、前端性能(RUM)全塞進一個部署包。
![]()
官方給出的數字是140倍存儲成本優勢。換算一下:如果你原來每月花1.4萬美元存監控數據,現在1000美元搞定。
更實際的好處是查詢體驗。OpenObserve用SQL,而不是PromQL、LogQL、TraceQL混著來。一個查詢就能把"某次LLM調用慢"和"當時Kubernetes Pod的CPU曲線"關聯起來。對于已經養了DevOps團隊的公司,這意味著少學一門方言。
部署也極簡。單二進制文件,2分鐘啟動。這對想自托管又有數據駐留合規要求的企業很友好——金融、醫療、政務場景常見。
協議是AGPL-3.0。 copyleft屬性意味著如果你修改后對外提供服務,必須開源。這對云廠商是威懾,對自用團隊沒影響。
Langfuse:被收購后的變數
Langfuse的路線是另一個極端:只做LLM層,做透。追蹤、提示詞管理、評估、數據集管理——這四塊構成了一個完整閉環。MIT協議,核心代碼完全開放。
被ClickHouse收購發生在2024年末。ClickHouse的動機不難猜:Langfuse產生大量結構化追蹤數據,正好喂給列式數據庫。但這也意味著Langfuse的技術棧可能深度綁定ClickHouse,對于已經投了Snowflake或BigQuery的團隊,這會是個糾結點。
GitHub 2.1萬星的社區基本盤是真實力。Y Combinator W23的背景讓它早期就拿到硅谷 attention,開發者口碑積累扎實。如果你團隊的技術棧以Python/TypeScript為主,Langfuse的SDK集成體驗目前仍是第一梯隊。
但收購后的路線圖尚不明朗。ClickHouse會把它推向"數據分析"還是保持"工程監控"定位?這個答案可能要到2026年中才能看清。
Arize Phoenix: hallucination檢測的差異化
![]()
Phoenix的協議是Elastic License 2.0——"源碼可用"而非嚴格開源。你可以看代碼、改代碼、自己部署,但不能拿它做托管服務賣。
它的差異化在RAG和Agent場景。內置的幻覺檢測不是簡單的規則匹配,而是結合嵌入向量漂移可視化——當你的知識庫文檔被更新、導致檢索結果質量下滑時,能提前預警。
對于已經在用Arize AI企業版的大客戶,Phoenix是自然的降維入口。但對于純開源用戶,協議限制和相對較小的社區(相比Langfuse)是現實考量。
選型建議:別被"LLM專用"綁架
三選一的場景其實很清晰。
如果你現在同時用著Datadog/New Relic監控基礎設施,又單獨買了某個LLM可觀測SaaS,預算在燃燒——OpenObserve的"統一棧"能直接砍掉一半工具鏈。140倍成本數字是理想情況,實際省多少取決于你的數據熵,但方向確定。
如果你團隊全是AI原生、沒有歷史DevOps包袱,Langfuse的垂直深度更香。提示詞版本管理和評估工作流是生產級LLM應用的剛需,這塊Langfuse比通用平臺打磨得更細。
Phoenix的適用面最窄:你的核心痛點是RAG質量不穩定,且能接受源碼可用協議。幻覺檢測這個功能,OpenObserve和Langfuse靠集成第三方也能做,但Phoenix是原生內置。
一個細節值得注意:OpenObserve基于OpenTelemetry標準,Langfuse和Phoenix也是。這意味著三家理論上可以互導數據,不會被單一供應商鎖死。但在2026年的現實里,遷移成本依然真實存在——查詢語法、儀表盤配置、告警規則都得重寫。
OpenTelemetry成了事實標準,但"標準"和"互通"之間,還隔著大量工程細節。
最后留一個問題:當你的LLM應用從Demo走向生產,監控預算占AI總成本的百分之多少才算合理?1%?5%?還是等到第一次生產事故之后,再回頭補票?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.