337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

agno v2.3.21版本發布詳解:AgentOS全面支持Agent As Judge評測與多項穩定性增強

0
分享至




2025年12月23日,agno 官方發布了 v2.3.21 版本。本次更新在保持高性能和私有化架構優勢的基礎上,重點增強了 AgentOS 對評測體系的支持,同時修復了多個在實際生產和評測場景中可能遇到的問題,并補充了新的 Cookbook 示例。下面將基于本次發布內容,對 v2.3.21 的核心更新進行系統梳理。

一、核心新特性:AgentOS全面集成Agent-as-Judge評估

本次更新最核心的增強在于對“Agent as Judge”(智能體作為評判者)評估功能的全面支持,并將其深度集成到了AgentOS控制平面中。

1. 功能概述
“Agent as Judge”是一種先進的評估范式,它使用一個專門的智能體(Judge Agent)來評估另一個智能體(或團隊)在給定任務上的輸出質量。這通常用于衡量響應的準確性、相關性、完整性等主觀性較強的指標。與傳統的基于規則或簡單字符串匹配的評估方式相比,Agent as Judge能夠利用大語言模型的理解能力,進行更接近人類判斷的評估。

2. 集成詳情
在v2.3.21之前,開發者可能已經能夠在Agno框架內創建Agent as Judge評估邏輯,但管理和運行這些評估可能不夠便捷。本次更新后,這一功能在AgentOS中獲得了完整的官方支持:

  • ? 配置與觸發 :用戶現在可以直接在AgentOS的Evals(評估)頁面中,配置新的Agent as Judge評估任務并觸發其運行。這為評估工作流提供了統一的圖形化界面。

  • ? 統一管理 :Agent as Judge評估的運行記錄將與現有的準確性、性能、可靠性等評估結果一同,集中展示在Evals頁面中。這實現了對所有類型評估的集中監控和管理,極大地提升了操作效率。

  • ? API端點增強 :對應的GET API端點也已更新,現在可以返回Agent as Judge評估的相關數據,確保了控制平面與后端服務的數據一致性。

3. 開發者價值
這一集成意味著團隊可以更系統化地對智能體的輸出質量進行監控和迭代。例如,在產品上線后,可以定期用Agent as Judge評估客服智能體的回答是否恰當,或者審核內容生成智能體的輸出是否符合安全規范。所有評估歷史和結果都可在AgentOS中追溯,為模型優化和提示詞工程提供了數據基礎。

二、關鍵問題修復

v2.3.21版本修復了兩個可能影響開發體驗和生產穩定性的問題。

1. RunInput對象持久化修復

  • ? 問題描述 :當開發者將 RunInput 對象的 input_content 屬性設置為一個 Message 對象的列表時,框架在嘗試持久化(例如存入數據庫)該對象時會發生錯誤。 RunInput 用于封裝單次智能體運行的輸入信息,而 Message 是構成對話歷史的基本單元。這個問題會導致包含復雜對話歷史的運行記錄無法正確保存。

  • ? 修復內容 :開發團隊修復了 RunInput (及其對應的 TeamRunInput )的 to_dict()input_content_string() 方法中的序列化邏輯。現在,當 input_content 是一個混合了 Message 對象、字典或其他基礎類型的列表時,框架能夠正確地將所有元素遞歸地轉換為可JSON序列化的字典結構。修復確保了無論輸入內容多么復雜,都能被無歧義地轉換為字符串或字典格式,從而順利地進行網絡傳輸或數據庫存儲。

  • ? 影響 :這個修復對于依賴會話歷史、實現復雜對話邏輯或進行運行審計的應用至關重要。它保證了數據管道的可靠性。

2. MistralEmbedder類超時設置修復

  • ? 問題描述MistralEmbedder 類用于調用Mistral AI的嵌入模型,將文本轉換為向量。在之前的版本中,其 timeout 參數(用于設置HTTP請求超時時間)的傳遞方式存在錯誤,導致設置可能未生效或格式不正確。

  • ? 修復內容 :修復了初始化Mistral客戶端時的參數映射。現在, timeout 參數會被正確地轉換并傳遞給底層的客戶端庫( timeout 秒被轉換為 timeout_ms 毫秒)。這保證了開發者可以有效地控制嵌入過程的等待時間,避免因網絡問題或服務延遲導致進程無限期掛起。

  • ? 影響 :該修復提升了使用Mistral嵌入模型進行知識庫構建(RAG)時的穩定性和可預測性。特別是在處理大量文檔或網絡環境不穩定時,合理的超時設置可以防止整個工作流阻塞。

三、新增實用示例:語音轉文本工作流

本次更新在cookbook中添加了一個全新的、名為“Speech to Text”的示例目錄,展示了如何利用Agno構建一個端到端的語音轉文本應用。

1. 示例結構
該示例包含了多個獨立的腳本和一個完整的工作流,演示了不同的實現方式和集成深度:

  • ? 基礎單智能體轉錄

    • ? stt_openai_agent_simple.py :使用OpenAI的語音模型(gpt-audio)進行簡單轉錄,返回純文本。

    • ? stt_openai_agent.py :同樣使用OpenAI模型,但通過 parser_model (如gpt-5-mini)將轉錄結果解析為結構化的Pydantic模型輸出(包含說話人、每句話文本等字段)。

    • ? stt_gemini_agent.py :使用Google Gemini模型進行結構化轉錄,展示了模型無關的特性。

  • ? 高級工作流stt_workflow.py :演示了如何構建一個Agno Workflow,將音頻URL獲取、音頻格式轉換(如MP3轉WAV)、智能體轉錄、結構化輸出生成等多個步驟編排成一個自動化流程。該工作流可部署到AgentOS,提供一個完整的服務端點。

2. 技術亮點

  • ? 多模態支持 :示例核心利用了Agno智能體原生的多模態處理能力。通過 agno.media.Audio 類,可以直接將音頻字節數據或文件傳遞給智能體。

  • ? 結構化輸出 :展示了如何通過定義Pydantic output_schema ,讓智能體返回高度結構化的轉錄結果,而非雜亂文本,便于下游系統處理。

  • ? 工作流編排stt_workflow.py 是Agno Workflow能力的典型展示。它將不同的處理單元(函數、智能體)連接成有向無環圖,管理狀態傳遞和錯誤處理,適用于生產級復雜任務。

  • ? 模型無關性 :示例同時使用了OpenAI和Gemini的模型,強調了Agno可以輕松切換底層AI提供商。

3. 開發者價值
這個示例為開發者處理音頻輸入場景提供了即用的模板。無論是構建會議記錄工具、客服錄音分析系統,還是任何需要將語音轉換為可分析文本的應用,都可以以此為起點快速開發。

四、其他重要變更與文檔更新

除了上述核心內容,v2.3.21版本還包含了一系列細微但重要的調整。

1. 數據庫集成調整
agent_as_judge_basic.py示例中,數據庫從SQLite切換為了PostgreSQL,并提供了標準的連接字符串示例。這引導開發者從開發環境(SQLite)更平滑地過渡到生產環境(PostgreSQL)。

2. 評估邏輯優化
在Agent as Judge評估運行后,將評估結果記錄到數據庫時,現在正確地將“評判者智能體”所使用的模型信息(model_id, model_provider)與“被評估智能體”的模型信息區分開來并分別存儲。這使得評估元數據更加清晰,便于分析不同評判者模型對評估結果的影響。

3. README與文檔優化
項目的主README.md文件以及Cookbook的說明文檔cookbook/README.md都進行了大幅重寫,風格更加簡潔、指向性更強。

  • ? 快速定位 :新文檔更明確地根據用戶目標(“我想構建單個智能體”、“我想讓智能體協作”、“我想部署和管理”)來引導讀者前往相應的示例目錄。

  • ? 特性強調 :更突出地強調了Agno“私有化部署”、“性能極致”、“生產就緒”的核心優勢。

  • ? 入門引導 :將“入門指南”和“完整演示”作為最優先的路徑,降低新用戶的學習曲線。

4. 依賴項更新

  • ? 將核心 agno 包版本升級至 2.3.21

  • ? 更新了 fastapifastapi-cliyfinance 等關鍵依賴的版本,以獲取最新的功能和安全補丁。

五、總結與展望

Agno v2.3.21版本是一次扎實的迭代,它沒有引入顛覆性的變更,而是在現有強大的基礎上進行打磨和增強。

  • ? 對于評估與監控 :通過將Agent as Judge深度集成到AgentOS,它為團隊提供了企業級的智能體性能評估工具,使得基于LLM的定性評估變得可配置、可觸發、可追溯。

  • ? 對于框架穩定性 :對RunInput序列化和MistralEmbedder超時的修復,解決了特定場景下的潛在bug,提升了框架在處理復雜數據和外部服務調用時的魯棒性。

  • ? 對于開發者生態 :新增的語音轉文本示例是一個高質量、可直接復用的“菜譜”(Cookbook),豐富了Agno的應用場景庫,展示了其在多模態和復雜工作流方面的強大能力。

拓展視野:擁抱AI浪潮,關注行業前沿

在鉆研Agno這類前沿多智能體技術的同時,了解更廣闊的AI行業動態同樣重要。如今,AI正以前所未有的深度重塑工作和創造力。

在此為大家推薦一個高質量的行業信息源——由脈脈平臺推出的 【脈向AI】 直播欄目。這個欄目專注于:

核心價值:

  • ? 提供最新的AI工具、模型趨勢和行業深度解析

  • ? 邀請AI領域 頭部創作者、行業專家 分享一線經驗和未來洞見

  • ? 探討AI在內容創作、效率提升、產品創新等場景的實際應用

  • ? 提供 實時互動 機會,可直接向嘉賓提問并獲得解答

? 對開發者的意義:
這不僅是了解行業趨勢的窗口,更是拓展技術視野、連接行業人脈、把握職業新機遇的平臺。在脈脈這個覆蓋超2億職場用戶的生態中,你能接觸到最真實的行業聲音和機會。

參與方式:
歡迎關注脈脈APP內的 「脈向AI」 欄目,預約最新直播,與AI前沿保持同步。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上報78億實際到賬不足1億,河南舞陽引進省外資金數據造假,當地基層:上級只看數字增長

上報78億實際到賬不足1億,河南舞陽引進省外資金數據造假,當地基層:上級只看數字增長

都市快報橙柿互動
2026-04-08 22:18:06
24小時極限反轉!中東局勢突變,美伊雙雙讓步之時,以色列出手了

24小時極限反轉!中東局勢突變,美伊雙雙讓步之時,以色列出手了

混沌錄
2026-04-09 16:16:35
切爾西截胡阿根廷國腳:21歲中場點頭,轉會費卻卡在母公司

切爾西截胡阿根廷國腳:21歲中場點頭,轉會費卻卡在母公司

賽場速報局
2026-04-09 16:22:00
又打起來了,以軍機被擊落,美國或已出兵伊朗?白宮下令“撤僑”

又打起來了,以軍機被擊落,美國或已出兵伊朗?白宮下令“撤僑”

Ck的蜜糖
2026-04-09 16:13:54
嚴查電動車接送小孩!接娃怎么辦?國家新規定:把方便留給群眾!

嚴查電動車接送小孩!接娃怎么辦?國家新規定:把方便留給群眾!

番外行
2026-04-09 16:00:14
隨著巴薩0-2,利物浦0-2,歐冠最新奪冠賠率出爐:阿森納第1,皇馬第6

隨著巴薩0-2,利物浦0-2,歐冠最新奪冠賠率出爐:阿森納第1,皇馬第6

側身凌空斬
2026-04-09 05:52:03
淺析:A-10從疣豬變成獨角獸 美國空軍尋求增強現役飛機戰術價值

淺析:A-10從疣豬變成獨角獸 美國空軍尋求增強現役飛機戰術價值

hawk26講武堂
2026-04-09 13:28:50
【世界說】著名經濟學家警示美國不應沉溺“經濟傲慢” 沖突外溢效應沒有“例外”

【世界說】著名經濟學家警示美國不應沉溺“經濟傲慢” 沖突外溢效應沒有“例外”

中國日報網
2026-04-09 11:16:01
深圳老板破產6年,女兒從國外來電:你忘了倫敦金融街的房子嗎?

深圳老板破產6年,女兒從國外來電:你忘了倫敦金融街的房子嗎?

農村情感故事
2026-04-06 08:25:36
0-2 爆冷!巴薩紅牌 + 失利,巴黎 2-0 碾壓利物浦,歐冠變天了

0-2 爆冷!巴薩紅牌 + 失利,巴黎 2-0 碾壓利物浦,歐冠變天了

天下足球資訊
2026-04-09 16:25:19
“中年男人專供”,圍獵年輕女孩

“中年男人專供”,圍獵年輕女孩

DT商業觀察
2026-04-08 11:56:15
以色列大難臨頭!美伊停火,內塔被拋棄了!

以色列大難臨頭!美伊停火,內塔被拋棄了!

大嘴說天下
2026-04-08 20:33:15
趁你病要你命!鄭智遭1-5暴擊主場搶分 李金羽上門補刀劍指三連勝

趁你病要你命!鄭智遭1-5暴擊主場搶分 李金羽上門補刀劍指三連勝

刀鋒體育
2026-04-09 09:32:17
孫中山遺體,為何從開始的永久保存供人瞻仰,轉變為混凝土封固

孫中山遺體,為何從開始的永久保存供人瞻仰,轉變為混凝土封固

云霄紀史觀
2026-03-31 16:47:50
官方出手了!282人微信群罵全紅禪三年,群成員被扒,身份不簡單

官方出手了!282人微信群罵全紅禪三年,群成員被扒,身份不簡單

離離言幾許
2026-04-09 12:20:45
你遇到過哪些驚為天人的人物?網友:啟動一小時休眠一整天

你遇到過哪些驚為天人的人物?網友:啟動一小時休眠一整天

夜深愛雜談
2026-03-20 19:32:42
黎巴嫩宣布4月9日為全國哀悼日

黎巴嫩宣布4月9日為全國哀悼日

財聯社
2026-04-09 06:21:05
網友好奇:網暴全紅嬋的群主是誰?群內真有現役運動員嗎?

網友好奇:網暴全紅嬋的群主是誰?群內真有現役運動員嗎?

羅納爾說個球
2026-04-08 23:08:09
毛主席有個奇怪的原則,一生從不碰這三種東西,它們都是什么?

毛主席有個奇怪的原則,一生從不碰這三種東西,它們都是什么?

歷史點行
2026-04-05 17:49:27
做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

共工之錨
2026-04-09 00:12:56
2026-04-09 17:16:49
moonfdd incentive-icons
moonfdd
福大大架構師每日一題
1172文章數 63關注度
往期回顧 全部

科技要聞

Meta凌晨首發閉源大模型 扎克伯格又行了?

頭條要聞

湖北文旅歌曲創作項目中標價2年暴漲159.2萬 紀檢發聲

頭條要聞

湖北文旅歌曲創作項目中標價2年暴漲159.2萬 紀檢發聲

體育要聞

8萬人面前心臟驟停 現在他還站在球場上

娛樂要聞

金莎官宣結婚 與老公孫丞瀟相差18歲

財經要聞

談判基礎已被破壞!霍爾木茲海峽關閉

汽車要聞

文飛的回歸 給神行者帶來什么?

態度原創

時尚
數碼
教育
房產
公開課

ED網紅病,正在掏空年輕女性

數碼要聞

機械師推出G7三模鼠標:超頻24000DPI,56g,首發價99元

教育要聞

省政府發文:高校需引進足球教練員

房產要聞

利潤暴跌44%!那個春節被罵慘了的海峽股份 正在經歷什么?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版