![]()
近日,加拿大初創公司Taalas 推出了一款 AI 推理芯片 HC1,這家成立尚不足三年的企業,憑借將 8B 輕量化大模型直接 “刻” 在芯片上的創新設計,讓 HC1 的運行速度在行業中脫穎而出,在輸出速度和極致的成本和功耗控制上直接甩開了英偉達的GPU產品。
![]()
很多人對Taalas 或許并不熟悉,這家公司成立于 2023 年,創始人 Ljubisa Bajic 同時也是加拿大知名AI芯片公司 Tenstorrent 的創始人,他曾先后在英偉達、AMD 擔任高級架構師,一手打造過 CPU-GPU 混合芯片。
而Taalas的核心團隊更是堪稱芯片圈的 “夢之隊”,25 名員工大多來自 AMD、蘋果、谷歌等科技大廠,擁有從芯片設計到系統落地的全流程實戰經驗。背靠這樣的技術團隊,Taalas 僅投入 3000 萬美元研發成本,耗時 60 天就完成了 HC1 的生產落地,推出了這款足以挑戰行業現有規則的產品。
截至目前,Taalas 累計融資已超 2 億美元,賬上仍有 1.7 億美元現金儲備,為后續發展奠定了充足的資金基礎
最快AI芯片?
HC1 最令人驚嘆的,莫過于其極致的推理速度。
這款采用臺積電6nm 工藝的芯片,在單用戶場景下推理速度高達 17000 token/秒。作為對比,英偉達 H200 芯片推理速度為 230 token/秒,其最新 Blackwell 架構的 B200 也不過 2000 token/秒。有測試者在 Taalas 的體驗網站 chatjimmy.ai 實際操作后表示,該模型的回復速度極快,基本在敲下回車的瞬間,答案就能出現在對話框中。
![]()
HC1 能實現如此快的推理反應,核心源于 Taalas 獨樹一幟的技術思路。
研發團隊拋棄了傳統 GPU “計算與存儲分離” 的經典架構,采用了存算一體式的設計方案,通過 Mask ROM 工藝將 Llama 3.1 8B 的模型權重直接編碼在芯片的金屬互連層中,讓模型權重與計算邏輯共存于同一塊硅片。這種設計徹底消除了數據搬運過程中的延遲與能耗損耗,芯片也無需搭配外部 DRAM 或 HBM,僅保留一小塊 SRAM 以提供最基礎的靈活性。
傳統GPU 進行運算時,需要從 HBM 顯存中反復搬運數據,這一過程會消耗大量能耗和時間,也是行業普遍面臨的 “內存墻” 問題;而 HC1 無需數據搬運,只需讓數據流過電路就能完成推理,運算效率自然實現了質的飛躍。
為了實現芯片的快速定制,Taalas 還借鑒了 2000 年代結構化 ASIC 的設計思路,將芯片定制周期從原本的六個月壓縮至兩個月。
在針對新模型進行芯片定制時,僅需更換兩層掩模,從拿到新模型到生成描述文件僅需一周的工程工作量,這種高效的定制能力,是Taalas 未來更新節奏的核心支撐。
除了速度優勢,HC1 的成本和功耗表現同樣亮眼:單片芯片的制造成本僅 300-400 美元,量產后的零售價預估在 600-700 美元,采用該芯片的推理綜合成本僅為傳統 GPU 方案的 1/20;芯片功耗僅 2.5 千瓦,十顆芯片組成的服務器僅需普通風冷就能實現散熱,無需搭建復雜的液冷系統,相較 GPU 方案功耗降低了 90%,而未來的量產款芯片,速度還將進一步提升。
發布即落后?
為了追求極致效率放棄了硬件通用性,HC1的設計也帶來了致命缺陷:一顆 HC1 芯片只能運行一個特定模型,若要更換模型,就必須重新設計并制造芯片。在 AI 模型以月為單位快速迭代的當下,這種 “專芯專模” 的模式面臨著極高的技術過時風險。
值得注意的是,HC1 正式公布時,Llama 3.1 模型已經發布了近兩年,而同期 OpenAI、Anthropic 等頭部企業的大模型已迭代至 GPT-5.2、Claude 4.6 版本。盡管 Taalas 承諾從拿到新模型到完成芯片定制僅需兩個月周期,但市場仍對其提出質疑,為何不選擇更前沿的 DeepSeek R1 模型進行產品演示。
除了難以跟上大模型的更新速度,HC1 自身還存在諸多局限性。為了將 8B 參數的模型完整塞進單顆芯片,HC1 采用了自定義的 3-bit 基礎數據類型,并結合 3-bit 和 6-bit 的混合精度量化技術。
Taalas 官方也承認,這種技術方案會導致模型在質量基準測試中出現性能退化,在復雜數學運算、專業論文解讀等需要深層邏輯推理的場景中,HC1 的表現明顯遜于英偉達 GPU。
盡管公司已計劃在第二代產品 HC2 中,改用標準 4-bit 浮點格式來改善這一問題,但第一代 HC1 在推理正確率上的短板已是既定事實。
不少用戶在測試時發現,這款芯片不僅連簡單的運算都會出現錯誤,面對一些復雜問題時,更是會出現胡編亂造的情況。
此外,受硅片面積的限制,單顆HC1 能容納的模型參數規模有限,面對萬億參數級的前沿大模型,必須采用多芯片協同的方案才能運行。
以DeepSeek R1 671B 模型為例,想要實現其推理運算,需要 30 顆 HC1 協同工作,這不僅會帶來一系列互聯上的設計難題,流片的成本和時間也會同時增加。對于追求技術快速迭代的互聯網企業和 AI 創業公司而言,這樣的效率反倒不如多加一塊 GPU來得靠譜。
最后就是Taalas的商業模式的不確定性,目前 Taalas 探索了三種商業落地路徑,分別是“自建 API”、“直接出售芯片”、“與模型開發者合作定制芯片”,但這三種路徑均依賴于客戶對特定模型的需求。
而在當前快速變化的AI 市場中,即便是科技大廠,也不敢輕易做出這樣的長期承諾。歷史上比特幣挖礦 ASIC 的軍備競賽早已證明,在技術快速迭代的領域,專用硬件極易陷入 “發布即過時” 的發展困境。
結語
從行業發展格局來看,HC1 的出現并非為了取代 GPU,而是填補了通用算力與極致效率之間的市場空白,也為大模型的落地提供一個全新思路。
Taalas 產品副總裁 Paresh Kharya 曾明確表示:“為模型定制的最優硅片不會取代滿是 GPU 的大型數據中心,但它會適配特定的應用場景。” 在智能客服、人形機器人等對響應延遲敏感、模型版本相對穩定的場景中,HC1 的性能與成本優勢就會體現出來。
目前,Taalas 已制定了明確的產品規劃,計劃在 2026 年推出支持 70B 大模型的芯片,同時還在探索通過 LoRA 微調技術優化固化在芯片中的模型。
若能在后續發展中突破現有架構的限制,Taalas 或許真的能推動行業進入新的發展階段。
記得星標微信公眾號:鎂客網(im2maker),更多干貨在等你
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.