網易首頁 > 網易號 > 正文申請入駐

人形機器人有了“真大腦”? Taalas把大模型直接寫進芯片里

2026-02-23 17:58:45　來源: 鎂客網

江蘇舉報

分享至

近日，加拿大初創公司Taalas 推出了一款 AI 推理芯片 HC1，這家成立尚不足三年的企業，憑借將 8B 輕量化大模型直接 “刻” 在芯片上的創新設計，讓 HC1 的運行速度在行業中脫穎而出，在輸出速度和極致的成本和功耗控制上直接甩開了英偉達的GPU產品。

很多人對Taalas 或許并不熟悉，這家公司成立于 2023 年，創始人 Ljubisa Bajic 同時也是加拿大知名AI芯片公司 Tenstorrent 的創始人，他曾先后在英偉達、AMD 擔任高級架構師，一手打造過 CPU-GPU 混合芯片。

而Taalas的核心團隊更是堪稱芯片圈的 “夢之隊”，25 名員工大多來自 AMD、蘋果、谷歌等科技大廠，擁有從芯片設計到系統落地的全流程實戰經驗。背靠這樣的技術團隊，Taalas 僅投入 3000 萬美元研發成本，耗時 60 天就完成了 HC1 的生產落地，推出了這款足以挑戰行業現有規則的產品。

截至目前，Taalas 累計融資已超 2 億美元，賬上仍有 1.7 億美元現金儲備，為后續發展奠定了充足的資金基礎

最快AI芯片？

HC1 最令人驚嘆的，莫過于其極致的推理速度。

這款采用臺積電6nm 工藝的芯片，在單用戶場景下推理速度高達 17000 token/秒。作為對比，英偉達 H200 芯片推理速度為 230 token/秒，其最新 Blackwell 架構的 B200 也不過 2000 token/秒。有測試者在 Taalas 的體驗網站 chatjimmy.ai 實際操作后表示，該模型的回復速度極快，基本在敲下回車的瞬間，答案就能出現在對話框中。

HC1 能實現如此快的推理反應，核心源于 Taalas 獨樹一幟的技術思路。

研發團隊拋棄了傳統 GPU “計算與存儲分離” 的經典架構，采用了存算一體式的設計方案，通過 Mask ROM 工藝將 Llama 3.1 8B 的模型權重直接編碼在芯片的金屬互連層中，讓模型權重與計算邏輯共存于同一塊硅片。這種設計徹底消除了數據搬運過程中的延遲與能耗損耗，芯片也無需搭配外部 DRAM 或 HBM，僅保留一小塊 SRAM 以提供最基礎的靈活性。

傳統GPU 進行運算時，需要從 HBM 顯存中反復搬運數據，這一過程會消耗大量能耗和時間，也是行業普遍面臨的 “內存墻” 問題；而 HC1 無需數據搬運，只需讓數據流過電路就能完成推理，運算效率自然實現了質的飛躍。

為了實現芯片的快速定制，Taalas 還借鑒了 2000 年代結構化 ASIC 的設計思路，將芯片定制周期從原本的六個月壓縮至兩個月。

在針對新模型進行芯片定制時，僅需更換兩層掩模，從拿到新模型到生成描述文件僅需一周的工程工作量，這種高效的定制能力，是Taalas 未來更新節奏的核心支撐。

除了速度優勢，HC1 的成本和功耗表現同樣亮眼：單片芯片的制造成本僅 300-400 美元，量產后的零售價預估在 600-700 美元，采用該芯片的推理綜合成本僅為傳統 GPU 方案的 1/20；芯片功耗僅 2.5 千瓦，十顆芯片組成的服務器僅需普通風冷就能實現散熱，無需搭建復雜的液冷系統，相較 GPU 方案功耗降低了 90%，而未來的量產款芯片，速度還將進一步提升。

發布即落后？

為了追求極致效率放棄了硬件通用性，HC1的設計也帶來了致命缺陷：一顆 HC1 芯片只能運行一個特定模型，若要更換模型，就必須重新設計并制造芯片。在 AI 模型以月為單位快速迭代的當下，這種 “專芯專模” 的模式面臨著極高的技術過時風險。

值得注意的是，HC1 正式公布時，Llama 3.1 模型已經發布了近兩年，而同期 OpenAI、Anthropic 等頭部企業的大模型已迭代至 GPT-5.2、Claude 4.6 版本。盡管 Taalas 承諾從拿到新模型到完成芯片定制僅需兩個月周期，但市場仍對其提出質疑，為何不選擇更前沿的 DeepSeek R1 模型進行產品演示。

除了難以跟上大模型的更新速度，HC1 自身還存在諸多局限性。為了將 8B 參數的模型完整塞進單顆芯片，HC1 采用了自定義的 3-bit 基礎數據類型，并結合 3-bit 和 6-bit 的混合精度量化技術。

Taalas 官方也承認，這種技術方案會導致模型在質量基準測試中出現性能退化，在復雜數學運算、專業論文解讀等需要深層邏輯推理的場景中，HC1 的表現明顯遜于英偉達 GPU。

盡管公司已計劃在第二代產品 HC2 中，改用標準 4-bit 浮點格式來改善這一問題，但第一代 HC1 在推理正確率上的短板已是既定事實。

不少用戶在測試時發現，這款芯片不僅連簡單的運算都會出現錯誤，面對一些復雜問題時，更是會出現胡編亂造的情況。

此外，受硅片面積的限制，單顆HC1 能容納的模型參數規模有限，面對萬億參數級的前沿大模型，必須采用多芯片協同的方案才能運行。

以DeepSeek R1 671B 模型為例，想要實現其推理運算，需要 30 顆 HC1 協同工作，這不僅會帶來一系列互聯上的設計難題，流片的成本和時間也會同時增加。對于追求技術快速迭代的互聯網企業和 AI 創業公司而言，這樣的效率反倒不如多加一塊 GPU來得靠譜。

最后就是Taalas的商業模式的不確定性，目前 Taalas 探索了三種商業落地路徑，分別是“自建 API”、“直接出售芯片”、“與模型開發者合作定制芯片”，但這三種路徑均依賴于客戶對特定模型的需求。

而在當前快速變化的AI 市場中，即便是科技大廠，也不敢輕易做出這樣的長期承諾。歷史上比特幣挖礦 ASIC 的軍備競賽早已證明，在技術快速迭代的領域，專用硬件極易陷入 “發布即過時” 的發展困境。

結語

從行業發展格局來看，HC1 的出現并非為了取代 GPU，而是填補了通用算力與極致效率之間的市場空白，也為大模型的落地提供一個全新思路。

Taalas 產品副總裁 Paresh Kharya 曾明確表示：“為模型定制的最優硅片不會取代滿是 GPU 的大型數據中心，但它會適配特定的應用場景。” 在智能客服、人形機器人等對響應延遲敏感、模型版本相對穩定的場景中，HC1 的性能與成本優勢就會體現出來。

目前，Taalas 已制定了明確的產品規劃，計劃在 2026 年推出支持 70B 大模型的芯片，同時還在探索通過 LoRA 微調技術優化固化在芯片中的模型。

若能在后續發展中突破現有架構的限制，Taalas 或許真的能推動行業進入新的發展階段。

記得星標微信公眾號：鎂客網（im2maker），更多干貨在等你

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.