網易首頁 > 網易號 > 正文申請入駐

在一臺1970年代的PDP-11上訓練Transformer要多久？答案是5.5分鐘

2026-04-14 10:18:12　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

試想一下，如果把當下大火的大模型技術帶回 1970 年，會發生什么？

彼時，沒有 GPU、沒有 CUDA，也沒有浮點數，甚至沒有任何深度學習框架，只有一臺 PDP-11 小型機，以及一門幾乎已經退出歷史舞臺的語言：匯編語言。

近日，一位開發者給出了答案。他復現了那個年代的技術環境，用 1970 年代的 PDP-11 匯編語言，實現了一個 Transformer，并且真正訓練成功了，這個項目叫做 ATTN-11。

具體來看，就是在 1970 年代的小型機 PDP-11 上，用純匯編語言，實現一個單層、單頭的 Transformer，并完成一個「序列反轉」的任務，即輸入一串數字，輸出其反序結果。

比如，輸入：4 7 4 9 6 3 6 5，輸出：5 6 3 6 9 4 7 4。

看似很容易，但關鍵特征是，機器無法通過「記住內容」來完成這個任務，必須理解「位置之間的映射關系」。而這恰恰是自注意力（Attention）機制的的核心能力。

項目結果顯示，在一臺 1970 年代的計算機上，一個僅有 1216 個參數、單層單頭的 Transformer，在約 350 步訓練后就實現了 100% 的準確率，而訓練時間只有 5 分鐘左右。

有意思的是，由于 PDP-11 時代，程序的主要存儲介質是 Paper Tape（穿孔紙帶），因此，該項目開發者又稱該項目為「Paper Tape is All You Need」。

而當開發者將該項目發布之后，引起了網友的熱議。

當下，大模型的發展主要圍繞 Scaling Law 展開，更多的參數，更多的數據，更的多算力…… 而 ATTN-11，卻在極低的資源、極簡的結構下，成功實現功能閉環。因此，大家不禁在思考：Transformer，到底需要什么？

一位網友該項目「在 PDP-11 上訓練只要 5 分鐘」表示驚訝，而更讓他震驚的是，這似乎說明「我們其實一直都可以做到這些？？？」

另一位網友則認為，不必驚訝，是的，我們一直可以做到這些。因為，「1980 年代的 Cray 超級計算機非常厲害，尤其在矩陣乘法方面性能極其強大。

比如一臺 1984 年的四核 CPU Cray X-MP，可以持續提供 800 MFLOPS 到 1 GFLOPS 的算力，如果配上一塊 1GB 的 SSD，在算力和帶寬上已經足以在半年內訓練一個 700 萬到 1000 萬參數的語言模型，并以每秒 18 到 25 個 token 的速度進行推理。

而到了 1990 年代中期，一臺 Cray T3E 的算力，就已經可以承載 GPT-2（1.24 億參數）規模的模型，這要比 OpenAI 早 24 年。

而我自己，甚至還用一臺 1965 年的打孔卡計算機，通過反向傳播學會了 XOR。

真正的瓶頸從來都不是硬件，而是想法?！?/strong>

另一位網友也現身說法，他舉了后量子密碼學的例子。他表示，基于格（lattice）的加密方案早在 1990 年代就已被提出，但真正走向產業落地，卻花了整整幾十年，而問題的關鍵不在于數學不成熟，也不在于硬件不足，而是讓這些理論真正「跑起來」的關鍵思路，當時還沒有出現。

接下來，詳細了解一下具體項目實現。

開發者稱，該項目是 Xortran 的精神續作，Xortran 是一個在 IBM 1130（1965 年）和 PDP-11/20（1970 年）上，用 Fortran IV 實現反向傳播來學習 XOR 運算的神經網絡。

自然而然地，下一步就想看看這些機器是否能在可接受的時間內（幾小時）成功訓練一個小型 Transformer。

從架構上看，Transformer 實際上只是基礎神經網絡的適度擴展。矩陣乘法、反向傳播、隨機梯度下降（SGD）和交叉熵等構建模塊早已存在。

新增的三個部分是：

自注意力：映射后的查詢（Query）與鍵（Key）之間的點積得分；
位置編碼：學習到的位置嵌入，加到輸入上；
Softmax：將得分轉換為概率分布；

該項目的目標是訓練一個 Transformer 來反轉數字序列。盡管看似簡單，但對神經網絡來說，模型必須學會將每個 token 路由到僅由其索引決定的位置，沒有基于內容的捷徑。而這類問題正是為自注意力設計的，實際上也是 Tensor2Tensor（谷歌 2017 年原始 Transformer 的參考實現）中包含的算法基準之一。

架構

數據路徑很直接，token 被嵌入，通過帶有殘差連接的自注意力層，然后映射回詞表并通過 softmax 得到預測：

該模型是一個極簡的 Transformer：嵌入、帶殘差連接的自注意力、輸出映射。它是真正的帶自注意力的 Transformer，但既不是 BERT 也不是 GPT：沒有層歸一化、沒有前饋網絡、沒有解碼器。

該任務中，不需要對 token 表示做任何變換，因此注意力和殘差連接就足夠了。層歸一化在深層網絡中用于防止激活漂移，但在單層中并不需要。

針對 1970 年代硬件的優化

第一次實現沿用了 Xortran 的方案，并使用 Fortran IV 編寫。在統一學習率為 0.01 的情況下，模型完成 100 步訓練需要 25 分鐘，而要達到 100% 的準確率則需要約 1500 個訓練步數。這在真實硬件上大約相當于 6.5 小時的訓練時間，在 IBM 1130 上甚至可能需要整整一周。

即便是按照 1970 年代的標準來看，這樣的耗時也是難以接受的，因為當時的計算機通常采用分時共享機制，計算資源非常寶貴。

因此，第一次改進是將統一學習率替換為手動調優的分層學習率：

編碼「反轉模式」的注意力權重更適合使用較高的學習率，而輸出映射層在較小學習率下收斂效果更好。通過這一調優，訓練步數降至 600 步，預計訓練時間約為 2.5 小時。

優化器采用的是最基礎的隨機梯度下降（SGD）。像 Adam 這樣的優化器雖然可以為每個參數自適應調整步長，但代價是每個權重需要額外維護兩個狀態向量，使參數所占內存增加到原來的 3 倍。同時，每次更新還需要進行平方根和除法運算，即便在配備 EIS 的 PDP-11 上，這些操作也依然開銷較大。

相比之下，分層學習率在不增加額外成本的情況下實現了類似效果，而且由于模型規模較小，這三組學習率可以手動調優。此外，這也使得 Transformer 可以裝入 32KB 的核心內存，而不是 64KB，這在 1970 年代尤為關鍵。

補充說明：由于采用裸機匯編實現，ATTN/11 的內存占用并不高于 Xortran，后者還需要承擔 RT-11 V3 操作系統和 Fortran 運行時的開銷。最終生成的二進制文件也相當緊湊，僅為 6179 字節。

NN11

核心算術運算基于 NN11，這是一個為 ATTN/11 和 PDP-11 設計的最小化定點神經網絡計算棧。

NN11 的組織結構類似于 BLAS，分為多個層級：最底層是標量基礎操作（FXMATH）；其上是向量運算，如點積和縮放（VECOP）；再往上是矩陣–向量運算（MATOP），每一層都構建在下層之上。

此外，還有兩個模塊將該計算棧擴展到線性代數之外：一個是激活函數及其查找表（ACTFN），另一個是層級操作（LAYER），用于將前述運算組合起來，實現、映射以及注意力等功能。

這些算術計算會根據不同的計算階段進行適配：

在 PDP-11 上，前向計算使用 Q8、反向傳播使用 Q15 的組合非常契合：將一個 Q8 數與一個 Q15 數相乘，會在一個 32 位寄存器對中得到 Q23 的結果，只需一次「ASHC #-8」操作即可將其縮放回 Q15。

因此，反向傳播中的乘法開銷并不高于前向計算，同時還能讓梯度的精度達到激活值的 128 倍。

經過優化后，模型在 350 步內即可收斂，使得在開發者的 PDP-11/34A 上，總訓練時間縮短至僅 5.5 分鐘。

在該項目中，開發者并沒有使用真正的紙帶讀取器，因此是通過控制臺將目標代碼直接寫入內存。

以下是運行該 Transformer 后的結果：

原型

在正式轉向匯編實現之前，必須先驗證其正確性。因此，開發者先在 Sheaf 中對浮點和定點算術進行了原型設計與驗證。Sheaf 是開發者開發的一個函數式 ML 框架，內置了可觀測性機制。

對于這類機器學習工作，Sheaf 相比 Python 有幾個優勢：

代碼量大約減少三分之一；
其純函數式語義帶來了更強的正確性保障；
能夠對每一個中間張量進行內置追蹤，包括其形狀、數值范圍以及計算時間。在開發定點算術時，這一點尤為關鍵。

例如，在「vtmul」上設置一個范圍保護，可以立刻捕捉到遺漏「>>8」位移的問題：

浮點與定點兩種原型實現都可以在「proto」文件夾中找到，同時還包含最初的 Fortran 版本。

實現細節

由于沒有浮點運算單元，超越函數（如 exp、log）被預先計算的查找表所替代。在 PDP-11 上，一次查表只需一條「MOV」指令，其開銷遠低于多項式近似或 CORDIC 算法。

Softmax

Softmax 使用一個包含 256 個條目的查找表（EXPTBL，Q8），將每個索引 i 映射為 exp (?i/32)。計算分為三個步驟：

找到輸入向量中的最大值，并從每個元素中減去該值，以保證數值穩定性；
將差值（max ? x_i）除以 8，作為查表索引，并限制在 [0, 255] 范圍內；
將得到的 exp 值除以它們的總和（通過 FXDIV），得到概率分布。

該查找表大約覆蓋了輸入范圍內的 8 個單位，在趨近于 0 之前，這對于一個 10 類詞表來說已經完全足夠。

交叉熵損失

損失函數每 50 步計算一次，用于報告訓練過程。它依賴另一個查找表（LOGTBL，257 個條目，Q12），將每個值 x ∈ [0, 256] 映射為 ?ln (x/256) × 4096。

計算流程遵循標準路徑：先對 logits 做 softmax，讀取目標 token 的概率，然后在查找表中查得 ?ln (p)。8 個位置（每個序列位置一個）的結果累加到一個 32 位寄存器對中（因為 8 個 Q12 值的和可能超過 16 位），再通過「ASHC #-3」除以 8。Q12 精度（1/4096 ≈ 0.0002）可以提供四位小數，足以用于監控收斂過程。

查找表

ATTN/11 使用兩個查找表。第一個將每個索引映射為 Q8 表示的 exp (?i/32)，在 softmax 中用一條「MOV」指令替代指數計算。另一個表主要用于便利計算，將每個值映射為 Q12 表示的 ?ln (x/256)，每 50 步用于計算交叉熵損失，以監控模型收斂情況。

兩個查找表均通過 Sheaf 腳本離線生成，并以 .WORD 常量的形式存儲在源代碼中。

交叉熵梯度

反向傳播利用了 softmax 與交叉熵組合的一個經典性質：logits 的梯度可以簡化為

從而在訓練過程中完全避免了對數運算的開銷。該結果最初以 Q8 表示，隨后左移 7 位轉換為 Q15，這是整個反向傳播過程中使用的數值格式。同一個 SFTMX 例程同時用于前向與反向計算，無需單獨實現反向傳播版本。

最后補充一點：在這些算法的開發過程中，開發者僅將 AI 工具作為輔助使用，而所有的設計決策、縮放策略，以及數值驗證，均是在硬件上由人工完成的。

內存布局

ATTN/11 總共占用 19.2 KB 內存。下表展示了其內存分布情況，整理自 MACRO-11 匯編器的輸出列表：

這 1216 個參數由于計算需要被復制了三份：Q16 累加器（4.8 KB）、用于前向計算的 Q8（2.4 KB），以及用于梯度的 Q15（2.4 KB）。僅模型本身就占用了 9.6 KB，是整體內存使用中占比最大的部分。

構建

構建所需的兩個條件是：MACRO11 匯編器，以及用于將目標代碼轉換為可加載二進制文件的 obj2bin 工具。

運行

運行，需要具備以下條件之一：

一臺真實的 PDP-11，且其 CPU 支持 EIS 指令，并配備 32KB 的核心內存或 MOS 內存；
或使用 ll-34：這是我設計的一款電路級、微周期精確的 PDP-11/34 模擬器，可作為真實硬件的數字復刻。

ll-34 幾乎可以視作擁有一臺真正的 11/34。啟動 ATTN/11 的方式如下：

或者，如果只是想快速體驗，可以使用這里提供的 WebAssembly 版本：

https://dbrll.github.io/ll-34/。

SIMH 也可以使用，但它模擬的是 PDP-11 的高層行為（而非電路級），并以宿主機 CPU 的速度運行。雖然可以通過人為方式降低速度，但其時序并非周期級精確，因此不太適合用于性能調優或還原真實體驗。

大家詳細了解該項目后有何感想，可以在評論區留言交流！

https://github.com/dbrll/ATTN-11?tab=readme-ov-file#attn11---paper-tape-is-all-you-need

https://news.ycombinator.com/item?id=47518568

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網易首頁下載網易新聞客戶端

相關推薦

熱點推薦

媒體：多國政要密集訪華一人來訪時機特殊、安排特殊

上觀新聞 2026-04-14 18:52:07
111 跟貼 111

“常州北站”被改為“常洲北站”？官方回應

微泰州 2026-04-14 09:16:36
186 跟貼 186

120W是“型號”不是功率？誤導消費者要付出代價

南方都市報 2026-04-13 00:36:10
3612 跟貼 3612

莫氏雞煲拒收溫氏千只雞，老莫：沒地放，沒罵他；溫氏股份：在溝通更多合作想法

界面新聞 2026-04-14 10:23:03
867 跟貼 867

廣東一面包店發出閉店通知，顧客：“孩子得知后當場大哭!”街坊紛紛挽留，多方幫助后面包店重獲“新生”

極目新聞 2026-04-14 11:30:13
648 跟貼 648

舉債3.68億、總投資超7億，農業實訓基地為何不見農業影子？

上觀新聞 2026-04-14 21:54:17
118 跟貼 118

美媒：“布什”號航空母艦繞道非洲前往中東

新京報 2026-04-14 12:33:13
2893 跟貼 2893

文章新開面館口味評分3.6分，網友：30多元一碗面有點貴

紅星新聞 2026-04-13 17:22:41
1249 跟貼 1249

男子21萬注射臨床試驗干細胞：注射10多分鐘即感不適

澎湃新聞 2026-04-14 19:38:29
35 跟貼 35

江蘇等多地新能源車牌被指綠色變白色交管部門回應

上觀新聞 2026-04-14 11:34:06
0 跟貼 0

俄外長已抵達中國進行訪問

環球網 2026-04-14 09:50:53
105 跟貼 105

美國“封鎖令”正式生效！一文讀懂：霍爾木茲最新形勢究竟如何？

財聯社 2026-04-14 10:11:07
398 跟貼 398

王石方發布律師聲明！

證券時報 2026-04-14 21:04:07
20 跟貼 20

“張雪機車”被點名！

極目新聞 2026-04-14 19:24:32
176 跟貼 176

WTI原油跌超5% 價格低于94美元/桶

財聯社 2026-04-14 22:06:13
66 跟貼 66

新華社18秒視頻，讓美國前高官“焦慮”了

新華社 2026-04-14 20:53:52
0 跟貼 0

“牛頓蘋果樹”落戶浙江湖州吳興區錢山漾

上觀新聞 2026-04-14 23:27:04
704 跟貼 704

90歲李少芬入選籃球名人堂，90歲丈夫鐘南山為她穿禮服，兩人都堅持運動

上觀新聞 2026-04-14 23:04:10
74 跟貼 74

比亞迪深圳坪山園區一立體車庫起火當地消防稱火已撲滅　無人傷亡

新浪財經 2026-04-15 05:11:49
0 跟貼 0

中國將健全藥品價格形成機制

界面新聞 2026-04-14 17:02:41
47 跟貼 47

4輛無牌越野摩托闖入無錫惠山國家森林公園，在游客登山道“飆車”，景區回應

封面新聞 2026-04-15 05:09:45
0 跟貼 0

你以為是遺憾，其實是躲過一劫：這段話太通透
杏花煙雨江南的碧園
2026-04-01 15:15:03

心寒！皇馬新勞爾徹底被棄，今夏就要走人，只因一人要回來
瀾歸序
2026-04-15 02:14:27

女兒因長得像爸爸想整容，本來不理解，結果看到媽媽和哥哥后，全網心疼她
一口娛樂
2026-04-14 15:12:47

何超瓊妹妹去世細節：手握冰冷的手站了半小時，豪門背后全是眼淚
感恩每一刻
2026-04-14 11:33:41

釋新聞｜終結“歐爾班時代”的匈牙利新當選總理公布任務清單
澎湃新聞
2026-04-14 16:29:11

德國站隊了！正式向世界宣布：以色列若繼續打黎巴嫩，會讓他好看
共工之錨
2026-04-14 00:47:22

海水制氫突破：真正革命不是氫便宜，而是人類開始 “開采海洋”
臨云史策
2026-04-08 15:10:20

觸球比門將還少！曼聯巨星全場隱身，卡里克必須棄用他
瀾歸序
2026-04-15 03:15:08

越南高鐵正式開工！棄用中國方案，河內留后手：不與中國鐵路連通
青煙小先生
2026-04-14 15:01:34

兩年合同！全美第一分衛！湖人壓哨補強
籃球教學論壇
2026-04-14 14:54:45

伊朗革命衛隊：霍爾木茲海峽允許非軍事船只通過
每日經濟新聞
2026-04-13 07:38:50

比亞迪立體車庫大火更多消息，以及簡單的分析
靠山屯閑話
2026-04-14 15:40:46

村醫須知！關于阿莫西林的10大禁忌
鄉村白大褂之家
2026-04-13 20:34:00

比烏加特還爛！曼聯兩大廢柴拖垮球隊，卡里克再不清醒就晚了
奶蓋熊本熊
2026-04-15 03:08:10

嘆息！LinkedIn華人工程師突然離世：被裁、回流、再承壓…很多人看到了自己
華人生活網
2026-04-15 04:24:23

太復雜了！天津一地鐵站驚現13個出口！ABCDEFGHJKLMN···網友：適合密室逃脫
天津人
2026-04-14 16:24:33

美媒：莫迪給西方上了一課，只要有中國在，美國就不敢跟印度翻臉
薦史
2026-04-13 17:58:46

恒大夏海鈞：當一個人高智商，有資源，無下限，會壞到什么地步？
道術意義
2026-04-08 07:32:08

前中國銀行廣州農林下路支行行長施華靜涉嫌詐騙，數額特別巨大
校長看廣州樓市
2026-04-14 06:17:31

呼吸科主任：肺癌最危險信號，不是咳嗽，而是頻出現這5種異常
健康科普365
2026-04-14 19:15:08

2026-04-15 06:08:49

機器之心Pro

專業的人工智能媒體

12762文章數 142628關注度

往期回顧全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

這么賺錢！星鏈成太空印鈔機，去年利潤72億美元

OpenAI痛批Anthropic營收注水80億美元

"抄作業"近四年，馬斯克版微信周五上線

傳榮耀與字節跳動接洽“豆包手機”合作

頭條要聞

以色列開出與伊朗停戰先決條件

德黑蘭被指試圖獲取核武器伊朗官方回應

54歲班主任帶15歲女孩到賓館開房猥褻：將她壓到床上

防范特朗普政府"對華軟化" 史上最嚴對華芯片法案來了

女子被丈夫閨蜜背叛一夜白頭:在車內發現閨蜜流產資料

頭條要聞

以色列開出與伊朗停戰先決條件

德黑蘭被指試圖獲取核武器伊朗官方回應

54歲班主任帶15歲女孩到賓館開房猥褻：將她壓到床上

防范特朗普政府"對華軟化" 史上最嚴對華芯片法案來了

女子被丈夫閨蜜背叛一夜白頭:在車內發現閨蜜流產資料

體育要聞

帶出中超最大黑馬！他讓球迷們“排隊道歉”

CBA-北京17分勝青島麥基22分周琦12+10

廣東逆轉寧波！奎因+徐杰轟53分，崔永熙統治防守，內線卻被暴虐

創WCBA總決賽歷史最大分差！四川女籃34分狂勝山西李緣13+13

亞冠擴軍至32隊曝中超增至2.5席國安直入正賽申花遞補踢附加賽

娛樂要聞

網曝鐘麗緹代孕要了個男孩備孕近10年

迪麗熱巴梁朝偉代言幸運咖，撲克牌梗全網刷屏

王曉晨發文內涵，多年付出全被嫌棄，根本看不上

李夢出場就把觀眾看呆，這才是“情婦”該有的臉

文章回應開面館，稱純屬是為自己有口吃的

財經要聞

許家印認罪，他和恒大還有多少欠債？

AI裁員，裁到了“消費”這根大動脈？

海思科利潤暴增10倍，為何投資者不買賬？

頂級大佬撕破臉！爆大瓜，發10億美元賭約

夢龍廣告翻車背后：單飛首年的增長焦慮

汽車要聞

售12.99萬起/續航2000km 風云T9L上市

周光：物理AI上半場是自動駕駛，下半場是廚房

長城歐拉5限定版純電版上市限量99臺售價13.38萬元

李斌呼吁行業降本千億蔚來“精算”長期主義

2026廣汽科技日：五大技術亮劍，如何轉化為產品力？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

教育

數碼

時尚

公開課

系好安全帶!原作者確認《地鐵2039》將比前作更黑暗

斯科特成為自機角色？崩鐵高仿號一張立繪圖，讓全球玩家瘋狂

任天堂Switch2獨占大作評級出爐！含內購付費內容

PS6三款機型泄露全面匯總！還要重返掌機市場？

教育要聞

趕緊預約！名校名師直播正式開啟，幫你厘清小初高銜接各種難題

他們眼里的光被點燃！中華中學首屆南大班學習成果匯報

來自南京珠江路小學、金中的她入選2026年全球醫療健康最具影響力百人榜單！

剛剛開放游園，東外又緊急通知：無關招生，暫停對外開放！

高考地理:交通要素45例

數碼要聞

三款小平板扎堆發布！紅魔、紅米、OPPO，誰會是大家的菜？

壹號本Super V旗艦二合一筆記本上市，售價12599元

蘋果為何不跟風漲價？背后暗藏玄機

小米推出“米家空調巨省電2026款大1匹”，1699元

壞事做盡的瘋女人，集體翻紅了

全網走紅的「爆改老媽」，審美霸凌了多少中年女性？

秦嵐：風里蕩秋千

春季穿搭真的不難！平時多穿基礎款、彩色配基礎色，養眼又得體

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻

為什么人類有不同的膚色？

13個毀掉你生活的不良習慣

李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

在一臺1970年代的PDP-11上訓練Transformer要多久？答案是5.5分鐘

離職同事"煉化"成AI?這屆公司不需要活人了

以色列開出與伊朗停戰先決條件

以色列開出與伊朗停戰先決條件

帶出中超最大黑馬！他讓球迷們“排隊道歉”

網曝鐘麗緹代孕要了個男孩 備孕近10年

許家印認罪，他和恒大還有多少欠債？

售12.99萬起/續航2000km 風云T9L上市

態度原創

系好安全帶!原作者確認《地鐵2039》將比前作更黑暗

趕緊預約！名校名師直播正式開啟，幫你厘清小初高銜接各種難題

三款小平板扎堆發布！紅魔、紅米、OPPO，誰會是大家的菜？

壞事做盡的瘋女人，集體翻紅了

在一臺1970年代的PDP-11上訓練Transformer要多久？答案是5.5分鐘

網曝鐘麗緹代孕要了個男孩備孕近10年

許家印認罪，他和恒大還有多少欠債？

趕緊預約！名校名師直播正式開啟，幫你厘清小初高銜接各種難題

三款小平板扎堆發布！紅魔、紅米、OPPO，誰會是大家的菜？

壞事做盡的瘋女人，集體翻紅了