Pentium II CPU+128MB記憶體，他們在Windows 98電腦上成功運行Llama大型語言模型、速度還挺快

Pentium II CPU+128MB記憶體成功運行Llama大型語言模型速度還挺快

想要跑大型語言模型，一定要先買頂級的電腦、再加一張NVIDIA顯卡才行嗎？或許你不需要把錢包燒光，也有機會拿來跑AI。

EXO Labs最近發佈了一段影片，展示了在一台26年歷史的Windows 98 Pentium II（奔騰2 ）PC上運行大型語言模型（LLM）。這台主頻350MHz電腦，成功啟動進入Windows 98系統，隨後EXO啟動了基於Andrej Karpathy的Llama2.c定製的純C推理引擎，並要求LLM生成關於“Sleepy Joe”的故事，令人驚訝的是生成速度相當可觀。

LLM running on Windows 98 PC

26 year old hardware with Intel Pentium II CPU and 128MB RAM.

Uses llama98.c, our custom pure C inference engine based on @karpathy llama2.c

Code and DIY guide 👇 pic.twitter.com/pktC8hhvva
— EXO Labs (@exolabs) December 28, 2024

EXO Labs由牛津大學的研究人員和工程師組成，他們認為，少數大型企業控制AI對文化、真理和社會的其他基本方面是不利的。

因此，EXO希望建立開放的基礎設施，訓練模型，並使任何人在任何地方都能運行它們，這項在Windows 98上的AI展示，展示了即使在資源極其有限的情況下也能完成的事情。

EXO Labs在文章中詳細描述了在Windows 98上運行Llama的過程，他們購買一台舊的Windows 98 PC作為專案的起點基礎，但面臨了許多挑戰。

將資料傳輸到老裝置上就是一個不小的挑戰，他們不得不使用「老式的FTP」透過乙太網路連接埠進行檔案傳輸。

Pentium II CPU+128MB記憶體，他們在Windows 98電腦上成功運行Llama大型語言模型、速度還挺快

為Windows 98編譯程式碼可能是一個更大的挑戰，EXO找到了Andrej Karpathy的llama2.c，可以總結為「700行純C程式碼，可以運行Llama 2架構模型的推理」，Karpathy曾是特斯拉的AI主管，也是OpenAI的創始團隊成員。

利用這個資源和舊的Borland C++ 5.02 IDE和編譯器（以及一些輕微的調整），程式碼可以被製作成Windows 98相容的可執行檔案並運行，GitHub上有完成程式碼的連結。

使用260K LLM和Llama架構在Windows 98上實現了“35.9 tok/s”的速度，根據EXO的部落格文章表示，升級到15M LLM後，生成速度略高於1 tok/s，Llama 3.2 1B的速度則慢得多，為0.0093 tok/s。

加入T客邦Facebook粉絲團