SwiftLM 實現 Apple Silicon 高效推理與 SSD 串流

HackerNewsTop5

♥35🔁 3

𝕏 (Twitter)🔥2026年4月2日

AI 中文摘要Claude 生成

SwiftLM 實現 Apple Silicon 高效推理與 SSD 串流。

SwiftLM 是一個專為 Apple Silicon 設計的原生 Swift 推理伺服器，旨在透過移除 Python 運行時與不必要的記憶複製，實現極致的效能表現。該專案整合了 TurboQuantization 與 SSD 專家串流技術，讓大型模型能在資源受限的環境下運行。

核心架構
SwiftLM 徹底拋棄了 Python 運行時與全域解釋器鎖 (GIL)，直接編譯為單一二進位檔案，以實現「裸機」般的 Apple Silicon 效能。

100% 原生支援 Metal 與 Swift。
提供與 OpenAI 相容的介面，可直接替換現有的 OpenAI SDK。
支援直接載入 HuggingFace 格式模型，並具備 Safetensors 解析能力。

TurboQuantization 技術
SwiftLM 實作了混合 V2+V3 架構的 TurboQuant，在約 3.6 bits/dim 的壓縮率下，實現了近乎無損的 KV 快取壓縮。

結合 V2 的硬體加速速度與 V3 的 Lloyd-Max 非線性編碼品質。
透過原生 Metal 著色器處理反量化，完全擺脫 Python 開銷。
K-Cache 採用 3-bit PolarQuant 搭配 1-bit QJL 殘差修正；V-Cache 則僅使用 3-bit PolarQuant，進一步節省 25% 記憶。

SSD 專家串流與效能限制
針對 122B 以上參數的 MoE 模型，SwiftLM 引入實驗性的零複製 (Zero-Copy) 串流技術，將專家層直接從 NVMe SSD 交換至 GPU 指令緩衝區，避免 macOS 統一記憶溢出導致的系統崩潰。

針對 M5 Pro (64GB 記憶) 進行優化與基準測試。
嚴正警告：雖然量化能縮減記憶佔用，但 4-bit 仍是 MoE 模型的生產標準。過度使用 2-bit 量化會導致 JSON 語法崩潰，進而破壞 OpenAI 相容的工具呼叫功能。

行動裝置端支援
SwiftLM 提供原生 iOS 應用程式，讓使用者能直接在 iPhone 與 iPad 上下載並執行 MLX 模型。

支援 HuggingFace 模型搜尋與即時下載進度顯示。
具備記憶適配指標，並針對 iOS 生命週期進行強化，確保模型在背景切換時的穩定性。

TurboQuant KV Compression and SSD Expert Streaming for M5 Pro and IOS #HackerNews https://t.co/frP2Pcz0X6 pic.twitter.com/uMl7RAWlXX
— HackerNewsTop5 (@hackernewstop5) April 1, 2026