← 返回首頁

SwiftLM 實現 Apple Silicon 高效推理與 SSD 串流

HackerNewsTop5
HackerNewsTop5
@hackernewstop5
35🔁 3
𝕏 (Twitter)🔥
AI 中文摘要Claude 生成

SwiftLM 實現 Apple Silicon 高效推理與 SSD 串流。

SwiftLM 是一個專為 Apple Silicon 設計的原生 Swift 推理伺服器,旨在透過移除 Python 運行時與不必要的記憶複製,實現極致的效能表現。該專案整合了 TurboQuantization 與 SSD 專家串流技術,讓大型模型能在資源受限的環境下運行。

核心架構
SwiftLM 徹底拋棄了 Python 運行時與全域解釋器鎖 (GIL),直接編譯為單一二進位檔案,以實現「裸機」般的 Apple Silicon 效能。

  • 100% 原生支援 Metal 與 Swift。
  • 提供與 OpenAI 相容的介面,可直接替換現有的 OpenAI SDK。
  • 支援直接載入 HuggingFace 格式模型,並具備 Safetensors 解析能力。

TurboQuantization 技術
SwiftLM 實作了混合 V2+V3 架構的 TurboQuant,在約 3.6 bits/dim 的壓縮率下,實現了近乎無損的 KV 快取壓縮。

  • 結合 V2 的硬體加速速度與 V3 的 Lloyd-Max 非線性編碼品質。
  • 透過原生 Metal 著色器處理反量化,完全擺脫 Python 開銷。
  • K-Cache 採用 3-bit PolarQuant 搭配 1-bit QJL 殘差修正;V-Cache 則僅使用 3-bit PolarQuant,進一步節省 25% 記憶。

SSD 專家串流與效能限制
針對 122B 以上參數的 MoE 模型,SwiftLM 引入實驗性的零複製 (Zero-Copy) 串流技術,將專家層直接從 NVMe SSD 交換至 GPU 指令緩衝區,避免 macOS 統一記憶溢出導致的系統崩潰。

  • 針對 M5 Pro (64GB 記憶) 進行優化與基準測試。
  • 嚴正警告:雖然量化能縮減記憶佔用,但 4-bit 仍是 MoE 模型的生產標準。過度使用 2-bit 量化會導致 JSON 語法崩潰,進而破壞 OpenAI 相容的工具呼叫功能。

行動裝置端支援
SwiftLM 提供原生 iOS 應用程式,讓使用者能直接在 iPhone 與 iPad 上下載並執行 MLX 模型。

  • 支援 HuggingFace 模型搜尋與即時下載進度顯示。
  • 具備記憶適配指標,並針對 iOS 生命週期進行強化,確保模型在背景切換時的穩定性。