策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 3 篇

Transformer

熱度

排序

循環Transformer區塊實現測試時運算擴展，證明其收斂至固定點，形成類似前饋模型的推理階段。 Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Lang...

@che_shr_cat

♥172🔁 27

Parcae透過穩定循環架構實現參數效率提升，達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型，透過層循環增加FLOPs而不擴大參數，解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現，在...

@hayden_prairie

♥1.2k🔁 167

LLM工程師必讀12篇論文精選。這份清單彙整人工智慧領域12篇奠基性論文，涵蓋從Transformer架構到模型對齊的關鍵進展，每篇皆由作者解讀其核心洞見，強調對現代大型語言模型（LLM）的實務影響。 Transformer革...

@amitiitbhu