策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 3 篇
Transformer
熱度
排序
𝕏🔥🔥🔥
循環Transformer區塊實現測試時運算擴展,證明其收斂至固定點,形成類似前饋模型的推理階段。 Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Lang...
@che_shr_cat♥172🔁 27
𝕏🔥
Parcae透過穩定循環架構實現參數效率提升,達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型,透過層循環增加FLOPs而不擴大參數,解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現,在...
@hayden_prairie♥1.2k🔁 167
𝕏🔥
LLM工程師必讀12篇論文精選。 這份清單彙整人工智慧領域12篇奠基性論文,涵蓋從Transformer架構到模型對齊的關鍵進展,每篇皆由作者解讀其核心洞見,強調對現代大型語言模型(LLM)的實務影響。 Transformer革...
@amitiitbhu