AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 1 篇
Parcae透過穩定循環架構實現參數效率提升,達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型,透過層循環增加FLOPs而不擴大參數,解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現,在...