策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。56

研究論文
熱度
排序
𝕏🔥

AI意識判斷需先驗證人類模型。 新論文主張,探討AI是否具意識前,必須先建立經人類驗證的意識理論,否則「AI意識」概念缺乏實證基礎,已獲AAAI Symposium 2026接受。 意識的多重面向 「意識」並非單一現象,而...

Lossfunk@lossfunk
85🔁 24
𝕏🔥🔥

AC/DC透過共同演化小規模專家LLM群體,超越單一大型模型如GPT-4o。 AC/DC核心概念 Assessment Coevolving w/ Diverse Capabilities (AC/DC) 是一種持續共同演化的方...

Boris@BorisMeinardus
168🔁 19
𝕏🔥🔥

Skill-RAG提出故障感知RAG框架,透過隱藏狀態探測與技能路由診斷查詢-證據錯位。 Skill-RAG是一種故障狀態感知的檢索增強生成(RAG)框架,針對現有方法僅將後檢索故障視為重試訊號、忽略查詢與證據空間結構性錯位的問題,提...

Sumit@_reachsumit
9🔁 1
𝕏🔥🔥🔥

循環Transformer區塊實現測試時運算擴展,證明其收斂至固定點,形成類似前饋模型的推理階段。 Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Lang...

Grigory Sapunov@che_shr_cat
172🔁 27
𝕏🔥

克服 TRL 中訓練器與生成器之間的精度不匹配問題 數值精度差異導致的「幻影 PPO 裁剪」阻礙了 RL 收斂。 簡短總結:我們發現當訓練的前向傳遞(FP32)與 vLLM 推論伺服器(BF16)使用不同的數值精度時,非同步 G...

Dirhousssi Amine@DirhousssiAmine
72🔁 7
𝕏🔥

Parcae透過穩定循環架構實現參數效率提升,達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型,透過層循環增加FLOPs而不擴大參數,解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現,在...

Hayden Prairie@hayden_prairie
1.2k🔁 167
𝕏🔥🔥

一篇新論文揭露ChatGPT使用者普遍犯下的「LLM Fallacy」認知錯誤,使用者誤將LLM輔助產出視為自身獨立能力證明。 這篇論文《The LLM Fallacy: Misattribution in AI-Assisted C...

Ihtesham Ali@ihtesham2005
195🔁 47
𝕏🔥

深度層通訊從累加升級為檢索,MoDA透過硬體優化實現高效深度注意力。 過去十年,人工智慧模型架構的第一階段專注擴大層內運算規模,但層間通訊機制幾乎停滯於2015年ResNet的「x + F(x)」殘差連接,導致訊號稀釋與許多層「學會沉...

Lianghui Zhu@lianghui_zhu
1.9k🔁 226
𝕏🔥

LLM工程師必讀12篇論文精選。 這份清單彙整人工智慧領域12篇奠基性論文,涵蓋從Transformer架構到模型對齊的關鍵進展,每篇皆由作者解讀其核心洞見,強調對現代大型語言模型(LLM)的實務影響。 Transformer革...

Amit Shekhar@amitiitbhu
𝕏🔥🔥🔥

FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失。 FlashDrive是針對自動駕駛的視覺語言動作(VLA)模型推理優化框架,由Zekai Li、Yihao Liang、...

Zhijian Liu@zhijianliu_
1.2k🔁 137
𝕏🔥🔥

KAIST與紐約大學提出跨領域共享記憶機制,提升編碼Agent效能3.7%。 KAIST與紐約大學團隊發表論文「Memory Transfer Learning: How Memories are Transferred Across Do...

Ksenia_TuringPost@TheTuringPost
177🔁 42
𝕏🔥

給 AI 初學者的論文清單 這份清單來自我的指導教授易明洋(Prof. Mingyang Yi)所編寫的閱讀指南,旨在幫助電腦科學(CS)或數學系大二學生入門機器學習(ML)與強化學習(RL)。 基礎篇 (Foundations...

Xiuyu Li@sheriyuo