月之暗面與清華新論文:LLM預填充可跨數據中心,1T模型吞吐升54%
ME News 報導,月之暗面與清華在 arXiv 提出 Prefill-as-a-Service,將大模型推理的預填充階段跨數據中心運行。通過混合注意力模型顯著降低 KV 緩存吞吐,使緩存可經以太網傳輸並回傳本地集群解碼。PrfaaS 架構組建獨立預填充集群,只路由長上下文未命中請求,短請求留本地 PD;並引入長度閾值路由、帶寬感知調度。實測 1T 參數混合模型,吞吐比同構 PD 提升 54%,比樸素異構提升 32%。
122.38萬 熱度
118.24萬 熱度
18.78萬 熱度
941.41萬 熱度
320.27萬 熱度