技術(shù)
導(dǎo)讀:面壁智能發(fā)布端側(cè)大模型 MiniCPM 4.0。
6 月 7 日消息,面壁智能發(fā)布端側(cè)大模型 MiniCPM 4.0。該公司稱新模型通過(guò)自研CPM.cu推理框架,在極限場(chǎng)景下實(shí)現(xiàn)最高 220 倍提速,常規(guī) 5 倍提速,支持在 vLLM、SGLang、LlamaFactory 等框架部署。
此次發(fā)布的一款 8B 閃電稀疏版,采用創(chuàng)新稀疏架構(gòu)掀起高效風(fēng)暴;另一款 0.5B 則被稱作“輕巧靈動(dòng)的最強(qiáng)小小鋼炮”。
據(jù)官方介紹,此次面壁推出的 MiniCPM 4.0 系列 LLM 模型擁有8B、0.5B 兩種參數(shù)規(guī)模,針對(duì)單一架構(gòu)難以兼顧長(zhǎng)、短文本不同場(chǎng)景的技術(shù)難題,MiniCPM 4.0-8B 采用「高效雙頻換擋」機(jī)制,能夠根據(jù)任務(wù)特征自動(dòng)切換注意力模式:在處理高難度的長(zhǎng)文本、深度思考任務(wù)時(shí),啟用稀疏注意力以降低計(jì)算復(fù)雜度,在短文本場(chǎng)景下切換至稠密注意力以確保精度,實(shí)現(xiàn)了長(zhǎng)、短文本切換的高效響應(yīng)。
據(jù)了解,MiniCPM 4.0 可在vLLM、SGLang、LlamaFactory、XTuner等開(kāi)源框架部署。其內(nèi)置自研CPM.cu極速端側(cè)推理框架,從投機(jī)采樣創(chuàng)新、模型壓縮量化創(chuàng)新、端側(cè)部署框架創(chuàng)新幾方面,帶來(lái) 90% 的模型瘦身和速度提升,官方宣稱將實(shí)現(xiàn)端側(cè)推理“從天生到終生”的絲滑。