Cloud&AI
`
2025/5/30 15:44
蘋(píng)果聯(lián)合推出AI交錯(cuò)推理方法,Qwen2.5 模型響應(yīng)速度快 80%、準(zhǔn)確率提高 19.3%
0
0

科技媒體 marktechpost 昨日(5 月 29 日)發(fā)布博文,報(bào)道稱蘋(píng)果公司攜手杜克大學(xué),提出交錯(cuò)推理(Interleaved Reasoning)的全新強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)方法,進(jìn)一步提升大語(yǔ)言模型的推理能力。

主流大語(yǔ)言模型在處理多步復(fù)雜問(wèn)題時(shí),常采用“先思考后回答”的長(zhǎng)鏈?zhǔn)酵评矸绞。然而,這種方法存在兩大痛點(diǎn):一是響應(yīng)時(shí)間過(guò)長(zhǎng),難以滿足實(shí)時(shí)交互需求;二是早期推理步驟出錯(cuò)可能導(dǎo)致最終答案偏差。

研究人員指出,與人類(lèi)在對(duì)話中隨時(shí)分享部分想法不同,模型往往等到推理全部完成才輸出結(jié)果,導(dǎo)致效率不高。

蘋(píng)果公司攜手杜克大學(xué),研發(fā)了交錯(cuò)推理技術(shù),讓模型在推理過(guò)程中交替進(jìn)行內(nèi)部思考和輸出中間答案(sub-answer),從而提升速度與實(shí)用性。

交錯(cuò)推理基于強(qiáng)化學(xué)習(xí)(RL)框架,采用特殊的訓(xùn)練模板,包含 標(biāo)簽,確保模型在達(dá)到關(guān)鍵推理節(jié)點(diǎn)時(shí)輸出中間結(jié)果。

研究團(tuán)隊(duì)設(shè)計(jì)了基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制,包括格式、最終準(zhǔn)確率和條件性中間準(zhǔn)確率,確保模型注重整體正確性。

測(cè)試中,交錯(cuò)推理在 Qwen2.5 模型(1.5B 和 7B 參數(shù))上表現(xiàn)優(yōu)異,響應(yīng)速度提升超 80%,準(zhǔn)確率提高高達(dá) 19.3%。

此外,該方法僅在問(wèn)答(QA)和邏輯數(shù)據(jù)集上訓(xùn)練,卻能在 MATH、GPQA、MMLU 等更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中展現(xiàn)強(qiáng)大泛化能力。

研究還嘗試了多種獎(jiǎng)勵(lì)策略,如全或無(wú)、部分積分和時(shí)間折扣獎(jiǎng)勵(lì),其中條件性和時(shí)間折扣獎(jiǎng)勵(lì)效果最佳,顯著優(yōu)于傳統(tǒng)方法。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好

C114簡(jiǎn)介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷(xiāo)