亚洲AV无码成h人动漫无遮挡,99久热在线精品视频观看,无码片久久久天堂中文字幕

C114
通信人家園
English
公眾號(hào)矩陣

投稿
舉報(bào)

量子大觀

通信人家園

C114通信網(wǎng)

光通信觀察

DVBCN中廣5G

2025/5/30 15:44

蘋(píng)果聯(lián)合推出AI交錯(cuò)推理方法，Qwen2.5 模型響應(yīng)速度快 80%、準(zhǔn)確率提高 19.3%

IT之家故淵

科技媒體 marktechpost 昨日（5 月 29 日）發(fā)布博文，報(bào)道稱蘋(píng)果公司攜手杜克大學(xué)，提出交錯(cuò)推理（Interleaved Reasoning）的全新強(qiáng)化學(xué)習(xí)（Reinforcement learning，RL）方法，進(jìn)一步提升大語(yǔ)言模型的推理能力。

主流大語(yǔ)言模型在處理多步復(fù)雜問(wèn)題時(shí)，常采用“先思考后回答”的長(zhǎng)鏈?zhǔn)酵评矸绞�。然而，這種方法存在兩大痛點(diǎn)：一是響應(yīng)時(shí)間過(guò)長(zhǎng)，難以滿足實(shí)時(shí)交互需求；二是早期推理步驟出錯(cuò)可能導(dǎo)致最終答案偏差。

研究人員指出，與人類(lèi)在對(duì)話中隨時(shí)分享部分想法不同，模型往往等到推理全部完成才輸出結(jié)果，導(dǎo)致效率不高。

蘋(píng)果公司攜手杜克大學(xué)，研發(fā)了交錯(cuò)推理技術(shù)，讓模型在推理過(guò)程中交替進(jìn)行內(nèi)部思考和輸出中間答案（sub-answer），從而提升速度與實(shí)用性。

交錯(cuò)推理基于強(qiáng)化學(xué)習(xí)（RL）框架，采用特殊的訓(xùn)練模板，包含和標(biāo)簽，確保模型在達(dá)到關(guān)鍵推理節(jié)點(diǎn)時(shí)輸出中間結(jié)果。

研究團(tuán)隊(duì)設(shè)計(jì)了基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制，包括格式、最終準(zhǔn)確率和條件性中間準(zhǔn)確率，確保模型注重整體正確性。

測(cè)試中，交錯(cuò)推理在 Qwen2.5 模型（1.5B 和 7B 參數(shù)）上表現(xiàn)優(yōu)異，響應(yīng)速度提升超 80%，準(zhǔn)確率提高高達(dá) 19.3%。

此外，該方法僅在問(wèn)答（QA）和邏輯數(shù)據(jù)集上訓(xùn)練，卻能在 MATH、GPQA、MMLU 等更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中展現(xiàn)強(qiáng)大泛化能力。

研究還嘗試了多種獎(jiǎng)勵(lì)策略，如全或無(wú)、部分積分和時(shí)間折扣獎(jiǎng)勵(lì)，其中條件性和時(shí)間折扣獎(jiǎng)勵(lì)效果最佳，顯著優(yōu)于傳統(tǒng)方法。

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

相關(guān)鏈接

蘋(píng)果測(cè)試

AI創(chuàng)新實(shí)力彰顯，中興通訊星云大模型獲推理榜總分第一！
C114通信網(wǎng) 5-30
5G+AI賦能教育新生態(tài)丨連云港連云移動(dòng)閃耀“領(lǐng)航杯”數(shù)字素養(yǎng)實(shí)踐活動(dòng)獲贊譽(yù)
C114通信網(wǎng) 5-30
阿里云通義靈碼 AI IDE 正式宣布上線：支持最強(qiáng)開(kāi)源模型千問(wèn) 3，支持長(zhǎng)期記憶、行間建議預(yù)測(cè)、行間會(huì)話等能力
IT之家問(wèn)舟5-30
讓5G設(shè)備秒變“語(yǔ)音助手”！移遠(yuǎn)通信發(fā)布智能AI語(yǔ)音FWA/ MBB整體解決方案
C114通信網(wǎng) 5-30

特別策劃