資訊
`
2025/7/25 09:21
中國(guó)移動(dòng)九天GUI Agent模型登頂評(píng)測(cè)國(guó)際榜單榜首
0
0

近日,中國(guó)移動(dòng)九天人工智能研究院(下稱“九天研究院”)研發(fā)的端側(cè)自主智能體模型JT-GUIAgent-V2,登頂谷歌AndroidWorld自主智能體動(dòng)態(tài)基準(zhǔn)評(píng)測(cè)國(guó)際榜單榜首。

九天研究院研發(fā)的端側(cè)自主智能體模型JT-GUIAgent-V2,在谷歌AndroidWorld自主智能體動(dòng)態(tài)基準(zhǔn)測(cè)試國(guó)際榜單中,任務(wù)成功率(Success Rate pass@1)達(dá)到67.2%,超越了基于GPT-4o、Gemini2.5、Seed1.5-VL等基座模型驅(qū)動(dòng)的多個(gè)GUI Agent框架和模型,位列榜單Top1!這標(biāo)志著中國(guó)移動(dòng)在端側(cè)復(fù)雜智能體系統(tǒng)的人機(jī)交互技術(shù)方面達(dá)到了國(guó)際領(lǐng)先水平。

GUI Agent(圖形用戶界面智能體)是一種前沿的人工智能代理系統(tǒng),它融合計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和強(qiáng)化學(xué)習(xí)等多種AI核心技術(shù),能夠自動(dòng)推理并執(zhí)行UI交互,像人類用戶一樣,通過(guò)圖形用戶界面感知操作環(huán)境,模擬人類完成跨平臺(tái)任務(wù),理解并執(zhí)行在圖形界面上的各種操作指令,如點(diǎn)擊、輸入、拖拽、讀取界面信息等,實(shí)現(xiàn)用戶要求的復(fù)雜任務(wù)自動(dòng)化處理。這種技術(shù)突破有效解決了傳統(tǒng)人工操作的效率瓶頸。簡(jiǎn)單來(lái)說(shuō),GUI Agent 就像端側(cè)的“自動(dòng)駕駛系統(tǒng)”,能夠代替用戶與各種軟件應(yīng)用進(jìn)行自動(dòng)交互,顯著提高了工作效率和用戶操作體驗(yàn)。

然而,GUI Agent在實(shí)際應(yīng)用中面臨三大核心技術(shù)挑戰(zhàn):一是如何準(zhǔn)確感知理解動(dòng)態(tài)多變的多模型UI界面,二是如何對(duì)復(fù)雜長(zhǎng)鏈條任務(wù)做到高效推理,三是在任務(wù)執(zhí)行過(guò)程中如何做到自動(dòng)糾偏處理。這些技術(shù)難題的解決不僅依賴計(jì)算機(jī)視覺(jué)、自然語(yǔ)言等單一技術(shù)領(lǐng)域的突破,而且需要多模態(tài)融合與持續(xù)學(xué)習(xí)的協(xié)同創(chuàng)新,對(duì)現(xiàn)有AI技術(shù)體系提出了全方位的嚴(yán)苛要求。為此,JT-GUIAgent-V2在架構(gòu)設(shè)計(jì)和智能規(guī)劃上實(shí)現(xiàn)了全面升級(jí)。相比1個(gè)月前發(fā)布的V1版本,新版本在自然語(yǔ)言指令理解、UI元素多模態(tài)感知、目標(biāo)任務(wù)識(shí)別推理以及自動(dòng)化執(zhí)行等方面實(shí)現(xiàn)了全方位能力躍遷,真正實(shí)現(xiàn)了“任務(wù)自動(dòng)觀察-自主思考-自動(dòng)執(zhí)行”的全鏈路閉環(huán),其核心技術(shù)優(yōu)勢(shì)體現(xiàn)在以下兩大創(chuàng)新:第一,自主構(gòu)建兩階段的協(xié)同框架。創(chuàng)新設(shè)計(jì)全局規(guī)劃智能體(Planner)和感知定位智能體(Grounder)兩階段協(xié)同框架。Planner專注高階策略規(guī)劃,顯著提升復(fù)雜任務(wù)推理能力和環(huán)境適應(yīng)性;Grounder則確保界面元素的精準(zhǔn)識(shí)別與操作執(zhí)行,二者協(xié)同形成完整決策閉環(huán)。第二,創(chuàng)新性地引入經(jīng)驗(yàn)驅(qū)動(dòng)的智能規(guī)劃方法,通過(guò)實(shí)時(shí)融合用戶指令解析與應(yīng)用操作經(jīng)驗(yàn),實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)決策優(yōu)化,帶來(lái)三個(gè)方面的性能和效果顯著提升:一是規(guī)劃精準(zhǔn)化 :引入經(jīng)驗(yàn)檢索機(jī)制,實(shí)時(shí)匹配用戶意圖與應(yīng)用特征,避免規(guī)劃冗余或陷入錯(cuò)誤循環(huán);二是錯(cuò)誤最小化:有效減少模型“認(rèn)知盲區(qū)”,解決不常見(jiàn)圖標(biāo)識(shí)別、隱藏手勢(shì)調(diào)用等技術(shù)難題;三是任務(wù)通用化:通過(guò)可擴(kuò)展的應(yīng)用經(jīng)驗(yàn)積累,提升模型在新任務(wù)上的執(zhí)行準(zhǔn)確率。

AndroidWorld是由Google研究人員聯(lián)合發(fā)布的一個(gè)功能完備的Android環(huán)境,為自主智能體提供了一個(gè)具有高專業(yè)性和權(quán)威性的基準(zhǔn)測(cè)試平臺(tái)。其特點(diǎn)在于:一是 環(huán)境真實(shí),構(gòu)建了包含20款主流Android應(yīng)用程序的完整功能環(huán)境。二是任務(wù)多樣, 精心設(shè)計(jì)了涵蓋日程管理、信息交流、系統(tǒng)設(shè)置等日;顒(dòng)的116項(xiàng)任務(wù),高度模擬真實(shí)用戶場(chǎng)景。三是評(píng)測(cè)嚴(yán)謹(jǐn), 每項(xiàng)任務(wù)均配備標(biāo)準(zhǔn)化初始化、嚴(yán)格的成功判定機(jī)制及清理邏輯,確保評(píng)測(cè)結(jié)果的高可重復(fù)性與可比性。四是能力全面, 重點(diǎn)考察智能體對(duì)自然語(yǔ)言指令的理解深度、與動(dòng)態(tài)UI的精準(zhǔn)交互能力、復(fù)雜任務(wù)的高效完成度以及應(yīng)對(duì)任務(wù)參數(shù)變化的魯棒性。

憑借上述技術(shù)優(yōu)勢(shì),GUI Agent 的強(qiáng)大功能使其在眾多領(lǐng)域擁有廣闊的應(yīng)用前景。例如,在生活服務(wù)場(chǎng)景中,用戶提出語(yǔ)音和文本交互指令,GUI Agent能夠在用戶授權(quán)許可應(yīng)用(如攜程、大眾點(diǎn)評(píng)、12306等)中實(shí)現(xiàn)跨應(yīng)用操作,為用戶在多個(gè)APP界面的復(fù)雜操作提供了全新解決方案;在辦公場(chǎng)景中,用戶只需通過(guò)語(yǔ)音或文字向 GUI Agent 下達(dá)指令,如 “打開(kāi)文檔并將其中的關(guān)鍵數(shù)據(jù)整理成表格發(fā)送給團(tuán)隊(duì)成員”,它便能自動(dòng)完成從打開(kāi)辦公軟件、定位文檔、提取數(shù)據(jù)到制作表格并發(fā)送郵件的一系列操作,無(wú)需用戶手動(dòng)逐一操作;在財(cái)務(wù)應(yīng)用中,GUI Agent 能夠自動(dòng)讀取和整理各類財(cái)務(wù)數(shù)據(jù),生成財(cái)務(wù)報(bào)表,降低人工操作帶來(lái)的錯(cuò)誤風(fēng)險(xiǎn)和時(shí)間成本;在軟件開(kāi)發(fā)過(guò)程中,GUI Agent 可用于自動(dòng)化軟件測(cè)試,模擬各種用戶操作,快速檢測(cè)軟件的穩(wěn)定性和兼容性;在工業(yè)生產(chǎn)中,GUI Agent 可用于自動(dòng)化控制系統(tǒng),根據(jù)生產(chǎn)指令自動(dòng)操作設(shè)備、監(jiān)控生產(chǎn)流程,實(shí)現(xiàn)生產(chǎn)過(guò)程的智能化和自動(dòng)化,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。

GUI Agent作為大模型落地的關(guān)鍵使能技術(shù),融合了意圖理解、環(huán)境感知、自主決策與交互執(zhí)行等綜合智能能力,未來(lái)在智能終端、智能網(wǎng)聯(lián)汽車、智能機(jī)器人等信息消費(fèi)“新三樣”領(lǐng)域具有廣闊的應(yīng)用前景。

九天GUI Agent本次登頂AndroidWorld榜單,充分體現(xiàn)了九天研究院在自主智能體方面的技術(shù)實(shí)力,更代表了中國(guó)移動(dòng)在智能時(shí)代對(duì)用戶服務(wù)需求和業(yè)務(wù)體驗(yàn)方面的深刻洞察和主動(dòng)創(chuàng)新。未來(lái),中國(guó)移動(dòng)九天人工智能研究院將持續(xù)探索更先進(jìn)的GUI Agent架構(gòu)與算法,重塑人機(jī)交互協(xié)作模式,為廣大用戶帶來(lái)智能化、便捷化、個(gè)性化的全新信息服務(wù)新體驗(yàn)。

 

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好
為您推薦

C114簡(jiǎn)介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷