點擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進行分享
打開手機,讓 AI Agent 自動幫你完成訂外賣、訂酒店、網(wǎng)上購物的瑣碎任務,這正成為智能手機交互的新范式。
一個能自主處理大部分日常任務的個人專屬智能體,正在從科幻走進現(xiàn)實。
然而,通往 “解放雙手” 的最后一公里卻并不好走。如何高效地訓練和在手機端部署 Agent 模型,長期以來似乎都是少數(shù)大廠的 “自留地”。從高質(zhì)量操作數(shù)據(jù)的獲取,到模型的訓練與適配,再到移動端 APP 的優(yōu)化,重重門檻將絕大多數(shù)開發(fā)者和普通用戶擋在門外,也極大地限制了移動端 Agent 的生態(tài)發(fā)展。
就在剛剛,這一局面迎來了新的破局者。
來自上海交通大學 IPADS 實驗室的團隊,正式開源了一套名為MobiAgent的移動端智能體 “全家桶”。
論文地址: https://arxiv.org/abs/2509.00531AgentRR 論文:https://arxiv.org/abs/2505.17716項目倉庫: https://github.com/IPADS-SAI/MobiAgent模型:https://huggingface.co/IPADS-SAI/collectionsAPP:https://github.com/IPADS-SAI/MobiAgent/releases/download/v1.0/Mobiagent.apk
這套框架,首次將從 0 到 1 構建手機 Agent 的全流程完整地向所有用戶開放。這意味著,從收集手機操作軌跡數(shù)據(jù)開始,到訓練出一個能聽懂自然語言指令、幫你處理日常事務的專屬 Agent,再到最終將它部署在自己的手機上,現(xiàn)在,人人都能上手 DIY。
當然,光能 “煉” 還不夠,性能必須能打。為了驗證 MobiAgent 的真實能力,研究團隊直接在國內(nèi) Top 20 的 App 上進行了實測。結果顯示,7B 規(guī)模的 MobiAgent 模型,在任務平均完成分上,不僅超越了GPT-5、Gemini 2.5 Pro 等一眾頂級閉源大模型,也優(yōu)于目前最強的同規(guī)模開源 GUI Agent 模型。
除了 Agent 能力之外,團隊還為 Agent 設計了一個獨特的 “潛記憶加速器”。面對點外賣、查地圖這類高頻重復操作,MobiAgent 能夠 “舉一反三”,通過學習歷史操作來簡化決策,靠 “肌肉記憶” 完成 Agent 任務,最終將端到端的任務性能提升了2-3 倍。這樣一套集“數(shù)據(jù)捕獲、模型訓練、推理加速、自動評測”于一體的四位一體框架,可以說,徹底打通了移動智能體從開發(fā)到落地的 “最后一公里”。
這,或許才是普通人真正想要的 Agent。那么,MobiAgent 究竟是如何做到的?
https://mp.weixin.qq.com/s/ylbyEGyj3-kl7Ta6a4OPUw
Agent 養(yǎng)成全攻略:三步走
要讓 AI 學會玩手機,首先得讓它看懂人是怎么操作的。MobiAgent 的第一大核心,就是貢獻了一套 AI 輔助的敏捷數(shù)據(jù)收集 “流水線”。
過去,給 AI 準備 “教材”(標注數(shù)據(jù))又貴又慢?,F(xiàn)在,MobiAgent 用一個輕量級小工具,就能記錄下人類在手機上的所有點擊、滑動、輸入等操作軌跡。對于一些簡單的任務,這一錄制過程甚至可以完全交給大模型完成,進一步提高了數(shù)據(jù)收集的效率。
MobiAgent數(shù)據(jù)收集與自進化流程
但只有操作還不夠,AI 得理解 “為什么” 這么做。于是,團隊使用通用的 VLM 模型(例如 gemini-2.5-pro),讓它對著操作記錄,“腦補” 出每一步的思考過程和邏輯,自動生成高質(zhì)量的 “帶思路” 的訓練數(shù)據(jù)。最后,也是最重要的一步,這些數(shù)據(jù)會經(jīng)過一個自動化 “精煉流水線”,調(diào)整數(shù)據(jù)的難易平衡比例、輸入任務描述、歷史信息長度等等,讓訓練出的 Agent 模型具有更強的泛化能力。
有了高質(zhì)量的教材,下一步就是訓練。MobiAgent 的"大腦"MobiMind,被設計成了一個分工明確的 “三人小組”:
Planner(規(guī)劃師): 負責理解復雜任務,進行拆解。Decider(決策者): 看著當前手機屏幕,決定下一步干啥。Grounder(執(zhí)行者): 負責把 “點搜索按鈕” 這種指令,精準定位到屏幕上的坐標并點擊。
這種 “各司其職” 的架構,讓模型訓練起來更高效,能力也更強。
讓 Agent 擁有 “肌肉記憶”,速度飆升 3 倍
光聰明還不夠,反應慢也是硬傷。你肯定不想讓 Agent 幫你買杯咖啡,結果思考了半分鐘。為此,MobiAgent 團隊祭出了第二個大殺器:AgentRR(Agent Record&Replay)加速框架。這個框架的核心思想,就跟我們?nèi)祟惖?“肌肉記憶” 一樣:對于重復做過的事,直接憑經(jīng)驗搞定,不用再過一遍大腦。
AgentRR系統(tǒng)架構
AgentRR 會把智能體執(zhí)行過的任務軌跡,通過樹的形式記錄在一個叫ActTree的結構里。當接到一個新任務時,一個超輕量的 “潛意識”(Latent Memory Model)會迅速判斷:
這個任務我是不是做過類似的?前幾步是不是可以照搬?
比如,無論是 “搜附近的火鍋店” 還是 “搜附近的電影院”,點開地圖 App、點搜索框這兩步都是完全一樣的。AgentRR 就能直接 “復用” 這段操作,跳過大模型的思考過程,從而大幅提升效率。效果有多好?在模擬真實用戶使用習慣(80% 請求集中在 20% 任務)的測試中,動作復用率高達60%-85%。反映在實際任務上,就是2 到 3 倍的性能提升。
不同請求分布下,AgentRR 的動作復用率
真實場景大比拼:誰是 「手機操作之王」?
是騾子是馬,拉出來遛遛。為了公平地評判各大模型的真實能力,團隊還專門打造一個更貼近現(xiàn)實的移動端智能體評測基準:MobiFlow。這個基準會基于任務的一個個關鍵節(jié)點,也就是 “里程碑”,對在動態(tài) GUI 環(huán)境中執(zhí)行任務的 Agent 進行精確打分,避免了 “不是滿分,就是零分” 的單一評判標準,并且覆蓋了社交、影音、購物、旅行、外賣等多個領域的國產(chǎn)主流 App。
MobiFlow智能體評測基準
最終的評測結果,MobiAgent(MobiMind-Decider-7B + MobiMind-Grounder-3B 的組合)在絕大多數(shù) App 上都取得了最高分,尤其是在購物、外賣這類復雜任務上,優(yōu)勢非常明顯。相比之下,像 GPT 和 Gemini 這樣的大模型,雖然也能完成一些任務,但有時會 “走捷徑”,比如把所有要求一股腦全塞進搜索框,依賴 App 自身的 AI 搜索能力。這種 “偷懶” 的做法一旦遇到不支持 AI 搜索的 App,完成率就大幅下降。更重要的是,MobiAgent 在所有測試中都能正確終止任務,而 GPT-5 在 11 個 App 上都出現(xiàn)了 “無限循環(huán)” 卡住的問題。
總結
MobiAgent 的出現(xiàn),不僅在性能上樹立了新的標桿,更重要的是,它通過開源整個技術棧,極大地降低了定制化、私有化移動智能體的門檻。從日常應用的 Agent 開發(fā),到每個人的個性化專屬助理,想象空間被徹底打開。
或許,那個 “能動口就不動手” 的智能移動時代,就快到來了。
項目成員介紹
MobiAgent核心開發(fā)團隊主要由上海交通大學IPADS實驗室(并行與分布式系統(tǒng)研究所)的端側智能體研究小組的本科生和碩士生,以及John班的實習生組成。主要指導教師為上海交通大學人工智能學院助理教授馮二虎。