剛剛！小米「天才少女」羅福莉發表新論文，直指AI Agent痛點

AIPress.com.cn報道

3月16日訊息，小米AI實驗室研究員羅福莉，也就是很多人口中的“天才少女”，又發論文了論文。

論文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning論文。作者之一，就是羅福莉。

如果只看標題，這篇論文似乎只是一個偏工程的研究：如何讓AI Agent的強化學習訓練更省算力論文。

但如果把它放在最近幾個月AI的發展脈絡裡論文，

就會發現它其實正好落位在OpenClaw、Claude Code、Devin這一波 Agent浪潮的底層論文。

而要理解這篇論文所講的東西，

展開全文

需要我們先下一個定義論文，AI正在從“模型時代”進入“Agent時代”

過去幾年，大多數 AI 系統的結構其實非常簡單論文。

輸入一段內容，模型計算，然後輸出結果論文。

從ChatGPT到影像生成模型論文，本質都是同一個邏輯：

輸入→模型→輸出

整個系統的核心資源也很單一，那就是GPU論文。

因此過去幾年 AI 的競爭基本圍繞模型引數規模、訓練資料、GPU算力三件事來展開論文。

但隨著AI Agent的出現，計算結構突然變得複雜起來論文。

一個典型的Agent任務可能是這樣的論文：

思考→搜尋資訊→寫程式碼→執行程式碼→分析結果→再修改

在這個過程中，AI不再只呼叫模型本身，還會不斷呼叫各種工具論文。

要用GPU去做模型推理論文，要用CPU去執行程式碼，要用API去處理搜尋、資料庫，可能還要用瀏覽器進行網頁操作......

於是論文，一個Agent系統的資源結構就變成了：

GPU+CPU+API+儲存+網路

這已經非常接近一個完整的軟體系統論文。

“幫我整理今天的AI新聞並做成Excel論文。”

一個Agent就會搜尋網頁、抓取資訊、總結內容、生成表格、儲存檔案論文，

整個過程涉及瀏覽器、Python、檔案系統、模型推理論文。

這是Agent計算模式的典型例子論文，龍蝦OpenClaw也是這麼做的，

而最近Anthropic更新的Claude Code，也在逐漸向同樣的方向發展論文。

/loop論文：讓AI自動迴圈執行任務

CLAUDE.md論文：提供長期記憶

Session Spawning論文：手機遠端啟動電腦上的AI程式設計任務

連不少開發者看完更新後的第一反應都是“這不就是官方版龍蝦嗎論文？”

當遠端操控、自主執行和長期記憶組合在一起時，AI不再只是一個聊天工具，而更像一個持續執行的數字員工論文。

好用論文，確實是好用，但真正的問題也就在其中，

算力怎麼排程論文？

在傳統模型訓練中，資源基本只有GPU論文。

但在 Agent 系統裡論文，不同任務會不斷切換資源型別：

有時需要GPU論文，有時需要CPU，有時需要API

如果資源管理方式不合理，就會出現大量浪費論文。

論文裡給出的典型例子中有一項資料論文，

在某些AI程式設計任務中，CPU的真實利用率只有47%論文。

剩下的算力基本處於閒置狀態論文。

對於正在進行大規模訓練的 AI 公司來說，這種浪費意味著巨大的成本論文。

基於此，羅福莉等人的論文提出了一種新的系統：Tangram論文。

它的核心思路很像作業系統的程序排程論文。

傳統系統的資源分配方式是任務級排程：

一個Agent任務開始時，就會佔用CPU或GPU，直到任務結束論文。

而Tangram採用的是動作級排程論文。

也就是說，只有當某個具體操作需要資源時，系統才會分配資源論文。

寫程式碼→GPU

編譯程式碼→CPU

執行測試→CPU

搜尋資料→API

這樣不同Agent的任務可以共享資源論文。

實驗結果顯示，這種排程方式帶來明顯提升：平均任務時間縮短4.3倍，訓練效率提升1.5倍，外部資源成本降低71%，

對於正在進行大規模Agent訓練的團隊來說，這種效率提升非常關鍵論文。

如果把最近幾個月的技術動向連起來，會看到一條越來越清晰的路線論文。

OpenClaw解決的是Agent的執行框架問題論文，

Claude Code、Devin解決的是Agent在真實任務中的應用問題論文，

而羅福莉等人做Tangram這樣的研究，則開始解決Agent的底層計算問題論文。

這說明AI行業正在經歷一個結構性變化論文，

競爭的焦點正在從模型能力轉向Agent系統能力論文。

這也正是為什麼OpenClaw、Claude Code、Devin會在今年突然變得如此重要論文。

剛剛！小米「天才少女」羅福莉發表新論文，直指AI Agent痛點

山東環保產業集團有限公司

熱門標籤

相關詞彙

分站導航