DeepSeek釋出多模態論文又連夜刪除,主要透露了啥?

DeepSeek釋出多模態論文又連夜刪除,主要透露了啥?

DeepSeek終於能“看見”了論文。前兩天,DeepSeek偷偷開啟了多模態能力的灰度測試,部分使用者開啟DeepSeek首頁會發現,介面多了一個“識圖模式”的入口。上傳圖片後,DeepSeek能像人一樣理解畫面了。

DeepSeek釋出多模態論文又連夜刪除,主要透露了啥?

DeepSeek多模態團隊負責人陳小康在4月29日發文稱,“現在,我們能看見你了論文。”這是DeepSeek的聊天產品第一次接入多模態。

就在4月30日,DeepSeek又釋出了一篇關於多模態技術報告《Thinking with Visaul Primitives》(《用視覺原語思考》),闡釋了這次上新的多模態技術背後的細節論文

在五一節假日前一天釋出重磅論文,“這很DeepSeek”論文。但很快大家發現,官方連夜刪除了多模態倉庫和論文原文,5月1日開啟Github介面已經是“404”狀態。

DeepSeek釋出多模態論文又連夜刪除,主要透露了啥?

展開全文

關於刪除原因官方並沒有特別說明,不過有猜測不是內容問題,而是資訊透露太多論文

這次的論文說了些啥?從行業反饋來看,論文符合DeepSeek紮實且務實的風格,同樣在透過工程能力降低成本,採用了新的正規化,也意味著,DeepSeek開始在視覺模型上發力了論文

具體來看,DeepSeek的論文指出,目前的多模態模型在複雜任務上崩潰,不是因為看不見(感知鴻溝),而在於“指不準”(引用鴻溝)論文

自然語言天然具有模糊性論文。當使用者要求模型處理複雜的空間佈局時,僅靠文字描述很容易產生歧義。就像數一堆散落的硬幣,如果不用手指逐個按著確認,人類也很容易數錯或數重。

DeepSeek的解法是給模型配上一隻“手指”論文。透過引入“視覺原語”(Visual Primitives)框架,模型將點、邊界框等空間標記提升為最小思維單元。這意味著模型在推理時,能夠一邊“想”一邊“指”,將抽象的語言邏輯指向到具體空間座標。

這一靈感借鑑了人類的認知論文。論文提及,人類走迷宮或數密集物體時,會用手指這類指示性指向來降低認知負荷、維持邏輯一致性。透過將視覺原語嵌入思考,模型可以模擬人類這種“指向-推理”的協同。

這一模型基於DeepSeek-V4-Flash(總引數2840億)構建論文。DeepSeek的大量實驗表明,該方法在推理精度上實現顯著突破,在空間推理、視覺問答等挑戰性任務上,效能持平或超越 GPT、Claude、Gemini 最新版本。

DeepSeek的研究證明:多模態智慧的未來,不只是 “看見更多畫素”,而是構建語言與視覺之間精準、無歧義的指代橋樑論文

值得一提的是,DeepSeek在4月24日釋出了V4系列旗艦模型,這次釋出並沒有涉及傳言已久的多模態論文。官方當時對V4的定義是:支援百萬字超長上下文,在 Agent(智慧體)能力、世界知識和推理效能上均實現國內與開源領域的領先。

多模態已經成為當前大模型更新的一個重要方向,而DeepSeek在這一方面卻遲遲未跟上,這也被認為是DeepSeek能力上的一大短板論文。也有傳言稱,DeepSeek暫緩多模態生成的訓練策略,主要源於算力和現金的掣肘,在融資後,或許這一方向的訓練會更加順利。

(本文來自第一財經)

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://www.sdhbcy.com/tags-%E5%BC%95%E6%95%B8%E8%A8%AD%E5%AE%9A.html

🌐 /