DeepSeek釋出多模態論文又連夜刪除，主要透露了啥？

DeepSeek終於能“看見”了論文。前兩天，DeepSeek偷偷開啟了多模態能力的灰度測試，部分使用者開啟DeepSeek首頁會發現，介面多了一個“識圖模式”的入口。上傳圖片後，DeepSeek能像人一樣理解畫面了。

DeepSeek多模態團隊負責人陳小康在4月29日發文稱，“現在，我們能看見你了論文。”這是DeepSeek的聊天產品第一次接入多模態。

就在4月30日，DeepSeek又釋出了一篇關於多模態技術報告《Thinking with Visaul Primitives》（《用視覺原語思考》），闡釋了這次上新的多模態技術背後的細節論文。

在五一節假日前一天釋出重磅論文，“這很DeepSeek”論文。但很快大家發現，官方連夜刪除了多模態倉庫和論文原文，5月1日開啟Github介面已經是“404”狀態。

展開全文

關於刪除原因官方並沒有特別說明，不過有猜測不是內容問題，而是資訊透露太多論文。

這次的論文說了些啥？從行業反饋來看，論文符合DeepSeek紮實且務實的風格，同樣在透過工程能力降低成本，採用了新的正規化，也意味著，DeepSeek開始在視覺模型上發力了論文。

具體來看，DeepSeek的論文指出，目前的多模態模型在複雜任務上崩潰，不是因為看不見（感知鴻溝），而在於“指不準”（引用鴻溝）論文。

自然語言天然具有模糊性論文。當使用者要求模型處理複雜的空間佈局時，僅靠文字描述很容易產生歧義。就像數一堆散落的硬幣，如果不用手指逐個按著確認，人類也很容易數錯或數重。

DeepSeek的解法是給模型配上一隻“手指”論文。透過引入“視覺原語”（Visual Primitives）框架，模型將點、邊界框等空間標記提升為最小思維單元。這意味著模型在推理時，能夠一邊“想”一邊“指”，將抽象的語言邏輯指向到具體空間座標。

這一靈感借鑑了人類的認知論文。論文提及，人類走迷宮或數密集物體時，會用手指這類指示性指向來降低認知負荷、維持邏輯一致性。透過將視覺原語嵌入思考，模型可以模擬人類這種“指向-推理”的協同。

這一模型基於DeepSeek-V4-Flash（總引數2840億）構建論文。DeepSeek的大量實驗表明，該方法在推理精度上實現顯著突破，在空間推理、視覺問答等挑戰性任務上，效能持平或超越 GPT、Claude、Gemini 最新版本。

DeepSeek的研究證明：多模態智慧的未來，不只是 “看見更多畫素”，而是構建語言與視覺之間精準、無歧義的指代橋樑論文。

值得一提的是，DeepSeek在4月24日釋出了V4系列旗艦模型，這次釋出並沒有涉及傳言已久的多模態論文。官方當時對V4的定義是：支援百萬字超長上下文，在 Agent（智慧體）能力、世界知識和推理效能上均實現國內與開源領域的領先。

多模態已經成為當前大模型更新的一個重要方向，而DeepSeek在這一方面卻遲遲未跟上，這也被認為是DeepSeek能力上的一大短板論文。也有傳言稱，DeepSeek暫緩多模態生成的訓練策略，主要源於算力和現金的掣肘，在融資後，或許這一方向的訓練會更加順利。

(本文來自第一財經)