DeepSeek終於能“看見”了論文。前兩天,DeepSeek偷偷開啟了多模態能力的灰度測試,部分使用者開啟DeepSeek首頁會發現,介面多了一個“識圖模式”的入口。上傳圖片後,DeepSeek能像人一樣理解畫面了。
DeepSeek多模態團隊負責人陳小康在4月29日發文稱,“現在,我們能看見你了論文。”這是DeepSeek的聊天產品第一次接入多模態。
就在4月30日,DeepSeek又釋出了一篇關於多模態技術報告《Thinking with Visaul Primitives》(《用視覺原語思考》),闡釋了這次上新的多模態技術背後的細節論文。
在五一節假日前一天釋出重磅論文,“這很DeepSeek”論文。但很快大家發現,官方連夜刪除了多模態倉庫和論文原文,5月1日開啟Github介面已經是“404”狀態。
展開全文
關於刪除原因官方並沒有特別說明,不過有猜測不是內容問題,而是資訊透露太多論文。
這次的論文說了些啥?從行業反饋來看,論文符合DeepSeek紮實且務實的風格,同樣在透過工程能力降低成本,採用了新的正規化,也意味著,DeepSeek開始在視覺模型上發力了論文。
具體來看,DeepSeek的論文指出,目前的多模態模型在複雜任務上崩潰,不是因為看不見(感知鴻溝),而在於“指不準”(引用鴻溝)論文。
自然語言天然具有模糊性論文。當使用者要求模型處理複雜的空間佈局時,僅靠文字描述很容易產生歧義。就像數一堆散落的硬幣,如果不用手指逐個按著確認,人類也很容易數錯或數重。
DeepSeek的解法是給模型配上一隻“手指”論文。透過引入“視覺原語”(Visual Primitives)框架,模型將點、邊界框等空間標記提升為最小思維單元。這意味著模型在推理時,能夠一邊“想”一邊“指”,將抽象的語言邏輯指向到具體空間座標。
這一靈感借鑑了人類的認知論文。論文提及,人類走迷宮或數密集物體時,會用手指這類指示性指向來降低認知負荷、維持邏輯一致性。透過將視覺原語嵌入思考,模型可以模擬人類這種“指向-推理”的協同。
這一模型基於DeepSeek-V4-Flash(總引數2840億)構建論文。DeepSeek的大量實驗表明,該方法在推理精度上實現顯著突破,在空間推理、視覺問答等挑戰性任務上,效能持平或超越 GPT、Claude、Gemini 最新版本。
DeepSeek的研究證明:多模態智慧的未來,不只是 “看見更多畫素”,而是構建語言與視覺之間精準、無歧義的指代橋樑論文。
值得一提的是,DeepSeek在4月24日釋出了V4系列旗艦模型,這次釋出並沒有涉及傳言已久的多模態論文。官方當時對V4的定義是:支援百萬字超長上下文,在 Agent(智慧體)能力、世界知識和推理效能上均實現國內與開源領域的領先。
多模態已經成為當前大模型更新的一個重要方向,而DeepSeek在這一方面卻遲遲未跟上,這也被認為是DeepSeek能力上的一大短板論文。也有傳言稱,DeepSeek暫緩多模態生成的訓練策略,主要源於算力和現金的掣肘,在融資後,或許這一方向的訓練會更加順利。
(本文來自第一財經)