|
中國人工智能初創公司深度求索(DeepSeek)近日深夜低調上線了DeepSeek-V3的新版本DeepSeek-V3-0324,參數量為6850億,在代碼、數學、推理等多個方面的能力再次顯著提升,甚至代碼能力追平美國Anthropic公司大模型Claude 3.7。與V3相同,V3-0324模型采用混合專家(MoE)架構,并開源允許自由商用。
DeepSeek-V3新版本有哪些能力提升? 一是新版本代碼能力顯著提升,接近Claude 3.7水平。例如,有用戶在實測中發現,V3-0324能一次性生成800行無錯誤的網頁代碼,并實現動態響應式布局和交互效果。 二是數學與邏輯推理能力增強。例如經典的“4升水壺問題”和數學競賽題(如AIME 2025題目),部分表現接近專業推理模型。 三是模型架構與開源生態。V3-0324采用MIT許可證,允許自由修改、分發及商業化應用,進一步降低了開發者的使用門檻。 有AI研究者在社交平臺X上發布評測指出,V3-0324模型在所有基準測試中都取得巨大進步,可能已超越美國Anthropic公司的Claude 3.5 Sonnet,成為最強大的非推理模型。Claude 3.5 Sonnet是當前最受認可的商業AI模型之一。 此外,V3-0324模型可直接在消費級硬件上運行,如搭載蘋果M3 Ultra芯片的Mac Studio上,而不需要動輒千瓦級別功耗的數據中心。M3 Ultra芯片在進行推理時的功耗不到200瓦,意味著V3-0324模型的部署和運營門檻已大大降低。 “縮小中美AI差距至3個月” 據報道,中國初創企業零一萬物首席執行官李開復說,在人工智能(AI)發展方面,中國已將與美國在某些領域的差距縮小至僅3個月,因為中國初創企業深度求索(DeepSeek)等公司已經研究出如何更有效地使用芯片和應用算法。 今年1月,DeepSeek推出一款AI推理模型,震驚了全球AI行業。該公司稱,該模型采用的芯片技術較落后,開發成本也低于西方競爭對手。這挑戰了美國制裁將阻礙中國AI行業發展的假設。 李開復說:“之前我認為差距是6到9個月,在各方面都落后。現在我認為,在一些核心技術上可能落后3個月,但實際上在某些特定領域領先。” 他說:“DeepSeek能夠通過一種新的強化學習方式來弄清楚思路鏈,這要么是在趕超美國,要么是在快速學習,甚至可能更具創新性。”他指的是DeepSeek模型在給出答案之前,向用戶展示推理過程。這一功能由美國AI巨頭OpenAI率先開發,但尚未向用戶發布。 2022年底OpenAI推出聊天機器人ChatGPT后不久,中國科技行業就加入了開發生成式AI的全球競賽,但直到DeepSeek推出前,中國許多科技領袖都說,他們遠遠落后于西方同行。 |