亚洲AV成人无码久久精品老人,中文字幕在线观看亚洲视频,99热亚洲色精品国产88

DeepSeek成功的底層邏輯及產(chǎn)業(yè)影響

2025-02-19 16:32:42 來源：人民郵電報分享

仿佛是一夜之間，DeepSeek迎來了“滔天的流量”。它不僅在全球引發(fā)了新一輪的AI應(yīng)用熱潮，而且給全球的算力資本市場帶來了重大沖擊。究其原因，DeepSeek不僅在訓(xùn)練成本及使用成本、模型訓(xùn)練及優(yōu)化方式等領(lǐng)域?qū)崿F(xiàn)了大量的工程創(chuàng)新，而且打破了AI領(lǐng)域許多的傳統(tǒng)敘事邏輯。簡而言之，DeepSeek正在改變游戲規(guī)則。

DeepSeek最新推理模型R1的橫空出世，帶來了一個非常大的驚喜，僅用6天就發(fā)展了1億用戶。“用好奇心來揭開AGI的神秘面紗”這一愿景，更增添了神秘色彩。那么，DeepSeek在技術(shù)上究竟有哪些創(chuàng)新，成功的背后有哪些深層次的原因?這一切將對中美下一個十年的科技競爭產(chǎn)生哪些影響?

本圖片為AI生成并進行了人為后期加工。　遙歌/制作

工程創(chuàng)新

成就與眾不同

DeepSeek不僅引發(fā)了全球新一輪的AI應(yīng)用熱潮，而且對全球的算力資本市場產(chǎn)生重大沖擊。究其原因，DeepSeek在訓(xùn)練成本及使用成本、模型訓(xùn)練及優(yōu)化方式方面均實現(xiàn)了大量工程創(chuàng)新。

成本是最大的亮點。DeepSeek-R1的整體訓(xùn)練成本比OpenAI少了一個數(shù)量級以上。R1在整個訓(xùn)練過程中的工程優(yōu)化和創(chuàng)新亮點非常多，包括“Multi-Head Latent Attention——多頭隱形注意力機制”“Multi-token predication——多token預(yù)測”“有選擇性地使用8個浮點數(shù)精度FP8來替代FP16甚至FP31”等。這些優(yōu)化其實都不容易實現(xiàn)。每一個看似不顯著的優(yōu)化，在層級疊加效應(yīng)下卻產(chǎn)生了非常驚人的效果。

DeepSeek其實一共發(fā)布了兩個模型，分別是R1和R1-zero。DeepSeek基于V3這個基礎(chǔ)模型聚焦強化學習獲得了R1-zero。但是，R1-zero在回答一些問題的時候容易產(chǎn)生包括“多語言混雜”在內(nèi)的諸多問題。Deep-Seek又對這個模型進行了SFT(監(jiān)督微調(diào)優(yōu)化)，從而產(chǎn)生了R1。R1的強化學習功能可以實現(xiàn)自動化，是比較容易去scale的。這樣一來，該模型未來的想象空間接近無限。

顛覆性改變

打破傳統(tǒng)敘事邏輯

DeepSeek之所以備受關(guān)注，本質(zhì)在于打破了很多AI領(lǐng)域的傳統(tǒng)敘事邏輯，例如OpenAI對于推理模型的算力堆疊霸權(quán)邏輯、AI應(yīng)用圈的OpenAI寡頭壟斷格局邏輯、美國對中國的高制程芯片封鎖邏輯以及AI大模型的開源閉源邏輯……

首先，AI圈公認這種推理模型的實現(xiàn)難度是極大的。此前，比較好的推理模型只有OpenAI的GPT o1。Anthropic做不出來，Google“卡”了很久才推出表現(xiàn)一般的Germini 2.0。DeepSeek-R1至少是o1的平替，甚至部分能力還要強于o1。進一步來看，R1不僅免費還開源，訓(xùn)練成本和使用成本均實現(xiàn)了指數(shù)級下降。原先o1憑借領(lǐng)先性可以“收割”相當長一段時間的價值，但DeepSeek-R1的出現(xiàn)以及開源的舉措，讓絕大多數(shù)開發(fā)者以及聚焦應(yīng)用的創(chuàng)業(yè)公司都能夠以更低的門檻去做開發(fā)。更加便宜且更容易私有化部署的R1，擊碎了華爾街對于所有大模型公司的估值邏輯。

其次，DeepSeek的出現(xiàn)打破了AI應(yīng)用圈原有的競爭枷鎖。就算是美國的頂尖應(yīng)用公司選擇DeepSeek和ChatGPT時，答案也很清楚。Cursor、Perplexity這些AI領(lǐng)域的超級明星應(yīng)用，都第一時間進行了DeepSeek模型的部署，而且設(shè)置了推薦第一優(yōu)先級。此外，Google、Amazon、NV等平臺也都部署了Deep-Seek模型。這些改變，同步影響了云服務(wù)的市場格局。國內(nèi)大量從事應(yīng)用開發(fā)的企業(yè)，在DeepSeek-R1出現(xiàn)之前不得不使用微軟云(為了便捷使用GPT-4的API);現(xiàn)在，使用阿里云上部署的Deep-Seek成為可選項。

再其次，DeepSeek帶來了芯片封鎖邏輯的崩塌。DeepSeek在輝達CUDA生態(tài)的更底層(例如PTX層)，通過微調(diào)底層代碼來優(yōu)化性能，從而解決“連接通信能力和調(diào)度能力被閹割”的問題。專家普遍認為，目前中美AI大模型領(lǐng)域的技術(shù)差距約為4個月。從技術(shù)能力發(fā)展的趨勢來看，這一差距繼續(xù)縮小的概率大于擴大的概率。

最后，開源讓DeepSeek在輿論戰(zhàn)中至少“不落下風”。在AGI的道路上做出最強大的模型并開源，應(yīng)該是OpenAI最早的初心和使命。市場永遠不會說謊，誰的模型能力強誰就能掌握最終的話語權(quán)。2024年12月DeepSeek V3發(fā)布的時候，國際主流媒體主要關(guān)注其“成本低廉”;當Deep-Seek-R1發(fā)布時，情況則截然不同，因為“滔天的流量”來了。作為一個開源模型，DeepSeek讓所有用戶在任何領(lǐng)域都增加了一個“頂尖專家”，免費且24小時隨時在線。(作者：鄭濤)

關(guān)鍵詞：

>>返回頻道首頁

返回本網(wǎng)站首頁

[責任編輯：ruirui]

搶抓AI眼鏡新風口(2025-02-19)
DeepSeek成功的底層邏輯及產(chǎn)業(yè)影響(2025-02-19)
小心AI伴侶背后的“溫柔陷阱”(2025-02-19)
DeepSeek攪動寒假作業(yè)，基礎(chǔ)教育與AI如何磨合？(2025-02-19)
綜述｜全球科技公司競相推出新款人工智能模型(2025-02-19)
搶抓AI眼鏡新風口(2025-02-19)
DeepSeek成功的底層邏輯及產(chǎn)業(yè)影響(2025-02-19)
面部填充玻尿酸的后果是？潤致玻尿酸開啟千人千面美新征程(2025-02-19)
小心AI伴侶背后的“溫柔陷阱”(2025-02-19)
DeepSeek攪動寒假作業(yè)，基礎(chǔ)教育與AI如何磨合？(2025-02-19)
綜述｜全球科技公司競相推出新款人工智能模型(2025-02-19)
中國人形機器人產(chǎn)業(yè)“加速跑”(2025-02-19)
馬斯克旗下xAI推出人工智能模型Grok 3(2025-02-19)
擎朗教育攜手韓國國立釜慶大學開啟合作共贏新征程(2025-02-19)
完美保健品健康課堂：科學早餐打造健康體魄(2025-02-19)
廣東韶關(guān)暢通農(nóng)產(chǎn)品出海之路(2025-02-19)
從“兩條魚循環(huán)”看消費增長新空間(2025-02-19)
金黃芒果托起火紅產(chǎn)業(yè)(2025-02-19)
食話實說 | 土豆紅薯等薯類食物怎么吃更營養(yǎng)健康？(2025-02-19)
二十四節(jié)氣看蒙牛丨雨水走進現(xiàn)代牧業(yè)合肥牧場(2025-02-19)
彩色馬鈴薯的奧秘(2025-02-19)
春播全面啟動各地全力保障春耕農(nóng)資需求(2025-02-19)
農(nóng)業(yè)農(nóng)村部實施奮戰(zhàn)120天抓春管提單產(chǎn)奪夏收糧油豐收行動(2025-02-19)
把握好糧補政策“時度效”(2025-02-19)
白菜憑啥不再只賣“白菜價”(2025-02-19)
國際觀察：世界青年看中國，讀懂中國新力量(2025-02-19)
馬斯克旗下xAI推出人工智能模型Grok3(2025-02-19)
老外試駕中國電車：這車太酷了，敵視中國的人就是純純嫉妒(2025-02-19)
越南國會批準投資建設(shè)老街—河內(nèi)—海防鐵路項目(2025-02-19)
特朗普稱將對進口汽車征收25%左右關(guān)稅(2025-02-19)
鮮花、咖啡、中藥材……云南好物在日本受到歡迎(2025-02-19)
“可靠且始終如一的伙伴”非媒稱贊中國以實際行動助力非洲基礎(chǔ)設(shè)施建設(shè)(2025-02-19)
安哥拉霍亂疫情已致150人死亡(2025-02-19)
印尼計劃大力建設(shè)電動公共汽車充電站(2025-02-19)
意大利西西里島火山噴發(fā) 游客“看熱鬧”致救援受阻(2025-02-19)

熱點排行

關(guān)于我們| 客服中心| 廣告服務(wù)| 建站服務(wù)| 聯(lián)系我們

中國焦點信息網(wǎng) 版權(quán)所有滬ICP備2022005074號-20，未經(jīng)授權(quán)，請勿轉(zhuǎn)載或建立鏡像，違者依法必究。