當(dāng)前位置：首頁 > news >正文

win7下用iis搭建網(wǎng)站百度網(wǎng)盤客服電話

news 2025/7/13 23:42:43

win7下用iis搭建網(wǎng)站,百度網(wǎng)盤客服電話,網(wǎng)站怎么做效果好,網(wǎng)站建設(shè)歺首選金手指12個人的一些思考，請大家批評指正。這個問題，首先當(dāng)然是在恰當(dāng)?shù)臅r間出現(xiàn)，模型性能躋身世界一流，又開源，戳破了OpenAI和英偉達(dá)潛心構(gòu)造的敘事邏輯。 DeepSeek為什么強？四個方面：模型的智能水平…

個人的一些思考，請大家批評指正。

這個問題，首先當(dāng)然是在恰當(dāng)?shù)臅r間出現(xiàn)，模型性能躋身世界一流，又開源，戳破了OpenAI和英偉達(dá)潛心構(gòu)造的敘事邏輯。

DeepSeek為什么強？四個方面：模型的智能水平、訓(xùn)練成本、推理成本和用戶體驗。

一、DeepSeek的智能水平

DeepSeek V3的智能水平，技術(shù)報告展現(xiàn)的性能對比圖：

在這里插入圖片描述

是什么導(dǎo)致了DeepSeek的模型性能，是模型架構(gòu)嗎？MoE、MLA這些？或許有一點關(guān)系，但是應(yīng)該不是主要因素，決定模型性能的，主要應(yīng)該是DeepSeek沒有開源的內(nèi)容——數(shù)據(jù)集以及訓(xùn)練時的數(shù)據(jù)配比。

去年看到OpenAI的一名員工的博客，內(nèi)容摘錄如下：

數(shù)據(jù)即模型！來自 OpenAI 模型煉丹師的 insight！人腦也是一樣，其思想無限逼近于其接收到的信息；你灌輸什么，他就呈現(xiàn)什么！

作者在 OpenAI 工作近一年，觀察到生成模型的訓(xùn)練過程顯示模型行為主要由數(shù)據(jù)集決定，而非架構(gòu)、超參數(shù)或優(yōu)化器選擇。
🎯 Key Points

作者訓(xùn)練了大量生成模型；
觀察到所有訓(xùn)練運行之間存在相似性；
模型高度逼近其數(shù)據(jù)集，學(xué)習(xí)到的不僅是狗或貓的概念，還有不重要的分布間隙；
在相同數(shù)據(jù)集上訓(xùn)練足夠長時間，任何具有足夠權(quán)重和訓(xùn)練時間的模型都會收斂到相同點；
大型擴散卷積網(wǎng)絡(luò)和 ViT 生成器會生成相同的圖像；
自回歸采樣和擴散方法也會生成相同的圖像；
這表明模型行為不由架構(gòu)、超參數(shù)或優(yōu)化器選擇決定，而是由數(shù)據(jù)集決定；
其他因素只是有效地將計算交付給逼近數(shù)據(jù)集的手段；
當(dāng)提到“Lambda”、“ChatGPT”、“Bard”或“Claude”時，指的是數(shù)據(jù)集，而不是模型權(quán)重。

LLM預(yù)訓(xùn)練scaling law的發(fā)展，一開始強調(diào)模型要大，然后是數(shù)據(jù)要多，再后來就是強調(diào)數(shù)據(jù)的質(zhì)量。數(shù)據(jù)質(zhì)量方面，一方面是強調(diào)數(shù)據(jù)質(zhì)量，通過專家撰寫高質(zhì)量數(shù)據(jù)、以及各種數(shù)據(jù)篩選方法和工具，保證數(shù)據(jù)質(zhì)量是第一位的；第二方面，不斷增加數(shù)學(xué)、邏輯、代碼等能夠提升大模型理性能力的數(shù)據(jù)配比比例，尤其在模型訓(xùn)練退火階段，調(diào)整數(shù)據(jù)混合配比，增加高質(zhì)量數(shù)據(jù)等等。

總之，我的猜測，DeepSeek V3的性能好，主要是因為數(shù)據(jù)集的原因。

DeepSeek R1的性能好，首先來源于DeepSeek V3底座模型的能力夠，其次是DeepSeek R1成功摸索了一套RL方法，另外，推理成本低也會導(dǎo)致推理的性能增強。

二、DeepSeek的訓(xùn)練成本和推理成本

DeepSeek V3的訓(xùn)練成本，那個600萬美金，從一開始，我的觀點就是聽聽得了，只是成功訓(xùn)練一次的成本，不包括數(shù)據(jù)集、探索以及人力成本。AI這個事，可能最費勁的是數(shù)據(jù)集，相比數(shù)據(jù)，訓(xùn)練應(yīng)該在其次。當(dāng)然，不可否認(rèn)，DeepSeek的訓(xùn)練成本確實低，這個確實是因為模型架構(gòu)、以及訓(xùn)練方法。DeepSeek的訓(xùn)練成本低，主要是MoE和訓(xùn)練的低精度技術(shù)。MLA并不降低訓(xùn)練成本，只是推理成本低。模型的MTP，主要作用是訓(xùn)練更加穩(wěn)定，當(dāng)然，訓(xùn)練穩(wěn)定了訓(xùn)練成本也會更低，細(xì)看DeepSeek V3的技術(shù)報告，看不出MTP提升模型性能，尤其的最大尺寸的模型性能。LLM的訓(xùn)練是一個細(xì)致活，還有其他的因素，包括PTX的使用、通信的優(yōu)化等等。

DeepSeek V3的推理成本低，模型架構(gòu)中的MLA、MoE和MTP等技術(shù)，應(yīng)該均有貢獻(xiàn)。

三、DeepSeek的用戶體驗

DeepSeek的用戶體驗方面嘛。首先說，時尚這個東西，之所以稱為時尚，就在于難于預(yù)測。體驗首先來自民心，DeepSeek撼動了美國AI界，提升了國人信心，就已經(jīng)獲得了最大民心。

對于用戶體驗，具體來說，看到有說DeepSeek說話犀利、有情緒價值，不像機器人，更像人。網(wǎng)上關(guān)于周鴻祎、以及為什么DeepSeek來自初創(chuàng)公司而不是互聯(lián)網(wǎng)大廠這些問題，我也試了，確實可以復(fù)刻，確實犀利，敢說！但是呢，這里的原因，恐怕不是因為模型的智能水平，而是模型的最后的對齊方面，在模型的后訓(xùn)練方面，模型的輸出對齊到了這種風(fēng)格。也說明DeepSeek團隊確實有性格。但是，這種風(fēng)格，對于其他的LLM團隊，應(yīng)該不難，只是敢不敢愿不愿的問題。

查看全文

http://m.risenshineclean.com/news/46130.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

win7下用iis搭建網(wǎng)站百度網(wǎng)盤客服電話

一、DeepSeek的智能水平

二、DeepSeek的訓(xùn)練成本和推理成本

三、DeepSeek的用戶體驗

相關(guān)文章：

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

一、DeepSeek的智能水平

二、DeepSeek的訓(xùn)練成本和推理成本

三、DeepSeek的用戶體驗

相關(guān)文章：

一、DeepSeek的智能水平