DeepSeek侵權爭議點討論
爭議點一: DeepSeek 使用「蒸餾技術」侵權OpenAI嗎?
OpenAI聲稱已看到中國公司利用「distillation」蒸餾技術從OpenAI 模型的 API 提取知識來打造自己的模型。(新聞來源)
蒸餾(Distillation)是 AI 訓練中的常見方法,透過學習大型模型的輸出,降低成本並打造更高效的模型。這是否構成侵權,現在成是AI 界的熱議話題。
OpenAI 認為 DeepSeek 的做法 違反了服務條款,因為:
1. DeepSeek 疑似利用 OpenAI 模型的 API 進行蒸餾,提取知識來打造自己的模型
2. OpenAI 的條款明確禁止 使用 OpenAI 服務來開發競爭性產品
目前 OpenAI 尚未提供具體證據證明 DeepSeek 確實「抄襲」了 OpenAI模型。
爭議點二:是否違反美國出口限制?
科普來自於香港科技類博主@Choco Kiu,目前為止有三個可能:(已從粵語轉換為更方便品蔥上各位理解的語式,原文地址)
第一個是由Scale AI的創辦人Alexandr Wang提出,指控DeepSeek擁有50,000被禁入口中國的H100芯片。這個說法得到Elon Musk留言認同,Anthropic CEO Dario Amodei也認為雖然偷運有困難,但並非沒有可能。如果屬實,DeepSeek那邊幾百億美元的成本就不是真實數字,所以個人認為可能性不大。
第二個說法是DeepSeek的確淨是用他們手頭上的2048張NVIDIA H800訓練出V3同R1。V3份論文中,DeepSeek講述過他們的優化方法,原則上只要實踐一次就知真假。根據其說法,H800作為H100的閹割版,唯一的差異就在於H100嘅頻寬有900GB/s,而H800只有160GB/s。因為訓練模型需要大量GPU平行運算,因此GPU之間高速傳送運算數據的能力是訓練效能的關鍵。
而面對這個困局,DeepSeek自行改裝GPU裡面稱為Streaming Multiprocessors(SMs)的運算元件,總數132粒SM裡面他們將20粒由運算用改成了做傳輸。這種改裝是比CUDA更低的PTX (Parallel Thread Execution)層級執行,需要極高技術實力。DeepSeek再將GPU之間傳輸的數據切割做150GB chunks,用持續性方式傳送,變相破解了H800頻寬的限制。
第三個說法就是DeepSeek用了華為最新的910C芯片,算力可以同NVIDIA H100平齊。
AI裡面GPU最主要分做兩個需求:Pre-training(訓練模型)的算力需求以及Inference(使用模型,例如你在DeepSeek這個app裡問問題)的算力需求。我的分析是,既然他們這篇論文寫到這麼詳細,這麼自豪地向全世界揭示大費周章改良這樣那樣的成果,DeepSeek-R1的訓練過程應該真是只用了2048張H800s。但是這兩日全球App Store榜首的情況下,DeepSeek如果還(免費地)應付到急升的運算需求就稍為奇怪了,所以他們停了新用戶註冊都正常。
OpenAI聲稱已看到中國公司利用「distillation」蒸餾技術從OpenAI 模型的 API 提取知識來打造自己的模型。(新聞來源)
蒸餾(Distillation)是 AI 訓練中的常見方法,透過學習大型模型的輸出,降低成本並打造更高效的模型。這是否構成侵權,現在成是AI 界的熱議話題。
OpenAI 認為 DeepSeek 的做法 違反了服務條款,因為:
1. DeepSeek 疑似利用 OpenAI 模型的 API 進行蒸餾,提取知識來打造自己的模型
2. OpenAI 的條款明確禁止 使用 OpenAI 服務來開發競爭性產品
目前 OpenAI 尚未提供具體證據證明 DeepSeek 確實「抄襲」了 OpenAI模型。
爭議點二:是否違反美國出口限制?
科普來自於香港科技類博主@Choco Kiu,目前為止有三個可能:(已從粵語轉換為更方便品蔥上各位理解的語式,原文地址)
第一個是由Scale AI的創辦人Alexandr Wang提出,指控DeepSeek擁有50,000被禁入口中國的H100芯片。這個說法得到Elon Musk留言認同,Anthropic CEO Dario Amodei也認為雖然偷運有困難,但並非沒有可能。如果屬實,DeepSeek那邊幾百億美元的成本就不是真實數字,所以個人認為可能性不大。
第二個說法是DeepSeek的確淨是用他們手頭上的2048張NVIDIA H800訓練出V3同R1。V3份論文中,DeepSeek講述過他們的優化方法,原則上只要實踐一次就知真假。根據其說法,H800作為H100的閹割版,唯一的差異就在於H100嘅頻寬有900GB/s,而H800只有160GB/s。因為訓練模型需要大量GPU平行運算,因此GPU之間高速傳送運算數據的能力是訓練效能的關鍵。
而面對這個困局,DeepSeek自行改裝GPU裡面稱為Streaming Multiprocessors(SMs)的運算元件,總數132粒SM裡面他們將20粒由運算用改成了做傳輸。這種改裝是比CUDA更低的PTX (Parallel Thread Execution)層級執行,需要極高技術實力。DeepSeek再將GPU之間傳輸的數據切割做150GB chunks,用持續性方式傳送,變相破解了H800頻寬的限制。
第三個說法就是DeepSeek用了華為最新的910C芯片,算力可以同NVIDIA H100平齊。
AI裡面GPU最主要分做兩個需求:Pre-training(訓練模型)的算力需求以及Inference(使用模型,例如你在DeepSeek這個app裡問問題)的算力需求。我的分析是,既然他們這篇論文寫到這麼詳細,這麼自豪地向全世界揭示大費周章改良這樣那樣的成果,DeepSeek-R1的訓練過程應該真是只用了2048張H800s。但是這兩日全球App Store榜首的情況下,DeepSeek如果還(免費地)應付到急升的運算需求就稍為奇怪了,所以他們停了新用戶註冊都正常。
3 个评论
首先盜用數據, 中國的公司這樣做他們也不是第一家.
之前字節跳動被微軟封了openai帳號就是因為類似原因.這种用戶協議法律在國家支持的耍無賴面前沒有用處. 美國公司也知道
我覺得不需要懷疑(肯定用了)也不需要抱怨
很多媒體報道蒸餾openai 模型,是不準確的, 蒸餾需要模型開放所以備選的權重, openai商業使用不會給你,他們蒸餾的是開源模型llama, ,再用openai API來做訓練校準
蒸餾很常見,但是蒸餾的是Lllama而不是自己先訓練的更大模型來降低運行成本(宣傳裡面寫的)這是忽悠人。
考慮這一系列的忽悠,他們宣稱的硬件優化(有可能都是別人替他們編的),誰也沒法驗證,有理由懷疑(即使是真的這種優化也不是特別的技術)
該公司發表的論文,讓人印象深刻的是用到了一種multi head latent attention的機制 會讓模型有更強的抽象和理解能力 算是我知道的亮眼的改進 也是第一次大規模使用
不過那個東西會增加成本 和他們宣稱的恰恰相反
以上也都是個人意見沒法找人核實
當然時間可以解答, 歡迎中國的蔥油小兔子都繼續關注
之前字節跳動被微軟封了openai帳號就是因為類似原因.這种用戶協議法律在國家支持的耍無賴面前沒有用處. 美國公司也知道
我覺得不需要懷疑(肯定用了)也不需要抱怨
很多媒體報道蒸餾openai 模型,是不準確的, 蒸餾需要模型開放所以備選的權重, openai商業使用不會給你,他們蒸餾的是開源模型llama, ,再用openai API來做訓練校準
蒸餾很常見,但是蒸餾的是Lllama而不是自己先訓練的更大模型來降低運行成本(宣傳裡面寫的)這是忽悠人。
考慮這一系列的忽悠,他們宣稱的硬件優化(有可能都是別人替他們編的),誰也沒法驗證,有理由懷疑(即使是真的這種優化也不是特別的技術)
該公司發表的論文,讓人印象深刻的是用到了一種multi head latent attention的機制 會讓模型有更強的抽象和理解能力 算是我知道的亮眼的改進 也是第一次大規模使用
不過那個東西會增加成本 和他們宣稱的恰恰相反
以上也都是個人意見沒法找人核實
當然時間可以解答, 歡迎中國的蔥油小兔子都繼續關注
“DeepSeek自行改裝GPU裡面稱為Streaming Multiprocessors(SMs)的運算元件” —— GPU芯片你损失一个针脚Pin 都有可能毁掉整个芯片,没听说有 “改装“ 来应用的?
>> “DeepSeek自行改裝GPU裡面稱為Streaming Multiprocessors(S...
瞎編的痕跡明顯
這種優化能做的NVIDIA都會做 自己的改進即使有也不會是決定性的
H800用的是HBM帶寬不止160Gbs (遊戲顯卡VRAM都不止這點 原文作者大概編後面的沒注意這個)
https://www.techpowerup.com/gpu-specs/h800-sxm5.c3975
Memory Size
80 GB
Memory Type
HBM3
Memory Bus
5120 bit
Bandwidth
3.36 TB/s
唯一的差異就在於H100嘅頻寬有900GB/s,而H800只有160GB/s。因為訓練模型需要大量GPU平行運算,因此GPU之間高速傳送運算數據的能力是訓練效能的關鍵。
而面對這個困局,DeepSeek自行改裝GPU裡面稱為Streaming Multiprocessors(SMs)的運算元件,總數132粒SM裡面他們將20粒由運算用改成了做傳輸。這種改裝是比CUDA更低的PTX (Parallel Thread Execution)層級執行,需要極高技術實力。DeepSeek再將GPU之間傳輸的數據切割做150GB chunks,用持續性方式傳送,變相破解了H800頻寬的限制。