今年初中國的 AI 創業公司深度求索(DeepSeek)突然出現,震驚西方業界。不過 DeepSeek-R1 的下一代模型原本打算在 5 月推出,惟至今仍然未見蹤影。《金融時報》報道,DeepSeek-R2 遲遲未能推出的原因,源自使用華為昇騰晶片令訓練工作受阻。據報目前已轉用 NVIDIA H20 訓練。

《金融時報》引述 3 位消息人士報道,深度求索正在使用華為昇騰晶片訓練下一代模型 R2,不過連番出現技術問題,是主要原因導致新產品押後超過 3 個月。報道又指,華為曾派工程師到深度求索辦公室駐場,即場解決所遇到的技術問題,不過仍未能順利訓練模型,反映中國晶片的穩定性、傳輸效能,以至軟件配套仍比 NVIDIA 有不足。

據報現時深度求索已改用 NVIDIA 晶片訓練,僅在推理時使用華為昇騰。深度求索創辦人梁文鋒對內部表示不滿 R2 的開發進度,要求團隊建立效能更強大的模型。中國傳媒稱,深度求索或有機會在幾星期內發表 DeepSeek-R2。
深度求索的 DeepSeek-R1 今年初發表時,特別強調大幅度減低訓練成本,僅用不足 600 萬美元可完成。訓練硬件只有 2,048 張 NVIDIA H800,用 53 日完成,而模型的效能表現足以比上 OpenAI 的 GPT-4o。這成果顛覆西方科技界,或毋須再大筆投資 GPU 硬件,當時還拖累 NVIDIA 股價暴跌 17%。
美國 AI 公司近半年已先後推出新模型,如 OpenAI 的 GPT-5、xAI 的 Grok 4、亞馬遜的 Titan 新版、Google Gemini 更新等,效能和推理能力均已超越 DeepSeek-R1。

NVIDIA 和 AMD 為中國市場特供的 GPU 晶片近日成為美中之間的磨心。今年 4 月美國商務部收緊政策,連唯一的 H20 亦無法出口到中國。至今年 7 月恢復供應,NVIDIA 和 AMD 均需向聯邦政府分帳,繳付訂單收入的 15%。但同時中國政府向 H20 發動輿論攻擊,官媒連環發炮直指存在安全風險,召見互聯網企業代表要求解釋使用 H20 的原因,並促使改用中國晶片,如華為等的產品。
