路透:DeepSeek加快推新R2模型 可能比原定5月更早

2025-02-26 14:13:41
1734
中國AI新創公司「深度求索」(DeepSeek)今年1月推出R1模型,震撼全球。路透社報導,DeepSeek原本計劃今年5月初發布新一代R2模型,但現在希望能盡早發布。DeepSeek所屬的幻方量化回應中國媒體表示,「以官方消息為準」。
中國人工智慧(AI)新創公司「深度求索」(DeepSeek)在今年1月推出R1模型,以低成本、高效能的表現震撼市場。根據路透社報導,DeepSeek原計劃在5月初推出新一代R2模型,但目前有意提前發布,以提升編碼能力並加強多語言推理功能。DeepSeek所屬的幻方量化對中國媒體回應稱,「以官方消息為準」。
DeepSeek-R1模型的訓練成本僅約560萬美元(約新台幣1.83億元),遠低於其他大型AI公司動輒數億美元的開發成本,顛覆市場對「高成本等於高效能」的傳統認知。該模型的成功也加劇了中國國內人工智慧競爭,促使阿里巴巴於2月25日宣布全面開源影片生成模型「萬相2.1」,該模型支援中文與中英文文字特效生成,並具備高度指令遵循能力,為影片生成技術提供更廣泛的應用場景。
DeepSeek的發展不僅影響中國AI產業格局,也引起國際關注。印度科技服務公司Zensar營運長Vijayasimha Alilughatta表示,R2模型的推出可能成為AI產業的重要轉捩點,有望打破目前由少數科技巨頭主導的市場格局。另一方面,美國政府已將AI技術領導地位列為國家戰略重點,DeepSeek的崛起可能進一步加劇美中科技競爭。
DeepSeek的發展背後,離不開創辦人梁文鋒及其量化基金High-Flyer的資源支持。該基金在2020年至2021年間投資約人民幣12億元,用於購置約10,000顆輝達(NVIDIA)A100晶片,組成兩個超級運算AI集群,為DeepSeek的模型訓練提供關鍵算力。雖然DeepSeek在創立初期並未直接運用這些資源,但在2022年美國對中國禁售A100晶片後,該公司成功獲取這批計算資源,進而吸引中國頂尖AI研究人才,迅速推動技術發展。
DeepSeek的技術優勢在於其採用了「專家混合」(MoE, Mixture-of-Experts)與「多層注意力」(MLA, Multi-Level Attention)技術,大幅降低計算成本,使其能以比OpenAI便宜20至40倍的價格提供類似效能的AI模型。MoE技術能夠根據需求啟動特定領域的專家模型,減少不必要的計算資源消耗,而MLA技術則能讓模型同時處理多層次資訊,提升推理能力。
這些技術突破已經促使西方科技巨頭調整策略以應對競爭。OpenAI近期宣布調降API價格,而Google旗下的Gemini模型也推出優惠方案,顯示市場正進入更加激烈的價格與技術競爭。
此外,DeepSeek與High-Flyer以高薪酬吸引人才也備受矚目。據熟悉該公司薪資政策的消息人士透露,DeepSeek與High-Flyer為資深數據科學家開出年薪約人民幣150萬元,遠高於市場平均的80萬元薪資標準。這些資金來自於High-Flyer的量化交易業務,使其在中國科技企業面臨政府監管壓力的背景下,依然能維持大規模投資並擴展技術研發。
【圖片為文章示意圖,資料照】
DeepSeek-R1模型的訓練成本僅約560萬美元(約新台幣1.83億元),遠低於其他大型AI公司動輒數億美元的開發成本,顛覆市場對「高成本等於高效能」的傳統認知。該模型的成功也加劇了中國國內人工智慧競爭,促使阿里巴巴於2月25日宣布全面開源影片生成模型「萬相2.1」,該模型支援中文與中英文文字特效生成,並具備高度指令遵循能力,為影片生成技術提供更廣泛的應用場景。
DeepSeek的發展不僅影響中國AI產業格局,也引起國際關注。印度科技服務公司Zensar營運長Vijayasimha Alilughatta表示,R2模型的推出可能成為AI產業的重要轉捩點,有望打破目前由少數科技巨頭主導的市場格局。另一方面,美國政府已將AI技術領導地位列為國家戰略重點,DeepSeek的崛起可能進一步加劇美中科技競爭。
DeepSeek的發展背後,離不開創辦人梁文鋒及其量化基金High-Flyer的資源支持。該基金在2020年至2021年間投資約人民幣12億元,用於購置約10,000顆輝達(NVIDIA)A100晶片,組成兩個超級運算AI集群,為DeepSeek的模型訓練提供關鍵算力。雖然DeepSeek在創立初期並未直接運用這些資源,但在2022年美國對中國禁售A100晶片後,該公司成功獲取這批計算資源,進而吸引中國頂尖AI研究人才,迅速推動技術發展。
DeepSeek的技術優勢在於其採用了「專家混合」(MoE, Mixture-of-Experts)與「多層注意力」(MLA, Multi-Level Attention)技術,大幅降低計算成本,使其能以比OpenAI便宜20至40倍的價格提供類似效能的AI模型。MoE技術能夠根據需求啟動特定領域的專家模型,減少不必要的計算資源消耗,而MLA技術則能讓模型同時處理多層次資訊,提升推理能力。
這些技術突破已經促使西方科技巨頭調整策略以應對競爭。OpenAI近期宣布調降API價格,而Google旗下的Gemini模型也推出優惠方案,顯示市場正進入更加激烈的價格與技術競爭。
此外,DeepSeek與High-Flyer以高薪酬吸引人才也備受矚目。據熟悉該公司薪資政策的消息人士透露,DeepSeek與High-Flyer為資深數據科學家開出年薪約人民幣150萬元,遠高於市場平均的80萬元薪資標準。這些資金來自於High-Flyer的量化交易業務,使其在中國科技企業面臨政府監管壓力的背景下,依然能維持大規模投資並擴展技術研發。
【圖片為文章示意圖,資料照】
作者介紹
延伸閱讀
社群討論