大陸AI新創公司「DeepSeek」近來迅速走紅,以低成本開發大語言模型,引發市場對於美國企業在AI研發投入太多資金的疑慮,要成輝達盤中股價大跌13%,市值蒸發4650億;而Meta的工程師們在匿名社交平台也吐露心聲,表示DeepSeek所研發的AI模型為其帶來了巨大壓力。究竟DeepSeek到底是什麼東西?開發者又是誰?為何會造成台積電ADR美股、輝達股價重挫,本文一次看懂。
DeepSeek是什麼?成本更低被封「AI界偷襲珍珠港」
DeepSeek(深度求索)是由中國量化投資企業,幻方量化創辦人梁文鋒在2023年成立的新創AI企業,該企業在去年底先發布新一代大語言模型DeepSeek-V3;又在今年1月20日發布新模型DeepSeek-R1並同步開源模型權重,引起全球AI科技圈關注。
據傳這個模型花費不到600萬美元的投入,且是用2048片較低性能的H800晶片的條件下完成訓練,時間也僅花2個月,但是在評分項目表現,卻能和OpenAI o1等一種前端模型相提並論,讓DeepSeek瞬間爆紅,近日在蘋果中國、美國應用程式商店免費下載APP當中,超越了ChatGPT。這也讓投資人質疑相關AI研究成本過高等問題,造成台積電ADR美股、輝達股價重挫,DeepSeek橫空出世因而被封為是「AI界偷襲珍珠港」。
DeepSeek創始人梁文峰爆紅!崛起掀翻華爾街
而說到DeepSeek的創始人,是1985年出生的「梁文峰」,現年只有40歲,他國中時期就提前完成了高中數學課程,並且在國中階段學習大學數學,高中畢業之後,梁文峰進入浙江大學電子資訊工程科,大學畢業之後繼續攻讀資訊與通訊工程研究所。
2008年,梁文峰當時才20初頭歲就帶領團隊學習相關技術,在2023年正式成立DeepSeek,成立一年後,DeepSeek就推出了讓業界矚目的產品,去年5月,公司發布了DeepSeek-V2,接著年底又發布DeepSeek-V3,至今年新模型DeepSeek-R1,以其創新的模型架構和史無前例的CP值引發了AI科技圈廣泛關注,迅速在AI領域佔據一席之地,陸媒報導也稱梁文峰的崛起「掀翻華爾街」。
Meta工程師承認DeepSeek給足壓力!組織4大團隊應戰
1月24日,有Meta工程師在匿名社交平台「TeamBlind」上表示:「一切源於DeepSeek- V3的出現,它在基準測試中已經讓Llama 4(Meta AI公司2023年2月發布的大型語言模型)相形見絀,更讓人難堪的是,一家僅用550萬美元訓練預算的中國公司就做到了這一點。」工程師們正爭分奪秒的在分析DeepSeek,試圖複製其中一切可能的技術。
《澎湃新聞》也引述了《The Information》網站報導表示,臉書母公司Meta已經成立4個研究小組,來研究量化巨頭「幻方量化」旗下的國產大模型DeepSeek的工作原理,並基於此來改進旗下大模型Llama。其中2個小組試圖了解「幻方量化」如何降低訓練和運行DeepSeek的成本;1個小組研究「幻方量化」可能使用了哪些資料來訓練其模型;最後1小組考慮基於DeepSeek模型屬性重構Meta模型的新技術。
我是廣告 請繼續往下閱讀
DeepSeek(深度求索)是由中國量化投資企業,幻方量化創辦人梁文鋒在2023年成立的新創AI企業,該企業在去年底先發布新一代大語言模型DeepSeek-V3;又在今年1月20日發布新模型DeepSeek-R1並同步開源模型權重,引起全球AI科技圈關注。
據傳這個模型花費不到600萬美元的投入,且是用2048片較低性能的H800晶片的條件下完成訓練,時間也僅花2個月,但是在評分項目表現,卻能和OpenAI o1等一種前端模型相提並論,讓DeepSeek瞬間爆紅,近日在蘋果中國、美國應用程式商店免費下載APP當中,超越了ChatGPT。這也讓投資人質疑相關AI研究成本過高等問題,造成台積電ADR美股、輝達股價重挫,DeepSeek橫空出世因而被封為是「AI界偷襲珍珠港」。
DeepSeek創始人梁文峰爆紅!崛起掀翻華爾街
而說到DeepSeek的創始人,是1985年出生的「梁文峰」,現年只有40歲,他國中時期就提前完成了高中數學課程,並且在國中階段學習大學數學,高中畢業之後,梁文峰進入浙江大學電子資訊工程科,大學畢業之後繼續攻讀資訊與通訊工程研究所。
2008年,梁文峰當時才20初頭歲就帶領團隊學習相關技術,在2023年正式成立DeepSeek,成立一年後,DeepSeek就推出了讓業界矚目的產品,去年5月,公司發布了DeepSeek-V2,接著年底又發布DeepSeek-V3,至今年新模型DeepSeek-R1,以其創新的模型架構和史無前例的CP值引發了AI科技圈廣泛關注,迅速在AI領域佔據一席之地,陸媒報導也稱梁文峰的崛起「掀翻華爾街」。
Meta工程師承認DeepSeek給足壓力!組織4大團隊應戰
1月24日,有Meta工程師在匿名社交平台「TeamBlind」上表示:「一切源於DeepSeek- V3的出現,它在基準測試中已經讓Llama 4(Meta AI公司2023年2月發布的大型語言模型)相形見絀,更讓人難堪的是,一家僅用550萬美元訓練預算的中國公司就做到了這一點。」工程師們正爭分奪秒的在分析DeepSeek,試圖複製其中一切可能的技術。
《澎湃新聞》也引述了《The Information》網站報導表示,臉書母公司Meta已經成立4個研究小組,來研究量化巨頭「幻方量化」旗下的國產大模型DeepSeek的工作原理,並基於此來改進旗下大模型Llama。其中2個小組試圖了解「幻方量化」如何降低訓練和運行DeepSeek的成本;1個小組研究「幻方量化」可能使用了哪些資料來訓練其模型;最後1小組考慮基於DeepSeek模型屬性重構Meta模型的新技術。