晶片大廠輝達近日宣布推出Mistral-NeMo-Minitron 8B模型,為日前發表的Mistral NeMo 12B模型的縮小版,精確度高且具備在GPU加速的資料中心、雲端與工作站上運行模型的運算效率。

我是廣告 請繼續往下閱讀
生成式人工智慧(AI)的開發者通常得面臨要取捨模型大小還是精確度的難題。輝達表示,自家公司最新發表的「Mistral-NeMo-Minitron 8B」語言模型兩者兼具,不僅體積小巧,又有著最先進的精確度。

Mistral-NeMo-Minitron 8B是法國科技公司「Mistral AI」與輝達在上個月共同發表開放式Mistral NeMo 12B模型的縮小版。Mistral-NeMo-Minitron 8B小到可以在NVIDIA RTX驅動的工作站上運行,同時在由AI支援的聊天機器人、虛擬助理、內容產生器和教育工具的多項基準測試中,表現依然十分出色。輝達使用開發客製化生成式AI的端對端平台NVIDIA NeMo蒸餾出Minitron模型。

輝達應用深度學習研究部門副總裁Bryan Catanzaro表示,輝達將兩種最佳化AI的方法加在一起,包括以剪枝的方式將Mistral NeMo的120億個參數縮減為80億個,並且採用蒸餾方式提高精確度,這麼一來便能降低 Mistral-NeMo-Minitron 8B 的運算成本,又可以提供媲美原始模型的精確度。

小型語言模型與大型語言模型最大的不同在於,前者可即時在工作站和筆記型電腦上執行。此舉使資源有限的組織更容易在基礎設施中部署生成式AI功能,又能取得最佳的成本、運作效率和能源使用程度。由於無需從邊緣裝置將資料傳送到伺服器,在邊緣裝置上以本機端的方式運行語言模型另外有著安全性方面的優勢。

開發人員可以透過包裝成有著標準應用程式介面(API)的NVIDIA NIM微服務使用Mistral-NeMo-Minitron 8B,或從Hugging Face下載模型。NVIDIA NIM也即將開放下載,可以在數分鐘內部署在任何GPU加速系統上。