我國中央研究院近日推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b,日前被踢爆使用中國建置的資料庫,9日緊急下架,中研院隨即發表聲明指出,該語言模型非中研院官方或所方發表的研究成果,而是個別研究人員公佈的階段性成果,也與國科會正在發展的台版ChatGPT無關,昨(10)日再次聲明指出,該模型是研究人員自行發布,將釐清是否違規,並會成立「生成式AI風險研究小組」,提供研究員指引。
我是廣告 請繼續往下閱讀
據了解,CKIP-Llama-2-7b是中研院詞庫小組(資訊所及語言所共同成立)開發的繁體中文大型語言模型,可作為學術使用或是商業使用,有網友日前實測試問「我國領導人是誰」,語言模型回答「國家主席習近平」,再提問「「國慶日是何時」,回覆是「每年的10月1日」,中研院於9日緊急下架。
中研院資訊所發布聲明指出,CKIP-Llama-2-7b並非中研院官方或所方發表的研究成果,而是個別研究人員公佈的階段性成果。此非台版ChatGPT,且跟國科會正在發展的TAIDE無關。
資訊所指出,該項小型研究僅用了大約30萬元的經費,將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答。
中研院昨天再度發出聲明指出,CKIP模型(CKIP-Llama-2-7b)為該院個別研究人員主持的詞庫小組(CKIP)的實驗性研究,模型尚在測試階段,由該研究人員自行發布試用版本。
我是廣告 請繼續往下閱讀
中研院表示,該院相當重視此事件對社會的影響,將釐清事件是否違反相關規定;後續將規劃成立「生成式AI風險研究小組」,深入了解AI對社會的衝擊,提供研究人員相關指引,避免類似事件再度發生。
中研院說,繁體中文語料庫是發展台灣大型語言模型的重要基礎,將整合繁體中文詞知識庫,投入資源並規劃管理機制;該院已召開數次生成式AI相關會議,將擴大召集AI相關的跨領域研究人員,以團隊方式連結資訊科技、人文及社會科學人才進行跨領域研究,與全國各界共同促進台灣繁體語境生成式AI的發展。