CHatGPT問世後引發熱潮,我國中央研究院近日推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b,不過有網友實測試問「我國領導人是誰」?語言模型回答「國家主席習近平」,再提問「「國慶日是何時?」回覆是「每年的10月1日」;中研院今(9)日已緊急下架。
據了解,CKIP-Llama-2-7b是中研院詞庫小組(資訊所及語言所共同成立)開發的繁體中文大型語言模型,可作為學術使用或是商業使用;CKIP-Llama-2-7b採用了2種資料集進行訓練,分別是「COIG-PC資料集」和「dolly-15k資料集」,前者是以中國AI研究單位為首所編制的作品,後者則是以簡體中文為主的一般性知識問答對話資料集,再加上CKIP-Llama-2-7b使用的C-Eval中文模型評測,同為中國清大和中國交大所開發的評量系統。
不少網友親身試用後發現,詢問「我國領導人是誰」?語言模型會回答「國家主席習近平」;問「國慶日是何時」?語言模型則回覆是每年的10月1日;對此,有專家認為,中研院的這個語言模型都是採用大陸資料,最後進行「簡轉繁」而已。
中研院今天緊急下架該系統,並發布聲明指出,這項小型研究僅用了大約30萬元的經費,將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中文的維基百科,另也包含臺灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答;在github網頁上也據實說明。
中研院也表示,由於這是一項個人小型的研究,各界對該模型進行的提問測試,並未在原始的研究範疇。該研究人員表示,由於生成式AI易產生「幻覺」,模型產生內容出乎預期,也是未來要努力改善的地方,研究人員今日已將測試版先行下架,未來相關研究及成果釋出,會更加謹慎,未來針對對相關研究的成果,公開釋出前,院內也會擬定審核機制,避免類似問題產生。
我是廣告 請繼續往下閱讀
不少網友親身試用後發現,詢問「我國領導人是誰」?語言模型會回答「國家主席習近平」;問「國慶日是何時」?語言模型則回覆是每年的10月1日;對此,有專家認為,中研院的這個語言模型都是採用大陸資料,最後進行「簡轉繁」而已。
中研院今天緊急下架該系統,並發布聲明指出,這項小型研究僅用了大約30萬元的經費,將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中文的維基百科,另也包含臺灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答;在github網頁上也據實說明。
中研院也表示,由於這是一項個人小型的研究,各界對該模型進行的提問測試,並未在原始的研究範疇。該研究人員表示,由於生成式AI易產生「幻覺」,模型產生內容出乎預期,也是未來要努力改善的地方,研究人員今日已將測試版先行下架,未來相關研究及成果釋出,會更加謹慎,未來針對對相關研究的成果,公開釋出前,院內也會擬定審核機制,避免類似問題產生。