Meta 創辦人祖克柏上週無預警發布「閩南語」與「英文」翻譯系統後,因系統充滿濃濃的台灣味引起國人高度關注,開發該系統的台灣工程師陳鵬仁與祖克柏的對話影片也吸引184萬觀看人次,10月26日晚間Meta特別安排陳鵬仁與台灣媒體舉行線上記者會分享研發心得。《客新聞》也加入專訪陳鵬仁,陳鵬仁透露,開發系統最困難的地方就是要有龐大的語料庫,「如果客語的語料庫足夠,未來會將客語作為考慮開發的語種。」

我是廣告 請繼續往下閱讀
對於Meta安排的線上記者會,陳鵬仁顯得有些雀躍,因為他沒想到開發這系統會引起國人如此高的關注,他在系統發表後很多台灣的朋友發訊息給他,家人、親戚還打電話到美國給他,他笑說:「真的沒想到。」

對於該系統推出後,許多台灣客家鄉親希望Meta能推出客家話翻譯系統,《客新聞》就此詢問陳鵬仁「台灣有很多人講客語,未來是否會考慮研發『客語對英語』對翻系統?」陳鵬仁說,Meta未來的計畫是拓展更多語言,「我知道客語是我們考慮的語言之一,但未來要開發什麼?要以什麼語言優先?還是需要討論。」

《客新聞》繼續提問,「如果台灣有機構有大量的客語語料庫、且也願意提供這些語料,是不是會讓Meta有較高的意願研發?」

陳鵬仁表示,如果有大量的客語語料庫、有一些容易取得的語料庫,「一定是我們選擇的考量之一。」他說,如果有語料庫對Meta的研發當然會容易許多,因為他們在研發這系統的過程中,「語料取得的困難度比原本想像得還要大很多。」

▲Meta語音翻譯語音的系統開發後,台灣工程師陳鵬仁表示,如果有大量的客語語料庫、有一些容易取得的語料庫,一定是選擇的考量之一。(圖/資料照片)
▲Meta語音翻譯語音的系統開發後,台灣工程師陳鵬仁表示,如果有大量的客語語料庫、有一些容易取得的語料庫,一定是選擇的考量之一。(圖/資料照片)
不過陳鵬仁也向《客新聞》解釋,現階段Meta著重的重點是把閩南語對英語的系統優化到更精準、更精確,等這些技術精進後,再擴展到其他語種。

陳鵬仁也在線上向大家介紹他自己,他是台灣板橋人,雙親住在屏東、都講閩南語,在板橋住了20多年,台大資訊系畢業服完兵役後就到Facebook紐約辦公室上班,至今已經10年。

陳鵬仁指出,他進入臉書之初是以開發產品為主,例如大家熟悉的打卡功能等,就是他工作的主要範圍。四年前,他加入Meta AI 團隊,在團隊研究兩年後,才加入「語音對語音翻譯系統」的研發團隊,並著手開發「語音對語音」的翻譯系統。

陳鵬仁談起開發這系統的困難度時表示,要把閩南語與英語對翻的難度很高,因為閩南語的發音有七聲八調,加上有很複雜的變調規則,「我在檢視系統發音時,往往會發現系統講出來的腔調不對,就變成另外的意思。」他說,這是閩南語比較特別,「也是特別難解決的問題。」

陳鵬仁說,為了讓AI能學習閩南語,語料庫成為最重要的關鍵。團隊會選擇閩南語的原因是:一方面團隊有很多成員來自台灣來,且都會閩南語;另一方面則是取得語料庫也方便,包括台大、陽明交大等台灣的學術單位有相關研究外,大量的台灣連續劇也成為語料庫來源。因團隊成員懂閩南語,大家做系統測試、驗證時,「我們一聽就知道系統講得對不對,這也是我們選擇用閩南語開發這套系統的原因。」

陳鵬仁說,大宗的語料庫對系統學習有很大幫助,「因連續劇中同樣一句話,用不同的語調就有不同的意思,因此系統學習後,就比較容易較精準翻譯出來。」媒體詢問,Meta的AI系統能辨識台灣的口音嗎?陳鵬仁說,因為他是土生土長在台灣長大,加上語料庫也都取材台灣,因此台灣北部與南部的腔調都能辨識,「我相信應該涵蓋了台灣絕大部分的口音。」而這套AI語言系統一出世,已成功讓全球關注少數語言的人們振奮不已!