每天資訊馮志偉:“巴別塔”上的中國計算語言學先鋒

菜單

馮志偉:“巴別塔”上的中國計算語言學先鋒

馮志偉:“巴別塔”上的中國計算語言學先鋒

“巴別塔,是人類聯合起來興建希望能通往天堂的高塔;為了阻止人類的計劃,上帝讓人類說不同的語言,‘翻譯’就此產生。”在2018年的一場機器翻譯論壇上,馮志偉用《聖經》故事作為他演講的開頭。

四年後的今天,年過八旬、滿頭銀髮的他依舊容光煥發。作為我國計算語言學的開拓者之一、世界上第一個漢語到多種外語機器翻譯系統的研製者,他仍然緊跟技術前沿,活躍在語言學跨學科研究領域。

馮志偉:“巴別塔”上的中國計算語言學先鋒

▲9月5日,國家教育部語言文字應用研究所研究員、博士生導師、學術委員會委員馮志偉接受中國網專訪。[中國網 汪瑋 攝]

在參加9月7日首屆人工智慧與國際傳播高層論壇前夕,國家教育部語言文字應用研究所研究員、博士生導師、學術委員會委員馮志偉回顧了他運用技術賦能語言學研究、探索機器翻譯促進國際交流的不凡之路。

01文理兼修:“別人覺得我是個怪人”

“計算語言學我已經做了很多年,我原來是學理工科的,在北大讀的是地球化學專業,當時看到美國在搞機器翻譯,我覺得很奇怪,文科現象怎麼能夠用機器來做,當時我覺得這個很有意思。另外我也覺得語言的障礙是人類一個很重要的問題,所以能夠用機器來做挺好,後來就改行了,學語言學。”

這還要從1957年說起——當時18歲的馮志偉考入北京大學地球化學專業,課餘時間喜歡鑽進北大圖書館探尋學術前沿。有一次,他在外文圖書室看到了美國語言學家喬姆斯基的論文《語言描寫的三個模型》。一篇語言學論文發表在自然科學的資訊理論雜誌上,這讓馮志偉感到特別好奇。他懷著極大的興趣通讀了全文,認識到這是喬氏應用數學中的“馬爾科夫鏈”來描述自然語言的生成過程,為語言建立了一套獨特的數學模型。

憑著滿腔熱愛,身為家中長子的馮志偉不顧家人盼著他早日工作賺錢的期望,幾經波折於1959年成功轉到了中文系語言學專業,在這個文科一年級從頭學起,開始了小規模的基於規則的機器翻譯研究。

如今備受推崇的跨學科研究,在當時讓馮志偉成了別人眼中的“怪人”:一個學中文的去研究數學?一個讀中文系的在忙著看外文書?考取北大研究生後,馮志偉想研究數學方法在語言學中的應用,連導師一開始都不太同意這既不是理工科又不像文科的論文選題;不僅如此,這位中學積極上進的團支部書記還被當成了北大的“落後分子”。

早期的困難和“文革”的衝擊並沒有沖淡馮志偉的熱愛。1967年北大研究生畢業後,他到天津、昆明的中學任教,期間儘管工作不涉及語言學,但馮志偉仍是研究不輟,透過手工計算估測出漢字的“熵”。原理上講,計算出漢字的“熵”,才能給漢字編碼,才能在計算機上自由地輸入、輸出和傳輸漢字。他的這些努力為20世紀80年代漢字的雙位元組編碼提供了可靠的語言學理論支援。

02放眼世界:“中國已進入世界計算語言學的前列”

“國際計算語言學會議六幾年就開始了,82年我們才首次出席……現在情況不太一樣,特別是進入21世紀以後,我們這個學科發展很快,一些文科單位、科學院、數學院有好多人做,一些公司也開始做,也做得不錯,所以到了21世紀以後,中國人在國際計算語言學上的發言權是很大的,我們中國人可以說現在已經進入了世界計算語言學的前列。”

1982年去布拉格出席國際計算語言學會議的中國學者正是時任中國科學技術資訊研究所計算中心軟體工程師的馮志偉。

時間回溯到四年前的1978年——全國科學大會召開,在“尊重知識、尊重人才”口號的感召下,馮志偉又歷經一番努力考入中國科技大學研究生院。當年,39歲頭髮已白的他又爭取到了留法的機會,學習數理語言學和機器翻譯。師從國際計算語言學學會首任主席沃古瓦,他倍加珍惜寶貴的學習研究機會,給自己規定了“887工作制”:每天8點上班,晚上8點下班,一週7天工作無休。留法期間,他利用當時先進的大型計算機進行了大規模的基於規則的語言學研究,提出了多叉多標記樹形圖模型,並在此基礎上研製出了世界上第一個從漢語到多種外語的機器翻譯系統——“漢—法、英、日、俄、德”多語種翻譯系統。在布拉格的會議上,馮志偉介紹的正是這一具有里程碑意義的研究成果。

幾年後,馮志偉調入國家語委語言文字應用研究所(現屬教育部)擔任計算語言學研究室主任,同時在中國科學院軟體研究所擔任兼職研究員;後又赴德國從事術語資料庫研究,研製成世界上第一個中文術語資料庫。

1998年退休後,馮志偉仍心繫學術研究、胸懷國際交流。2000-2002年,他赴韓國科學技術院擔任客座教授、為博士生授課;2005年,與人合譯出版《自然語言處理綜論》;2011-2015年,參與修訂漢語拼音出海的國際標準《中文羅馬字母拼寫法》ISO-7098;他還對國內外自然語言處理的研究成果進行了系統梳理,寫成了基於規則與基於統計的自然語言處理方法的專著《自然語言計算機形式分析的理論與方法》,後又應世界上最大的科技出版社之一——德國斯普林格出版社邀約,將這本書譯成英文出版。

如今,一直致力於利用跨專業之磚砌築“巴別塔”的馮老也沒有忘記溝通中外的初心。“面對新技術帶來的新形勢和新變化,應當學習翻譯技術,把新技術也納入到翻譯工作中。人工智慧翻譯成績巨大,應當提倡‘機器翻譯+譯後編輯’,加強譯後編輯的作用,實現機器翻譯與人工翻譯和諧共處、相得益彰。”馮老還提出建議,作為國際傳播的一部分,有必要加強古代典籍漢譯外語料庫建設。

在講述自己擔任ISO-7098國際標準國際工作組組長和應邀出版譯作的經歷時,馮老還不忘感慨和叮囑幾句:“做國際傳播,一定要知己知彼,瞭解對方的情況,”“要尊重對方的意願,不要強加於對方。”

03唯有熱愛:“我得到精神上的滿足”

“中國的計算語言學早期做的人少。我是愛好,做這個是屬於散兵遊勇似的,也得不到什麼好處。這件事完全是興趣,好奇心大於功利心,基本上功利心就是政府供我吃飯就行了,但是我好奇,我得到精神上的滿足。”

如今再回憶起崢嶸歲月,這位“巴別塔”上的中國計算語言學先鋒隻字未提自己曾經榮獲的多個國內外重量級獎項,他面帶滿足、眼裡閃著光的講述中提到最多的詞就是“興趣”和“愛好”。

談起人工智慧大模型和Transformer一統自然語言處理等最新發展,這位中國計算機學會高階會員表示自己一直都在密切關注和學習領域內的最新發展成果,還立馬分享了一篇帶著期刊清樣修改痕跡的論文,表示這篇關於“記憶負擔最小化機制”的論文就是關於輕量化發展趨勢的。

我國計算語言學經歷了基於規則、基於統計和基於神經網路的三個時期,馮老站在學科發展的角度總結道。他表示,從準確率角度來看,新方法效果不錯,但由於基於大量語言資料和引數,未來應在輕量化方向上著力,同時也要重視語言知識規則、兼顧理性主義研究來確保可靠性、增強解釋性。

他還表示,雖然如今我國在該領域國際地位很高,但目前的研究基本上是跟蹤型的,缺乏創新,應加強創新性的研究。

馮老坦言,現在條件更好了,不只是物質層面,更有國家層面的支援和提倡。

“過去我是在研究當中得到樂趣,但我這個樂趣別人也不知道;現在情況不一樣了,現在政府公開提倡文理結合,再也不會給你戴什麼帽子,也不會說你是‘落後分子’。現在年輕人條件好,只要努力,前途光明。”

他寬慰年輕學子們不必擔心人工翻譯會被機器翻譯取代。在馮老看來,對於普通的文字,‘機器翻譯+譯後編輯’可以提供助力,但是,對於優秀的文學作品、國家重要文獻、領導人的著作,還是需要人工翻譯才能保證傳播質量。

同時,他也勸勉年輕學子們“要進行知識革新的再學習,使自己成為一個文理都懂的人”。

“這個也是國家對你們的希望,新文科就是這樣,我覺得是前途光明的。”馮老語重心長地說。

轉載來源:中國網(專訪記者:張嘉琪)