物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊(cè)

大數(shù)據(jù)時(shí)代:機(jī)器翻譯能否取代人工

作者:袁于飛
來(lái)源:光明日?qǐng)?bào)
日期:2016-01-18 15:11:59
摘要:機(jī)器翻譯技術(shù)涉及計(jì)算機(jī)、認(rèn)知科學(xué)、語(yǔ)言學(xué)等學(xué)科,一直被科學(xué)界公認(rèn)為是人工智能領(lǐng)域最難的課題之一。

  在2015年度國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì)上,由百度與中國(guó)科學(xué)院自動(dòng)化所、中國(guó)科學(xué)院計(jì)算技術(shù)研究所、浙江大學(xué)、哈爾濱工業(yè)大學(xué)、清華大學(xué)等單位共同研發(fā)的“基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯核心技術(shù)及產(chǎn)業(yè)化”項(xiàng)目(以下簡(jiǎn)稱“機(jī)器翻譯項(xiàng)目”),獲得了國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)。

  此項(xiàng)目獲國(guó)家科技大獎(jiǎng),標(biāo)志著互聯(lián)網(wǎng)大數(shù)據(jù)為我國(guó)機(jī)器翻譯技術(shù)插上了騰飛的“翅膀”,同時(shí)也引發(fā)了人們對(duì)機(jī)器翻譯的關(guān)注和探討:在如今的大數(shù)據(jù)時(shí)代,機(jī)器翻譯能否取代人工?記者就此采訪了相關(guān)專家。

  “機(jī)器翻譯”技術(shù)是世界性難題

  機(jī)器翻譯技術(shù)涉及計(jì)算機(jī)、認(rèn)知科學(xué)、語(yǔ)言學(xué)等學(xué)科,一直被科學(xué)界公認(rèn)為是人工智能領(lǐng)域最難的課題之一。

  “機(jī)器翻譯出現(xiàn)于20世紀(jì)40年代,美國(guó)等發(fā)達(dá)國(guó)家曾出現(xiàn)過(guò)機(jī)器翻譯技術(shù)研究熱潮。然而多年來(lái),機(jī)器翻譯卻一直沒(méi)有得到普遍應(yīng)用?!卑俣燃夹g(shù)副總裁、機(jī)器翻譯項(xiàng)目負(fù)責(zé)人王海峰接受記者采訪時(shí)介紹,因?yàn)樽層?jì)算機(jī)理解人類語(yǔ)言,要經(jīng)歷從分析、理解到轉(zhuǎn)換生成等繁雜步驟,讓原本只認(rèn)識(shí)“0”和“1”的計(jì)算機(jī)去實(shí)現(xiàn)不同語(yǔ)言之間的翻譯,涉及語(yǔ)言現(xiàn)象的靈活多樣、翻譯知識(shí)獲取難度大、翻譯模型計(jì)算復(fù)雜度高等多個(gè)難題。

  據(jù)了解,中國(guó)機(jī)器翻譯研究起步于1957年,是世界上第4個(gè)開始研究機(jī)器翻譯的國(guó)家。雖然歷經(jīng)幾十年的發(fā)展,但機(jī)器翻譯技術(shù)始終未能突破真正實(shí)用的門檻。王海峰從1993年初開始從事機(jī)器翻譯領(lǐng)域研究工作,最終他組建了項(xiàng)目研究團(tuán)隊(duì),集合了清華大學(xué)、浙江大學(xué)、哈爾濱工業(yè)大學(xué)以及中科院等國(guó)內(nèi)頂尖科研力量,通過(guò)百度豐富的海量互聯(lián)網(wǎng)數(shù)據(jù),再經(jīng)過(guò)云計(jì)算平臺(tái)處理,才讓機(jī)器翻譯從理論走向?qū)嵺`,變成可能。

  基于大數(shù)據(jù)的互聯(lián)網(wǎng)翻譯成為突破口

  近些年來(lái),隨著互聯(lián)網(wǎng)以及大數(shù)據(jù)的迅猛發(fā)展,基于大數(shù)據(jù)的互聯(lián)網(wǎng)翻譯成為了機(jī)器翻譯技術(shù)實(shí)用化的突破口。王海峰說(shuō):“組建研發(fā)團(tuán)隊(duì)后,我們從整個(gè)互聯(lián)網(wǎng)上挖掘翻譯資源,在此基礎(chǔ)上使用云計(jì)算平臺(tái)訓(xùn)練統(tǒng)計(jì)翻譯模型、深度學(xué)習(xí)模型,最終讓機(jī)器翻譯真正達(dá)到實(shí)用水平,也實(shí)現(xiàn)了機(jī)器翻譯領(lǐng)域很多研究者們的畢生夙愿?!?/p>

  王海峰介紹,互聯(lián)網(wǎng)大數(shù)據(jù)給機(jī)器翻譯帶來(lái)了機(jī)遇,語(yǔ)言資源數(shù)據(jù)量激增,使得海量翻譯知識(shí)的自動(dòng)獲取和實(shí)時(shí)更新成為可能。但同時(shí),互聯(lián)網(wǎng)大數(shù)據(jù)也帶來(lái)了新的挑戰(zhàn):比如互聯(lián)網(wǎng)語(yǔ)言數(shù)據(jù)噪聲大,語(yǔ)言歧義現(xiàn)象多,小語(yǔ)種雙語(yǔ)資源數(shù)據(jù)稀缺等。他們的項(xiàng)目團(tuán)隊(duì)遭遇了不少難題,比如2010年初,通過(guò)數(shù)據(jù)分析,他們的研究團(tuán)隊(duì)發(fā)現(xiàn),互聯(lián)網(wǎng)數(shù)據(jù)雖大,里面卻存在著大量的低質(zhì)語(yǔ)料,比如“好好學(xué)習(xí)、天天向上”在抓取回來(lái)的語(yǔ)料中大多數(shù)都被翻為了“good good study,day day up”。

  面對(duì)如此令人啼笑皆非的語(yǔ)料,項(xiàng)目團(tuán)隊(duì)反復(fù)研究改進(jìn),最終將傳統(tǒng)文本處理技術(shù)與互聯(lián)網(wǎng)技術(shù)完美結(jié)合。國(guó)家科技獎(jiǎng)的項(xiàng)目評(píng)審專家認(rèn)為,該獲獎(jiǎng)項(xiàng)目突破了機(jī)器翻譯領(lǐng)域內(nèi)的四大世界級(jí)技術(shù)難題:“提出基于大數(shù)據(jù)的互聯(lián)網(wǎng)機(jī)器翻譯模型,快速響應(yīng)高負(fù)荷翻譯需求;基于大數(shù)據(jù)的翻譯知識(shí)獲取,克服語(yǔ)言數(shù)據(jù)噪聲問(wèn)題;通過(guò)深度語(yǔ)義分析和翻譯技術(shù),解決語(yǔ)言語(yǔ)義歧義問(wèn)題;提出樞軸語(yǔ)言機(jī)器翻譯技術(shù),實(shí)現(xiàn)了稀缺語(yǔ)種的多語(yǔ)言翻譯?!?/p>

  未來(lái)需要機(jī)器翻譯和人工翻譯的融合發(fā)展

  現(xiàn)在,在百度等大數(shù)據(jù)翻譯平臺(tái),輸入任何需要翻譯的語(yǔ)言,都能得到比較準(zhǔn)確的翻譯語(yǔ)言結(jié)果。那么,有了機(jī)器翻譯技術(shù),未來(lái)機(jī)器翻譯是否會(huì)取代人工翻譯呢?

  “與人工翻譯相比,機(jī)器翻譯具有獨(dú)特的優(yōu)勢(shì)。隨著互聯(lián)網(wǎng)數(shù)據(jù)的不斷豐富、翻譯模型的持續(xù)創(chuàng)新,機(jī)器翻譯效果會(huì)被打磨得越來(lái)越好。也許三五年后,看似高大上的機(jī)器翻譯會(huì)融入日常生活的方方面面。”王海峰接受記者采訪時(shí)表示:“首先,機(jī)器翻譯現(xiàn)在可以覆蓋多達(dá)幾十種語(yǔ)言,這對(duì)于人工翻譯來(lái)說(shuō)是難以達(dá)到的。另外,機(jī)器翻譯系統(tǒng)具有可涵蓋多領(lǐng)域、多行業(yè)的海量詞典和翻譯模型,可在不同場(chǎng)景下進(jìn)行翻譯,而反觀人工翻譯,則往往只能精深于某個(gè)特定的領(lǐng)域或行業(yè)。機(jī)器翻譯正在為人們生活帶來(lái)各種便利。人們可以通過(guò)機(jī)器翻譯,解決衣食住行中遇到的語(yǔ)言難題。小到出國(guó)旅游、科技文獻(xiàn)翻譯,大到國(guó)際貿(mào)易、跨語(yǔ)言文化交流,多語(yǔ)言信息聯(lián)通需求,都讓機(jī)器翻譯發(fā)揮重要價(jià)值。”

  哈爾濱工業(yè)大學(xué)的李生教授表示,機(jī)器翻譯在生活服務(wù)、學(xué)習(xí)等領(lǐng)域正逐漸替代人工翻譯,成為個(gè)人翻譯助手。不過(guò)目前的翻譯技術(shù)手段還無(wú)法完全達(dá)到“信、達(dá)、雅”的標(biāo)準(zhǔn)。但隨著信息技術(shù)的推動(dòng),實(shí)現(xiàn)及時(shí)的全世界信息共享,單靠人工翻譯顯然很難完成,但機(jī)器翻譯也不會(huì)完全替代人工翻譯,二者需要融合發(fā)展。

人物訪談