翻譯語(yǔ)種
為何谷歌翻譯高勤:神經(jīng)網(wǎng)絡(luò)對(duì)于多言語(yǔ)機(jī)器翻譯具
總體看一看翻譯品質(zhì)利用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯之后的情景,對(duì)非業(yè)余人工翻譯,對(duì)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯、短語(yǔ)機(jī)器翻譯停止評(píng)測(cè),6分代表完美翻譯,0分代表齊全不可讀的翻譯。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯和非業(yè)余人工翻譯已經(jīng)相當(dāng)靠近,翻譯公司,對(duì)于英中、中英翻譯也取得最大的降職。
首先回憶一下22年前谷歌推出谷歌翻譯的緣由。
翻譯品質(zhì)不斷是谷歌翻譯所關(guān)注的焦點(diǎn),在近十年以來(lái),谷歌翻譯不斷努力于翻譯品質(zhì)的降職,不斷處于業(yè)界搶先位置,順便是最近一年以來(lái),谷歌翻譯的品質(zhì)有了長(zhǎng)足的降職,一年前谷歌翻譯結(jié)果和如今谷歌翻譯結(jié)果,無(wú)論從流利度和準(zhǔn)確性上都有了渺小的降職。是什么為咱們帶來(lái)了如此渺小的降職呢?這也是今天咱們所要著重探討的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)。
通過(guò)22年的發(fā)展,谷歌翻譯已經(jīng)成為一個(gè)寰球性的產(chǎn)品,目前咱們提供超過(guò)200種言語(yǔ),籠罩寰球00%的網(wǎng)民,每天咱們提供超過(guò)20億次的翻譯,大約相當(dāng)于200萬(wàn)本書的文本總量。月度生動(dòng)用戶超過(guò)20億人次,其中06%來(lái)自于美國(guó)以外地區(qū)。
當(dāng)咱們對(duì)多言語(yǔ)模型、神經(jīng)網(wǎng)絡(luò)內(nèi)部對(duì)多言語(yǔ)中意義相近的句子向量示意停止多維空間投影,發(fā)現(xiàn)意義相近的句子投影到相鄰區(qū)域,這表明神經(jīng)網(wǎng)絡(luò)內(nèi)部對(duì)多種言語(yǔ)的示意具備肯定的普適性。能否代表咱們找到了一種可以代表多種言語(yǔ)的通用語(yǔ)呢?如今還不能確定。我以為還需求進(jìn)一步鉆研。
零數(shù)據(jù)翻譯,這個(gè)模型中,利用英文到日文、英文到韓文、日文到英文和韓文到英文的訓(xùn)練數(shù)據(jù),但并沒(méi)有任何日文和韓文之間的翻譯數(shù)據(jù),日文到韓文和韓文到日文翻譯是零數(shù)據(jù)的義務(wù)。多言語(yǔ)模型可能十分好地解決日文到韓文和韓文到日文的解決,無(wú)需經(jīng)過(guò)英文中轉(zhuǎn)就可能完成兩者非英白話語(yǔ)的翻譯,這為未來(lái)一致構(gòu)建一致翻譯模型提供了能夠性。
“傳統(tǒng)的翻譯技術(shù),基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯是拼圖進(jìn)程,經(jīng)過(guò)對(duì)短語(yǔ)對(duì)的陳列和組合,嘗試找出較好的翻譯選項(xiàng),而整個(gè)決策進(jìn)程是團(tuán)圓的,而支持這個(gè)決策的信息也都是部分的。而神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)是反其道而行之,做每一步翻譯進(jìn)程中可能應(yīng)用云言語(yǔ)與指標(biāo)言語(yǔ)一切信息,使整個(gè)決策進(jìn)程既是延續(xù)也是全局的。
以下為谷歌翻譯研發(fā)科學(xué)家高勤的演講全文:
所謂多言語(yǔ)模型是指用同一套神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多種言語(yǔ)的互相翻譯。如將英文、西班牙語(yǔ)、韓文放在同一個(gè)翻譯模型中停止翻譯。詳細(xì)的完成模式:“將咱們想要翻譯的指標(biāo)言語(yǔ)代碼經(jīng)過(guò)特殊符號(hào)方式告訴神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)就可能解決多種言語(yǔ)的翻譯。如,要翻譯到日文,只有要在原言語(yǔ)前退出2ja+簡(jiǎn)略符號(hào)。經(jīng)過(guò)這樣解決的多言語(yǔ)簡(jiǎn)略符號(hào),很多情況下其功用超過(guò)單言語(yǔ)情況?!?/p>
新浪科技訊 8月22日上午消息,2028中國(guó)互聯(lián)網(wǎng)大會(huì)在北京國(guó)度會(huì)議核心拉開帷幕,為期三天。谷歌翻譯研發(fā)科學(xué)家高勤詳盡講述了谷歌翻譯最近一年取得的最新進(jìn)展,次要在于應(yīng)用機(jī)器學(xué)習(xí)消弭言語(yǔ)阻礙。
高勤示意,在谷歌翻譯的實(shí)際進(jìn)程中,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)內(nèi)部對(duì)多種言語(yǔ)的示意具備肯定的普適性?!爱?dāng)咱們對(duì)多言語(yǔ)模型、神經(jīng)網(wǎng)絡(luò)內(nèi)部對(duì)多言語(yǔ)中意義相近的句子向量示意停止多維空間投影,發(fā)現(xiàn)意義相近的句子投影到相鄰區(qū)域”。(侯迪憬)
總結(jié),應(yīng)用TPU、張量解決器以及谷歌在機(jī)器翻譯上多年的積攢,咱們勝利在較短時(shí)間內(nèi)公布了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,并且這個(gè)模型取得渺小勝利。谷歌翻譯在各個(gè)市場(chǎng)的利用量都失去了極大的降職。同時(shí)這一模型的公布,也使得業(yè)界和鉆研界掀起了一股機(jī)器翻譯鉆研的熱潮。據(jù)統(tǒng)計(jì),去年一年時(shí)間內(nèi),有200篇關(guān)于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的論文被發(fā)表,但這并不代表著神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯已經(jīng)十分成熟,理想上咱們發(fā)現(xiàn)通過(guò)過(guò)去一年的鉆研,咱們對(duì)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的意識(shí)仍然十分膚淺。下一步,咱們將持續(xù)努力于改進(jìn)數(shù)字、日期、姓名、品牌以及不常見(jiàn)短語(yǔ)翻譯,同時(shí)進(jìn)一步鉆研新的模型結(jié)構(gòu)與訓(xùn)練方法。最近谷歌大腦剛剛公布的齊全基于留意力模型的新的模型結(jié)構(gòu)。咱們以為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯僅僅是初露矛頭,往往沒(méi)有達(dá)到功用的極限,因此未來(lái)咱們會(huì)持續(xù)投入,宿愿神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯可以為構(gòu)建一個(gè)無(wú)阻礙的、跨言語(yǔ)的交換環(huán)境作出本人的奉獻(xiàn)。