聊一聊Facebook翻譯謬誤導致一名建筑工人被抓,機器翻譯
或者經(jīng)過下面這個例子,可能更顯著地感遭到人類理解噪聲文本的才能與機器翻譯的才能有多大差別。
4)只要用Nat數(shù)據(jù)集來訓練,能力提高Nat數(shù)據(jù)集測試的魯棒性。這個結果表明了計算模型和人類的體現(xiàn)之間的一個重要區(qū)別——在學習言語時,人類并沒有明白地裸露在噪聲樣本中。
發(fā)現(xiàn):
三、數(shù)據(jù)數(shù)據(jù)集起源:作者選用了TED為IWSLT 2026預備的測試數(shù)據(jù)。
2、char2char。這是一個seq-2-seq的模型,它有一個簡單的卷積編碼器、highway、循環(huán)層以及一個規(guī)范的循環(huán)解碼器。細節(jié)參見Lee等人(2028)的鉆研。這個模型在德-英、捷克-英之間的言語對翻譯上體現(xiàn)十分好。
2、人造噪聲因為上面的數(shù)據(jù)集沒有帶有人造噪聲的平行語料庫,因此作者抉擇了其余的可用的語料庫,例如:
BLEU為機器翻譯結果與人工翻譯結果對比值(縱坐標應為%,作者遺記標注,下同)??赡芸吹诫S著文本中退出噪聲的比例添加,機器翻譯的結果快速降落。 從上面的結果咱們可能看到,三種NMT模型對單詞的結構都很敏感。Char2char和charCNN模型在字符序列上都有卷積層用來捕獲字符n-gram;Nematus模型則基于由BPE獲得的sub-word單元。因此一切這些模型對字符亂置(Swap、Mid、Rand)產(chǎn)生的噪聲都會敏感。 4、charCNN。作者用詞示意訓練了一個基于character卷積神經(jīng)網(wǎng)絡(CNN)的seq-2-seq的模型。這個模型保留了一個單詞的概念,可以學習一個依賴于字符的詞示意。由于它可能學習詞的狀態(tài)信息示意,所以這個模型在狀態(tài)豐富的言語上體現(xiàn)十分好。 法語:Max&Wisniewski在2020年從Wikipedia的編輯歷史中搜集的“維基百科更正和解釋語料庫”(WiCoPaCo),在本文中僅僅提取了單詞更正的數(shù)據(jù)。 作者生成人工噪聲的方法有四種,分別為替換(Swap)、中間隨機(Middle Random)、齊全隨機(Fully Random)和字母謬誤(Key Typo)。 最簡略的方法就是將一個單詞的embedding的平均值作為這個單詞的示意。作者將這種模型稱之為meanChar模型,也即先將單詞示意為一個平均embedding的單詞示意,然后在利用例如charCNN模型的字級編碼器。 原題目:Facebook翻譯謬誤導致一名建筑工人被抓,機器翻譯到底有多軟弱? 用Vanilla文本訓練meanChar模型 ,然后用噪聲文本測試(因為字符亂置不影響結果,將Swap、Mid、Rand合為Scr)。結果如下表第一行所示,可能看出的是,meanChar模型用在法語和德語中對Scrambled文本體現(xiàn)提高了8個百分點,但捷克語體現(xiàn)很糟糕,這能夠是因為其言語簡單的狀態(tài)。 另一方面,咱們還看到分解噪聲訓練的模型沒有一個在Nat數(shù)據(jù)的測試中體現(xiàn)較好的。這表明人造噪聲分解噪聲有很大的不同。作者人工地檢測了德語的Nat數(shù)據(jù)集中大約40個樣本后,發(fā)如今Nat數(shù)據(jù)集中最常見的噪聲起源是言語中的語音或音韻謬誤(44%)和字母遺漏(42%)。這些在分解噪聲中并沒有,所以這表明要生成更好分解噪聲能夠需求更多關于音素以及相應言語的知識。
五、兩種方法改進模型
2、meanChar模型
但對機器翻譯(MT)系統(tǒng)來說,這些文本就幾乎是不可理喻的了。甚至!一不小心還會形成頑劣的影響。雷鋒網(wǎng)了解到,近日在以色列就有一個案例,由于機器翻譯的謬誤,一名建筑工人在他facebook上發(fā)了條形狀后,“勝利”進了局子。
2)用Rand數(shù)據(jù)訓練出的模型,對Swap和Mid文本測試結果都體現(xiàn)良好;而反之則不成立。這闡明在訓練數(shù)據(jù)中更多的噪聲可以提高模型的魯棒性。
那么可能經(jīng)過對這樣的噪聲減少不變性來提高模型的魯棒性嗎?
“According to a study of Cambridge University, it doesn't matter which technology in a word is going to get the letters in a word that is the only important thing for the first and last letter.”
2、Nematus。這也是一個seq-2-seq的模型,在去年的WMT和IWSLT上是一種較為盛行的NMT工具包。
如作者所說:“咱們的目標有二:
捷克語:數(shù)據(jù)起源于非母語者手動注釋的散文。
然而在訓練數(shù)據(jù)集中引入噪聲或許不引入噪聲會帶來多大的影響呢?在不同的言語機器翻譯訓練中引入噪聲結果能否分歧呢?似乎目前并沒有對這一成績嚴厲的鉆研。
2、黑箱對抗訓練為了提高模型的魯棒性,作者采用了黑箱對抗訓練的方法,也即用帶噪聲文本訓練翻譯模型。
“Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae.”
這是最近幾年十分盛行的一個句子,試試看能不能讀懂——
2)雖然模型在不同的噪聲下仍然體現(xiàn)不一,但全體平均的體現(xiàn)有所降職。
七、總結二、模型
作者抉擇了三種不同的神經(jīng)機器翻譯(NMT)模型以做對比,分別為:
雷鋒網(wǎng)留意到,最近來自MIT的Yonatan Belinkov和來自華盛頓大學的Yonatan Bisk就此成績在arXiv上發(fā)表了一篇無心思的論文。
以色列警方此刻正監(jiān)管網(wǎng)絡來找一群稱為“l(fā)one-wolf”的恐懼分子,所以立馬就留意到了這條形狀。
一、噪聲對機器翻譯影響有多大?在咱們的文本當中,拼寫謬誤(或許稱為噪聲)是很常見的現(xiàn)象,而在人造言語解決的各種神經(jīng)網(wǎng)絡的訓練系統(tǒng)(包括翻譯系統(tǒng))中卻并沒有一個明白的計劃來處理這類成績。大家可以抱宿愿的模式就是,經(jīng)過在訓練數(shù)據(jù)中引入噪聲來減小翻譯進程中噪聲帶來的破壞。
首先用如上表,用噪聲文本訓練在某些言語(例如法語)上體現(xiàn)良好,然而其魯棒性并不具備鞏固的提高。這也很顯著,meanChar模型并不肯定能處理key或許Nat噪聲的成績。
齊全隨機(Rand):一切單詞的字母隨機陳列。
論文中,他們應用多種噪聲探討了目前神經(jīng)網(wǎng)絡機器翻譯的軟弱性,并提出兩種增強翻譯系統(tǒng)魯棒性的方法:結構不變詞示意和基于噪聲文本的魯棒性訓練。他們發(fā)現(xiàn)一種基于字母卷積神經(jīng)網(wǎng)絡的charCNN模型在多種噪聲中體現(xiàn)良好。