應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

大數(shù)據(jù)和機(jī)器翻譯如何結(jié)合起來對(duì)抗冠狀病毒

2020-05-28 08:56 360機(jī)房

導(dǎo)讀:大數(shù)據(jù)和機(jī)器翻譯可以結(jié)合在一起對(duì)抗冠狀病毒疫情,人們需要了解這兩種技術(shù)如何提供幫助以及如何發(fā)揮作用。

大數(shù)據(jù)和機(jī)器翻譯可以結(jié)合在一起對(duì)抗冠狀病毒疫情,人們需要了解這兩種技術(shù)如何提供幫助以及如何發(fā)揮作用。

歷史上很少比冠狀病毒疫情更能讓大眾意識(shí)到大數(shù)據(jù)的重要性。從世界各地收集的統(tǒng)計(jì)數(shù)據(jù)正在推動(dòng)公共政策并塑造私人行為。以下將重點(diǎn)關(guān)注疫情的語言學(xué)層面,以便向決策者、醫(yī)療保健提供者以及公眾傳達(dá)基本信息。面臨的挑戰(zhàn)是如何跨越語言邊界交流快速變化的數(shù)據(jù),以使基本信息不會(huì)在翻譯中丟失。但是在尋找用戶的過程中,大數(shù)據(jù)的使用也存在更多爭(zhēng)議。

行業(yè)領(lǐng)先組織使用大數(shù)據(jù)進(jìn)行機(jī)器翻譯

考慮到問題的嚴(yán)重性,翻譯服務(wù)越來越依賴于機(jī)器翻譯的效率和吞吐量。根本就沒有足夠的人工翻譯和口譯員。令人高興的是,由于神經(jīng)網(wǎng)絡(luò)方法在過去十年的應(yīng)用,機(jī)器翻譯的質(zhì)量得到了提高,主要是在這一領(lǐng)域發(fā)展的最大的科技公司,統(tǒng)稱為FAMGA(Facebook、蘋果、微軟、谷歌和亞馬遜)。這些公司都以自己的方式依靠大數(shù)據(jù)在領(lǐng)先的語言優(yōu)勢(shì)上展開競(jìng)爭(zhēng)。然而,他們不是在處理數(shù)字,而是在處理文字。

跟蹤冠狀病毒蔓延的社交媒體翻譯和隱私挑戰(zhàn)

Facebook公司利用大規(guī)模的樣本反向翻譯(一種基于神經(jīng)機(jī)器翻譯的大數(shù)據(jù)技術(shù)),在2019年WMT競(jìng)賽的多個(gè)類別中均獲得第一名,需要大量的雙語培訓(xùn)數(shù)據(jù),也就是可供參考翻譯的句子。雙語數(shù)據(jù)很難獲得,因此Facebook公司團(tuán)隊(duì)使用反向翻譯作為解決方法。最終,該團(tuán)隊(duì)使用了大約100億個(gè)單詞的額外數(shù)據(jù)來完成其任務(wù)。Facebook公司利用其20億個(gè)左右用戶的評(píng)論和帖子作為訓(xùn)練材料,并具有無與倫比的內(nèi)容訪問權(quán)限。

在語言競(jìng)賽中,出于實(shí)驗(yàn)?zāi)康氖褂冒l(fā)布的語言是一回事,而在新冠病毒等敏感的健康問題上利用用戶提供的信息是另一回事。正如Bruegel研究所的J.Scott Marcus所觀察到的那樣,用戶以各種方式“自愿”提供信息:在社交媒體上的帖子中,在他們使用移動(dòng)服務(wù)和提供位置數(shù)據(jù)時(shí)在尋找健康信息。Marcus表示,大數(shù)據(jù)已用于對(duì)抗新冠病毒的戰(zhàn)略規(guī)劃,用于跟蹤潛在感染者,并為感染者和公眾提供指導(dǎo)、建議和信息。

翻譯與自愿收集的數(shù)據(jù)有關(guān)的隱私問題

很多人可能不知道提供“自愿”數(shù)據(jù)將被用來追蹤或暴露其行程的追蹤。不僅僅是一個(gè)國(guó)家,先從中國(guó)開始,然后是韓國(guó)、日本、以色列等其他國(guó)家,已經(jīng)明確使用了部分或全部這些信息。通常,高科技公司與各國(guó)政府合作以提供其數(shù)據(jù),盡管歐洲的通用數(shù)據(jù)保護(hù)條例等法規(guī)等隱私保護(hù)措施阻止了此類使用。

病毒跟蹤計(jì)劃使用機(jī)器翻譯實(shí)現(xiàn)“標(biāo)準(zhǔn)化”通信,并使公共衛(wèi)生官員可以首選的語言對(duì)其進(jìn)行訪問。例如,在以色列,阿拉伯語的社交媒體通信通過機(jī)器翻譯技術(shù)自動(dòng)翻譯為希伯來語,其目的是尋找潛在的病毒攜帶者。

大規(guī)模機(jī)器翻譯和口譯的公共用途

機(jī)器翻譯大規(guī)模應(yīng)用的另一個(gè)例子是在國(guó)際機(jī)場(chǎng)對(duì)乘客進(jìn)行篩選。除了熱成像設(shè)備和手持測(cè)溫度儀之外,檢測(cè)人員還使用手持語音翻譯器向到達(dá)的乘客詢問他們的旅行史或醫(yī)療癥狀。

同樣的考慮也適用于向使用其他語言的公眾提供信息。提供有關(guān)冠狀病毒的最新信息是移民的一個(gè)問題。據(jù)美國(guó)之音報(bào)道,荷蘭的志愿者設(shè)立了一個(gè)健康服務(wù)臺(tái),為不會(huì)說荷蘭語的新移民幫助。在澳大利亞在其邊境采用了一個(gè)大規(guī)模的翻譯項(xiàng)目。筆譯和口譯服務(wù)是澳大利亞移民和邊境保護(hù)部為同時(shí)使用人工翻譯和機(jī)器翻譯的非英語使用者提供的服務(wù)。

美國(guó)醫(yī)院的需求量很大?!都~約時(shí)報(bào)》于2020年4月報(bào)道了美國(guó)的西班牙裔冠狀病毒患者所遭受的巨大苦難,其所遭受的痛苦不成比例,約占紐約患病人數(shù)的34%。為了滿足這種需求,紐約的醫(yī)院越來越多地轉(zhuǎn)向視頻遠(yuǎn)程口譯,醫(yī)療保健提供者可以在需要時(shí)提供口譯服務(wù)。

在冠狀病毒疫情爆發(fā)之前,在思科公司的支持下,非營(yíng)利性無國(guó)界翻譯公司(TWB)推出了一項(xiàng)名為Gamayun的創(chuàng)新機(jī)器翻譯計(jì)劃,旨在幫助那些少數(shù)民族語言的人員。TWB計(jì)劃的負(fù)責(zé)人Grace Tang說:“少數(shù)族裔語言的人無法獲得重要的救生信息?!彼伎乒景l(fā)言人表示,基于人工智能和大數(shù)據(jù)技術(shù)的語音翻譯和文本翻譯工具將在5年內(nèi)幫助該計(jì)劃擴(kuò)展至10種少數(shù)族裔語言。

大數(shù)據(jù)和機(jī)器翻譯項(xiàng)目的風(fēng)險(xiǎn)與陷阱

結(jié)合大數(shù)據(jù)和機(jī)器翻譯的項(xiàng)目中最著名的案例是Project Baseline,這是由Alphabet公司支持的Verily發(fā)起的。2020年3月,美國(guó)總統(tǒng)特朗普聲稱谷歌公司支持一項(xiàng)全國(guó)性的計(jì)劃,利用雙語篩選問題追蹤新型冠狀病毒。

Vital Software公司的新冠病毒癥狀檢查器也引發(fā)了類似的爭(zhēng)議,該檢查器在俄勒岡州可以翻譯成15種語言用。在啟動(dòng)基于社區(qū)的項(xiàng)目時(shí),但在選定的州,其規(guī)模仍在縣級(jí),而不是國(guó)家一級(jí)。值得稱贊的是,考慮到從個(gè)人身上收集的大量敏感信息,該項(xiàng)目認(rèn)真對(duì)待數(shù)據(jù)隱私問題。

在新冠病毒疫情期間,將大數(shù)據(jù)用于機(jī)器翻譯和其他目的的底線是,它是在巨大的壓力下動(dòng)態(tài)完成的,這幾乎總是會(huì)導(dǎo)致偷工減料和高期望值,但這并不總是能夠滿足。Facebook公司在WMT的應(yīng)用報(bào)告中表示,其收集數(shù)據(jù)是嘈雜且次優(yōu)。希望在疫情期間,將大數(shù)據(jù)和機(jī)器語言方法相結(jié)合的努力也能取得成功,為對(duì)抗疫情提供幫助。