ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個義大利科研團隊

作者 | Antonio

編輯 | 陳彩嫻

ACL 2022已經於近期正式在官網上刊登了錄取的文章，其中涉及到詞義消歧（Word Sense Disambiguation， WSD）的文章共有4篇，參考下圖的查詢。

WSD是指識別出有多個義項的目標詞彙在上下文中的含義，是NLP中一個重要並且具有NP-hard複雜度的任務，不僅可以幫助機器更好地識別詞彙語義，還對機器翻譯、文字理解等下游任務起到輔助作用。

本文簡要整理並介紹其中已經公佈了論文全文的前三篇，值得注意的是，這三篇都出自同一個課題組，即來自義大利羅馬一大的Sapienza NLP，導師為Roberto Navigli。

（ACL 22上關於WSD的論文）

WSD真的超過了人類效能了嗎？

論文題目：Nibbling at the Hard Core ofWord Sense Disambiguation

下載連結：https：//www。researchgate。net/publication/359468349_Nibbling_at_the_Hard_Core_of_Word_Sense_Disambiguation

本文是一篇評測以往的WSD方法的

分析型

論文，並根據對於當前方法的不足，提出了更加富有挑戰性的資料集和評測指標。具體而言：

1、文章從定性和定量兩個方面，仔細分析了7個當前最SOTA的模型都會存在的一些錯誤和偏差。這些模型都是經典模型，並且在當時達到過最佳效能。它們分別是基於判別式的ARES，BEM，ESCHER（當前SOTA），EWISER， GlossBERT；基於生成式的Generationary；和無監督訓練的SyntagRank模型。值得注意的是，

這7個模型中有5個模型是屬於Roberto課題組

。

考慮到理想的模型應該表現得和人類類似的假設，現有模型在WSD上犯得很多錯誤是低階和違背常識的。例如下面的例子：

ESCHER是當前SOTA模型，在上述對於母語者看來wind一定不會是空氣的含義，但模型卻判斷錯誤。

從定量的角度，文章重點分析了WSD中非常常見的不平衡問題——最頻繁釋義偏差（MFS）和訓練資料偏差，即測試集中存在訓練集中從未見過的釋義。這兩個問題都由知識不確定性（epistemic uncertainty）導致的。從定性角度，文章則分析了標註者偏差，這屬於固有的隨機不確定性（aleatoric uncertainty），一個語言學專家標註了測試集出現的6類偏差，並做了詳細分析。

2、出於上述偏差的分析，文章也提出了一系列更硬核的評測測試集合，即42D，42個語言domain，並且對於那些不常出現的釋義目標也做了很好的評估。

同時研究者們提出了修正了原有的micro-averaged的F1得分，而變成了macro-average的F1得分。

最後，文章收集了在上述模型中都難以分對的那些例項，命名為“hardEN”。換句話說這個所有的模型對於這個測試集的F1得分都為0。這樣對於之後模型評估設計了一個很難的試金石。

用來衡量機器翻譯中的WSD的測試基準

論文題目：DIBIMT： A Novel Benchmark for Measuring Word Sense Disambiguation Biases in Machine Translation

論文連結：https：//www。researchgate。net/publication/359280784_DiBiMT_A_Novel_Benchmark_for_Measuring_Word_Sense_Disambiguation_Biases_in_Machine_Translation

一詞多義現象在機器翻譯中顯得尤為突出，這也是機器翻譯中常常出現的偏差的原因。文章研究了機器翻譯中的多義性偏差現象，並且提出了一個全新的測試基準，包含針對多種語言的測試集以及評價指標。具體來看，文章的貢獻有：

1、文章針對英語作為源語言，五種語言（中文、德文、義大利語、俄羅斯語和西班牙語）作為目標語言，標註了常見的WSD中出現的帶有歧義詞的正負樣例，如下圖展示了一個樣例，顯示了英文中shot在不同語言中的正誤翻譯：

文章詳細描述了句子的收集過程，包括語言庫選擇、句子清洗和過濾、資料集標註等。下圖展示了資料集的標註統計量：

其中資料集主要收集了名詞和動詞。之後由於資料集是從BabelNet中收集的，文中則定義了好的和壞的釋義集，並且統計了多大比例的釋義被標註者新增（OG）；多大比例被移除（RG）和兩句例句使用同一釋義的比例（SL），統計量如下：

2、除了準確率，文章定義了四種全新的評價指標，用來衡量頻率和詞義的關係，它們分別是：Sense Frequency Index Influence （SFII），Sense Polysemy Degree Importance （SPDI），Most and More Frequent Senses相關的兩個MFS和MFS+。

3、文章比較了5類SOTA的機器翻譯系統，包含兩類商業系統：DeepL Translator，Google Translator和三類非商業模型，包含：OPUS，MBart50和M2M100。它們在五類語言上的分類結果參考下圖：

從準確率上可以看出，DeepL的效能要顯著得比其它方法更好。

在細粒度分析歧義的新指標上，也有類似的趨勢：

之後，文章還探討了很多有意思的語言學分析，比如，是否動詞要比名詞更難翻譯？編碼器是否真的可以去歧義等等？有興趣的讀者可以找來文章細細閱讀。

程式碼和評測平臺之後會放出：https：//nlp。uniroma1。it/dibimt

實體去歧義任務的新定義

論文標題：ExtEnD： Extractive Entity Disambiguation

論文連結：https：//www。researchgate。net/publication/359392427_ExtEnD_Extractive_Entity_Disambiguation

文章對WSD內的一個更加細粒度的實體去歧義的任務進行了新的方式去定義，即把它當作一個文字抽取的任務，並且採用兩個Transformer模型架構實現（命名為EXTEND）。EXTEND在6個評價資料庫中有4個在F1 score上都達到了SOTA水平。

實體是指關係網路中的節點，相比WSD中更加寬泛的詞彙，實體名詞往往更具有實際意義，並且更有多義性的可能性，下面展示了一個例子，選出Metropolis可能指的是哪個場景下的。

具體而言，如下圖，EXTEND架構首先將輸入的上下文和所有的候選項拼接在一起，模型的輸出則是目標選項的起始和終止的單詞索引。其中，提取特徵的部分是Longformer，之後的head採用簡單的FC輸出每一個詞彙可能成為起始和終止的機率。

事實上，將WSD定義為這種文字提取的方式在之前的方法ESC和ESCHER中被兩次用到（都是同一位作者），其中的ESCHER方法是當前WSD的SOTA方法，這啟發我們這種擷取式方式的有效性。

以下是模型在6個數據集上的表現，它在其中的4個上面達到了最優的水平。

關於課題組

如前述所示，這三項工作都是由Roberto Navigli領導的課題組完成的。在WSD領域內，該課題組就承包了大半工作，包含模型的提出、新任務的定義、資料集語料庫的建設、富有啟發的分析等等。而Roberto本人也一直專注於這一領域，其博士畢業論文就是關於WSD的；而實驗室成員的很多研究方向也都幾乎包含這個領域，這是從不同的角度去挖掘，例如多語等。

這種幾十年如一日的專注確實很令人敬佩，這可能也是課題組不斷可以產出高質量的WSD文章的重要原因。實驗室主頁（http：//nlp。uniroma1。it/）就有詳細的文章介紹，對這一領域感興趣的同學一定要隨時關注。

雷峰網雷峰網

ACL 2022 共收錄4篇詞義消歧論文，3篇來自一個義大利科研團隊

相關文章