方法Bi-Attention:二值化注意力機制我們的研究表明,在BERT模型的注意力機制中,softmax函式得到的歸一化注意力權重被視為遵循一個機率分佈,而直接對其進行二值化會導致完全的資訊喪失,其資訊熵退化為0(見圖2)...