h1 和 h2 拼接的公式如下:4.2 Distilled BiLSTM 訓練將 BERT 蒸餾到 BiLSTM 模型,使用的損失函式包含兩個部分:一部分是 hard target,直接使用 one-hot 類別與 BiLSTM 輸出的機率...