等不到結尾？沒關係，AI來填坑了

大資料文摘出品

編譯：

林苗

追小說的時候最怕的是什麼？爛尾！比爛尾更可怕的是什麼？是作者大大寫著寫著棄坑了。而現在，有一隻能為給定的故事創造多樣化結局的AI了。

OpenAI的GPT-2是一個非常高大上的自然語言處理系統，在其他同類型的AI還在“前後是否連貫一致”和“是否足夠像人”這兩個問題上苦苦掙扎時，它已經能生成一篇高度擬人化的演講。

一般AI創作的故事結尾都是套用相似的通用模板，而且缺乏內容上的連貫性。為了克服這一明顯的短板，卡內基梅隆大學計算機科學學院的科學家們設計出了一種新的方法，這個方法的關鍵在於將訓練模型的注意力集中在故事的重要片語上，促進特定詞彙的產生。

相關研究論文連結

https：//arxiv。org/pdf/1907。08259。pdf

“所謂故事的語境，其實就是把特徵和事件連線起來的句子序列。這個任務的難點在於對上下文字的特徵、事件以及其他物件進行建模，再基於這個模型，產生一個既符合邏輯，又符合常理的結局。其中，對事件、其他實體，以及他們在整個故事中的關係進行語義學的歸納提取，是一個非常艱鉅且重要的任務。”合作者指出，“我們的研究表明，兩者結合能產生更多樣化、更有趣的故事結局。”

研究所用模型的部分輸出結果

該團隊利用seq2seq翻譯模型（一種能夠學習依賴關係的長短時記憶深度神經網路）去形成目標故事語境中詞彙的數學表徵，然後對這些詞彙的關係進行訓練，再將它們重新翻譯成人類可讀的文字。

為了能整合吸收故事中的關鍵片語，研究者們使用RAKE演算法進行提取，並基於片語中單詞的詞頻和共現率進行打分，再根據相應的分數，對這些片語進行人工分類。只有達到特定閾值的片語，才會被認為是重要的。

為了能產生結局，研究者們在ROCStories語料庫上對模型進行訓練，該語料庫涵蓋了50，000多個五句話的微故事。

為了評估訓練模型的好壞，研究者們首先採用DIST（distinct）命令來計算所產生的結局中，去重後的一元語法（unigram，給定樣本中，n個物件的連續序列）、二元語法（bigram，一對相鄰的書面單元如字母、音節或單詞）和三元語法（trigram，三個相鄰的書面單元）的數量，再把這些數量分別在總的一元語法、二元語法和三元語法中的佔比作為衡量指標。

在另一項獨立的測試中，研究者們採用開源的Story-Cloze任務（故事型常識閱讀理解任務），對谷歌的BERT模型訓練，並與基準水平進行比較。該任務要求是，根據給定語境的四句話，在兩個候選句子中選出哪一句是可以根據前四句推匯出來的。

那麼，AI表現如何呢？普利策獎應該是拿不了的。

儘管這個模型在DIST中表現得非常好，並且在Story-Cloze測試中達到了72%的準確率，但它偶爾還是會產生一些不合理的結局，比如“Katie被他自己震驚了，並拋棄了她的男朋友”，或者引用一些與名詞詞性不符的代詞（Katie為女名，與himself矛盾）。

研究者們承認，想要確保輸出結果“保持故事語境中的語義學和一定水準”，並且在邏輯上合理一致，還需要更進一步的深入研究。儘管如此，他們也還是堅持認為他們已經從“定量”和“定性”兩個角度來表明，他們的模型能夠在基線水平上實現“重大的”改進。

等不到結尾？沒關係，AI來填坑了

相關文章