等不到結尾?沒關係,AI來填坑了

等不到結尾?沒關係,AI來填坑了

大資料文摘出品

編譯:

林苗

追小說的時候最怕的是什麼?爛尾!比爛尾更可怕的是什麼?是作者大大寫著寫著棄坑了。而現在,有一隻能為給定的故事創造多樣化結局的AI了。

OpenAI的GPT-2是一個非常高大上的自然語言處理系統,在其他同類型的AI還在“前後是否連貫一致”和“是否足夠像人”這兩個問題上苦苦掙扎時,它已經能生成一篇高度擬人化的演講。

一般AI創作的故事結尾都是套用相似的通用模板,而且缺乏內容上的連貫性。為了克服這一明顯的短板,卡內基梅隆大學計算機科學學院的科學家們設計出了一種新的方法,這個方法的關鍵在於將訓練模型的注意力集中在故事的重要片語上,促進特定詞彙的產生。

相關研究論文連結

https://arxiv。org/pdf/1907。08259。pdf

“所謂故事的語境,其實就是把特徵和事件連線起來的句子序列。這個任務的難點在於對上下文字的特徵、事件以及其他物件進行建模,再基於這個模型,產生一個既符合邏輯,又符合常理的結局。其中,對事件、其他實體,以及他們在整個故事中的關係進行語義學的歸納提取,是一個非常艱鉅且重要的任務。”合作者指出,“我們的研究表明,兩者結合能產生更多樣化、更有趣的故事結局。”

等不到結尾?沒關係,AI來填坑了

研究所用模型的部分輸出結果

該團隊利用seq2seq翻譯模型(一種能夠學習依賴關係的長短時記憶深度神經網路)去形成目標故事語境中詞彙的數學表徵,然後對這些詞彙的關係進行訓練,再將它們重新翻譯成人類可讀的文字。

為了能整合吸收故事中的關鍵片語,研究者們使用RAKE演算法進行提取,並基於片語中單詞的詞頻和共現率進行打分,再根據相應的分數,對這些片語進行人工分類。只有達到特定閾值的片語,才會被認為是重要的。

為了能產生結局,研究者們在ROCStories語料庫上對模型進行訓練,該語料庫涵蓋了50,000多個五句話的微故事。

等不到結尾?沒關係,AI來填坑了

為了評估訓練模型的好壞,研究者們首先採用DIST(distinct)命令來計算所產生的結局中,去重後的一元語法(unigram,給定樣本中,n個物件的連續序列)、二元語法(bigram,一對相鄰的書面單元如字母、音節或單詞)和三元語法(trigram,三個相鄰的書面單元)的數量,再把這些數量分別在總的一元語法、二元語法和三元語法中的佔比作為衡量指標。

在另一項獨立的測試中,研究者們採用開源的Story-Cloze任務(故事型常識閱讀理解任務),對谷歌的BERT模型訓練,並與基準水平進行比較。該任務要求是,根據給定語境的四句話,在兩個候選句子中選出哪一句是可以根據前四句推匯出來的。

那麼,AI表現如何呢?普利策獎應該是拿不了的。

等不到結尾?沒關係,AI來填坑了

儘管這個模型在DIST中表現得非常好,並且在Story-Cloze測試中達到了72%的準確率,但它偶爾還是會產生一些不合理的結局,比如“Katie被他自己震驚了,並拋棄了她的男朋友”,或者引用一些與名詞詞性不符的代詞(Katie為女名,與himself矛盾)。

研究者們承認,想要確保輸出結果“保持故事語境中的語義學和一定水準”,並且在邏輯上合理一致,還需要更進一步的深入研究。儘管如此,他們也還是堅持認為他們已經從“定量”和“定性”兩個角度來表明,他們的模型能夠在基線水平上實現“重大的”改進。