AI學會了用“人眼”看世界，甚至連人類瞳孔的細微縮放都能模擬

博雯發自凹非寺

量子位 | 公眾號 QbitAI

為了搞清楚人類是怎麼看世界的，計算機開始學著“轉動眼球”了：

然後憑藉轉動的眼球“蒐集要觀測的資訊”，再聚焦在文字或者影象上，開始“收集資料”：

不僅能正常讀書看畫，甚至能模擬人類在無聊、興奮、緊張等各種不同情緒下的瞳孔放縮、眨眼頻率的細微變化。

事實上，這是

杜克大學

的研究人員最新開發的一種“虛擬眼睛”，可以精確模擬人類觀測世界的方式。

這項研究目前已經開源，並即將發表於通訊類頂會IPSN 2022上。

透過這項研究得到的幾近真實的資料，將全部反哺給計算機。

這些資料有什麼用？

這種基於眼球追蹤（Eye Tracking）技術得到的資料常常被稱為

眼動資料

，包括注視時長、眼跳、追隨運動等多個屬性。

就如我們常常將眼睛成為心靈之窗一樣，這些眼動資料能反映不少人類的真實資訊。

比如，瞳孔的擴張、眼跳、遊移次數可以表現當前主人的情緒（無聊或興奮）、注意力是否集中、對某項任務是新手或嫻熟、甚至是對某種特定語言的精通與否。

這項研究的作者之一Maria Gorlatova甚至表示：

（眼動資料）可能無意中暴露出性別和種族偏見、我們不想讓別人知道的興趣，甚至我們自己都不瞭解的資訊。

因此，對這些眼動資料的學習和研究，自然也就能產生一系列感測應用：包括認知負荷估計、久坐活動識別、閱讀理解分析和情感識別。

很多企業和開發者，比如微軟的VIVE Pro Eye，已經開始採用眼球追蹤來實現基於目光的新的互動和環境感知。

然而，在收集大規模的、有標籤的眼動資料時，難免會碰到幾個問題：

人類視覺行為的隨機性增加了資料收集的成本

與人類受試者合作過程中可能涉及隱私侵犯問題

生產模型訓練所需的資料的時間成本過高（可能需要數以百計的人帶著裝置不間斷地用眼數小時才能產生）

虛擬眼睛收集資料

如何解決上面的問題呢？杜克大學的研究團隊提出了一套受心理學啟發的模型

EyeSyn

。

這一模型只利用公開的影象和影片，就能合成任意規模大小的眼動資料集。

它的整體架構如下：

整體思路是以影象和影片作為輸入，並將其作為視覺刺激，以生成相應的眼動資料。

大的架構又由三個小模型組成：

ReadGaze模型

模擬

文字閱讀

中的視覺行為。

擁有一個基於文字識別的檢測模組、一個模擬跳讀視覺行為的模擬器。

VerbalGaze模型

模擬在

口頭交流

中固定在面部某個區域、以及在面部不同區域之間切換注意力的視覺行為。

擁有一個面部區域跟蹤模組、一個基於馬爾可夫鏈的注意力模型（Markov Chain-based Attention Model）。

StaticScene和DynamicScene模型

模擬感知

靜態和動態場景

過程中的眼球運動。

擁有一個基於影象特徵的顯著性檢測（Saliency Detection）模型，用以識別視覺場景中潛在的定點位置。

△動態場景中的眼動資料

基於這些構成，EyeSyn

不需要

基於已有的眼動資料進行訓練，上崗就能直接開始工作。

並且，與傳統眼動資料的收集過程相比，EyeSyn在模擬不同的眼動跟蹤設定、視覺距離、視覺刺激的渲染尺寸、取樣頻率和受試者多樣性上，也更加方便快速。

現在，只基於一小部分影象和影片，EyeSyn就可以合成

超過180小時

的眼動資料，比現有的基於目光的活動資料集大

18到45

倍：

研究人員Maria Gorlatova表示， “合成數據本身並不完美，但這是一個很好的起點。”

小公司不用再花費過多的時間和金錢與人類受試者合作，建立真實活動資料集，而是可以直接使用這種方法。

這種更加快速的眼動資料的生產方式，將使得普通的VR、AR、還有元宇宙平臺中的相關應用程式的製作都更加便捷。

△Maria Gorlatova

論文：

https：//www。researchgate。net/publication/359050928_EyeSyn_Psychology-inspired_Eye_Movement_Synthesis_for_Gaze-based_Activity_Recognition

開源連結：

https：//github。com/EyeSyn/EyeSynResource

參考連結：

https：//techxplore。com/news/2022-03-simulated-human-eye-movement-aims。html

AI學會了用“人眼”看世界，甚至連人類瞳孔的細微縮放都能模擬

相關文章