大資料在食品安全中的應用

大資料

摘要:

時至今日,科學技術的發展能夠處理大量不同來源的結構化和非結構化資料。這些技術常常被稱作大資料,其開啟了新的研究和應用領域,也將會對當今社會逐漸產生影響力。本文評價了應用在食品安全領域的大資料及其潛在發展趨勢。在世界的各個地方,各國政府激勵源於公共資助研究專案的網際網路大資料發表。對於企業利益相關者如何處理食品安全和提出問題,這項政策迎來了新的發展機遇,這在以前是根本無法實現的。由於大資料新的發展,應用手機作為食品安全檢測裝置和利用社交媒體為食品安全問題預警也將成為可能。

一、引言

在全球化程序的影響下,社會企業產生大量的資料,這些資料包括商業,政府,健康保健和各研究學科,比如天然科學、生命科學、工程學、人類學和社會科學。這些大資料越來越可利用化,可以被用來開拓視野,提高決策,並且提高產品和服務的質量。但是,大資料的聚集和加速產生,需要相關資料的有效收集、儲存和處理來戰勝挑戰。大資料的應用趨於多元化,比如來源於亞馬遜網站的推薦系統,可以實時預測流感的爆發。另外還有一些文章研究了大資料潛在的應用。

“大資料”一詞很少應用在食品安全相關領域,主要是因為食品安全資料和資訊過於分散,主要集中於食品、健康和農業企業。食品安全領域大資料的應用需要內部操作標準的建立和實施,以及保密性保護。傳統食品安全資料,例如全國調控資料,數量相對有限,雖然在區域之間不能達到和諧,但是具有很好的結構化。為了考察大資料方法如何能夠有利於食品安全,本文作者分析了食品安全工具的應用,發展於不同階段的大資料研究(例如資料收集、資料儲存和轉移、資料分析和資料視覺化)。此外,作者分析了某些大資料在食品安全中是否以及如何扮演重要的作用,同時提供了一些範例來探討未來的發展和機會。

二、大資料的定義

關於大資料的的定義有很多種。世界衛生組織使用的定義是:新興應用的快速收集的、複雜的資料,這些資料以不可定量的兆位元組,拍位元組,甚至澤位元組的儲存形式存在。Gartner教授在2012年描述了對於大資料的資料管理挑戰,具有三維特性:大資料具有高容量、高速和高多樣性資訊組,同時需要新的處理形式來提高決策,發掘觀點和過程最佳化。歐委會於2014年釋出了相似的定義:3V,即容量、速度和多樣性。大資料指以高速產生的大量的不同位元組的資料,其具有大量不同的位元組來源。處理今天的大量和實時的資料組需要新的工具和方法,例如強有力的處理器、軟體和運演算法則。2015年,De Mauro教授提出大家一致同意的定義:大資料代表具有高容量,高速和多樣性三大特性的資訊組,同時需要透過特殊的技術和分析方法來使其轉換為價值所在。

三、食品安全中大資料應用

最近世界衛生組織提出採用大資料方法來支援食品安全中面臨的決策問題,產生了一個食品安全平臺“FOSCOLLAB”,對來源於不同的學科進行整合。在這個平臺中,來源於多個企業中的結構化和非結構化資料,例如農業、食品、公共衛生和經濟指數被整合,透過專用設施,能夠被使用者所應用。

(一)食品安全的資料收集

透過包含和產生食品安全有效資訊,來區別不同型別來源,例如(線上)資料庫、網際網路、組學分析、手機和社交媒體。

1。 線上資料庫

為了監測食品中有害成分的資料,產生了許多資料庫。世界衛生組織於2015年釋出的全球環境監測系統資料庫包含數以萬計的全球監測資料入口。考慮到其入口相對數量多,因此資料以一種邏輯化方式所結構化,並且容易獲取。關於化學試劑性質資訊,微生物生長條件和天氣報告,在食品安全研究中佔有重要地位。也可以使用模型來預測某些有害成分的存在,比如小麥中的真菌毒素。這些天氣狀況報告包含許多高速產生的資料,這些資料被收集在農業和供應鏈。不僅結構化資料庫會收集食品安全事件,而且也可以透過國際食品安全權威機構的網站和媒體報道來檢視。而後者的資料來源是非結構化的,並且分散在網路中,很難獲取。一個相似的例子是食品汙染物突發事件的登記(透過疾控中心)。這些事件也可以在網路和社交媒體中找到。

2。 網際網路

因為網際網路包含大量的資訊來源,可以透過開發網際網路來輔助風險經理人和風險技術顧問應對食品安全問題。開發網路資訊採集系統用於在網際網路上查詢與食品安全相關的論文報告。這種系統的一個典型例子是MedISys,它屬於歐委會聯合研究中心開發的歐洲媒體監測系統。

大資料在食品安全中的應用

3。 線上功能基因組學資料目錄

“組學”一詞覆蓋許多學科,包括基因組學(研究核苷酸變異對基因的影響)、轉錄組學(mRNA表達)、代謝組學(代謝物水平)和蛋白組學(多肽和蛋白質水平)。為化學安全所開發的基於毒理基因組學的預測實驗的主要方法,尤其是為了達到鑑定危險物的目的,包含大規模的基因組學資料庫,這些資料庫採集於細胞或動物的有毒物質的暴露。毒理基因組學的目的是闡明有毒物質表達的分子機制和分子表達型別(比如分子生物標記),同時能夠使用“基於動物”和體外(細胞)模型來預測體外和體內毒性。

4。 手機

使用手機變得越來越廣泛,新的應用快速發展,包括食品安全和健康相關的應用。報道顯示聯合使用智慧手機和行動式裝置可以監測 (1)水質中汞汙染,(2)啤酒中赭麴黴毒素A汙染,(3)食品中多種過敏原汙染,以及(4)水質和食品中微生物(大腸桿菌)汙染。在手機上收集得到的資料不僅可以透過無線連線個人計算機,而且能夠轉移到資料雲或其他資料中心。

(二)資料儲存和轉移

通常來講,透過資料管理系統能夠達到資料儲存,例如MySQL, Oracle和PostgreSQL。但是,這些系統不足以用來支援大資料處理。對於大資料而言,需要由比傳統系統所能提供的更快的速度、更好的機動性和可實現性。因此,下一代資料庫會發展非關聯的,開放源模式和水平可伸縮性,也就是NoSQL。這些系統很好例子有MongoDB, Cassandra和HBase等等。

(三)資料分析

在NoSQL中,隨著資料儲存和轉移到處理單元之後,接下來就是資料分析。使用最廣泛的大資料分析方法分為以下兩大類::(1)推薦系統;(2)機器學習。

(四)視覺化

不同的視覺化工具用來分析和總結大資料,這些工具有利有弊。最常見的是R和Cicos。 R,這是一種透過使用在資料中的開放源程式語言,來視覺化和分析資料的工具,並提供圖功能和網路圖功能。Circos允許在迴圈佈局中視覺化資料,同時開發目標物和位置之間的關係。該軟體成為了視覺化染色體的標準。對於商業視覺化軟體而言,不需要程式設計技能,IBM公司開發的線上視覺化處理工具 Many Eyes和Tableau都是很好的選擇。

四、食品安全大資料例項

(一)農業鏈和食品供應鏈

在農業鏈,大資料可以透過有關環境因素的連結資訊來預測病原體或汙染物存在。例如,透過監測田間作物條件,可以達到在進入食品鏈之前,鑑定黃麴黴毒素汙染增加的面積。在另一研究中,研究者以歐洲西北部的小麥為物件,透過使用大量的模型和資料庫(包括天氣資料),開發出定量模型,從而預測小麥真菌毒素的汙染。

(二)突發事件和來源鑑定

在食品安全性突發事件產生過程中,大量的樣品被收集和分析,產生大量的資料和資訊,這些資料和資訊被用來鑑定突發事件的來源。快速篩選病原體基因技術(全集因序列和下代序列)的發展,導致專一基因資訊的收集和病原株或亞型的出現。例如,2011年,在德國發生的病原體“腸出血性大腸桿菌”事件,在不同面積,細菌存在的資訊被收集到。健康個體的家能夠用來篩選庇護病原體,透過監測每個家庭來篩選二級感染。在初級階段,這些監測資訊幫助檢測問題,允許及時地提供防護性措施,最終阻止突發事件的發生。

大資料在食品安全中的應用

(三)鑑定突發事件採用可選擇性資料來源

除了基因資訊,其他因素也用來建立汙染來源。2011年,Gardy教授等學者從肺結核突發事件中得出結論:基因型別和單獨聯絡溯源不能夠確切地獲取突發事件的真正動力學。作者採用社會環境資訊與全基因序列結合,來檢測突發事件爆發的來源和原因。雖然資料樣本不足夠大,但是透過應用社會網路,資料的多樣性大大增加。

五、食品安全大資料的未來

在歐洲,歐委會發布了一項大資料策略,用來支援資料驅使化的經濟發展。他們支援開放式資料獲取,例如,免費線上獲取歐盟資助專案的研究結果,包括科學論文和研究資料。這些歐盟資助專案包含 (1)發展中國家的作物監測,(2)全部產品生命週期監測,(3)提高產品開發過程的效率和質量。並且歐洲各國政府,例如荷蘭政府激勵公共-私人專案來開發大資料潛力。在美國,奧巴馬政府釋出了“大資料研究和開發倡議”,以便更大程度的提高可獲取,組織和收集發現大量數字資料的工具和技術。這項倡議增加了政府支援,加速了聯邦機構從大量複雜資料中提取有效資料的能力。同時也鼓勵私營公司、學術機構、當地政府和基金之間關於新大資料專案的合作,比如2013年釋出的“資料-知識-行動”專案。

六、結論

在全球範圍內,隨著大量資料的產生,這些資料與食品安全直接或者間接關聯。當前,在食品安全大資料領域,只開發出有限數量的方法。源於網際網路,從公共資助研究專案中獲得資料的發展趨勢,對處理食品安全的利益相關者來說,開啟了新的機遇。尤其是在食品安全監測中,手機、高階溯源系統和社交媒體的使用,需要比以前具有更多大資料特點的工具和基礎設施。

(原文於2017年發表於Critical Review of Food Science andNutrition。

Marvin HJ,Janssen EM, Bouzembrak Y, Hendriksen PJ, Staats M。 Big data in food safety: Anoverview。 Crit Rev Food Sci Nutr。 2017, 57(11): 2286-2295。 )

(原文作者: Hans J。 P。 Marvin 博士,荷蘭瓦格尼根大學)

(翻譯:杜彬,華盛頓州立大學與愛達荷大學聯合食品學院博士後,研究方向:食品碳水化合物)