科普系列:心電圖?股價?氣溫圖?什麼是真正的時間序列資料?
編輯
曾幾何時,是關係型資料,一統天下。
但這個局面被打破了。
時間序列資料,也稱為時間戳資料,是按時間順序索引的資料點序列。
這些資料點通常由同一來源在固定時間間隔內進行的連續測量組成,用於跟蹤隨時間的變化。
時間序列資料是透過隨時間重複測量獲得的觀察結果的集合。在圖表上繪製點,您的軸之一始終是時間。
時間序列指標是指以時間增量跟蹤的一段資料。例如,一個指標可以指從一天到下一天在商店中售出多少庫存。
時間序列資料無處不在,因為時間是所有可觀察事物的組成部分。隨著我們的世界越來越儀器化,感測器和系統不斷地發出無情的時間序列資料流。此類資料在各個行業都有大量應用。讓我們透過一些例子來說明這一點。
時間序列分析示例:
大腦中的電活動
降雨量測量
股票價格
太陽黑子數量
年零售額
每月訂閱者
每分鐘心跳數
什麼是時間序列圖?
時間序列圖只是一個軸(通常是 Y)上的時間序列資料與另一軸(通常是 X)上的時間的簡單圖。時間序列資料點的圖表通常可以以更易於訪問、更直觀的方式說明趨勢或模式。
什麼是時間圖統計?
時間序列圖是一個圖表,其中 x 軸表示某種時間度量。事實上,x 軸被標記為時間軸。y 軸代表被測量的變數。在大多數情況下,資料點以直線顯示並連線,從而可以解釋結果圖。
時間序列示例
天氣記錄、經濟指標和患者健康演變指標——都是時間序列資料。時間序列資料也可以是伺服器指標、應用程式效能監控、網路資料、感測器資料、事件、點選和許多其他型別的分析資料。
請注意時間(下圖底部所示)軸。
示例 1:天氣條件
在下面的下一張圖表中,將時間作為衡量股票價格變化的軸。在投資中,時間序列跟蹤資料點的移動,例如特定時間段內的證券價格,並定期記錄資料點。這可以在短期(例如證券在一個工作日內的每小時價格)或長期(例如證券在五年內每個月的最後一天收盤時的價格)進行跟蹤)。
編輯
示例 2:證券交易所
編輯
示例 3:叢集監控
下面的叢集監控示例描述了磁碟操作寫入和使用資料,對於網路運營中心團隊來說應該很熟悉。請記住,監控資料是時間序列資料。
編輯
另一個熟悉的時間序列資料示例是患者健康監測,例如心電圖 (ECG),它監測心臟活動以顯示其是否正常工作。
示例 4:健康監控
編輯
編輯
示例 5:日誌
跟蹤(應用程式在執行期間執行的子例程呼叫的列表)也是時間序列資料。在下面的跟蹤圖中的彩色條帶上,您可以看到時間序列資料的示例。跟蹤的目標是跟蹤程式的流程和資料程序。跟蹤包括一個廣泛的、連續的應用程式檢視,以查詢程式或應用程式中的錯誤。
編輯
示例 6:跟蹤
上面的示例包含兩種不同型別的時間序列資料,如下所述。
編輯
時間序列資料的型別
時間序列資料可以分為兩類:1。
定期收集的測量值(指標)2。
以不規則的時間間隔(事件)收集的測量值。
編輯
在上面的“時間序列資料示例”部分:
示例 3(叢集監控)和 4(健康監控)描述了
指標
。
示例 5(日誌)和示例 6(跟蹤)描述了
事件
。
線性與非線性時間序列資料
線性時間序列是這樣一種,對於每個資料點 X
t
,該資料點可以被視為過去或未來值或差異的線性組合。非線性時間序列由非線性動態方程生成。它們具有無法透過線性過程建模的特徵:時變方差、不對稱迴圈、高矩結構、閾值和中斷。以下是處理線性和非線性時間序列資料時的一些重要注意事項:
如果迴歸方程不遵循線性模型的規則,那麼它一定是非線性模型。
非線性迴歸可以擬合各種各樣的曲線。
這兩種模型的定義特徵是功能形式。
時間序列資料
的獨特之處在於它具有自然的時間順序:觀察資料的順序很重要。
時間序列資料與常規資料的主要區別在於,隨著時間的推移,您總是會提出有關它的問題。
確定您正在使用的資料集是否是時間序列的一種通常簡單的方法是檢視您的一個軸是否是時間。
時間序列注意事項
不變性
——由於時間序列資料按時間順序出現,它幾乎總是記錄在一個新條目中,因此,應該是不可變的並且只能附加(附加到現有資料中)。它通常不會改變,而是按照事件發生的順序進行。此屬性將時間序列資料與通常是可變的並存儲在進行線上事務處理的關係資料庫中的關係資料區分開來,其中資料庫中的行隨著事務的執行而更新,並且或多或少是隨機的;例如,為現有客戶下訂單,更新客戶表以新增購買的商品,並更新庫存表以顯示它們不再可供銷售。
時間序列資料是有序的這一事實使其在資料空間中是獨一無二的,因為它經常顯示出序列依賴性。當一個數據點的值在統計上依賴於另一個時間的另一個數據點時,就會發生序列依賴(有關此主題的詳細說明,請閱讀“
時間序列資料中的自相關”)。
儘管沒有時間之外的事件存在,但有些事件與時間無關。時間序列資料不僅僅是關於按時間順序發生的事情——它是關於當你將時間新增為軸時價值增加的事件。時間序列資料有時以高粒度存在,頻率可達微秒甚至納秒。使用
時間序列資料
,隨時間變化就是一切。
不同形式的時間序列資料
——時間序列資料並不總是數字——它可以是 int64、float64、bool 或 string。
要確定您的資料是否為時間序列資料,請確定您需要什麼來確定資料集中的唯一記錄。
如果您只需要一個時間戳,那麼它可能是時間序列資料。
如果您需要時間戳以外的其他內容,則可能是橫截面資料。
如果您需要時間戳加上其他內容,例如 ID,則可能是面板資料。
回顧一下這三種資料型別的定義(以及它們之間的區別),上述含義變得更加清晰:
時間序列資料定義
時間序列資料是單個主題
(實體)在
不同時間
間隔
(通常在度量的情況下等間距,或在事件的情況下不等間距)的
觀察
(行為) 的集合 。
例如:在每年的第一天(多個時間間隔)收集的紐約市(單個實體)的最高溫度、溼度和風(所有三種行為)
時間作為軸的相關性使得時間序列資料有別於其他型別的資料。
橫截面資料定義
橫截面資料是
多個主體
(實體,例如不同的個人或群體)在
單個時間點的
觀察
(行為) 集合。
例如:2015 年 1 月 1 日紐約市、舊金山市、波士頓、芝加哥(多個實體)的最高溫度、溼度和風(所有三種行為)(單例項)
在橫斷面研究中,觀察結果沒有自然的順序(例如,透過參考他們各自的教育水平來解釋人們的工資,個人資料可以按任何順序輸入)。
例如:一組 50 只股票在給定時間的收盤價,給定產品在特定商店的庫存庫存,以及一組學生在給定考試中獲得的成績列表。
面板資料(縱向資料)定義
面板資料通常被稱為橫截面時間序列資料,因為它是上述型別的組合(即
在多個例項中收集多個物件的觀察結果
)。
面板資料或縱向資料是涉及隨時間變化的測量的多維
資料。
面板資料包含對同一公司或個人在多個時間段內獲得的多種現象的觀察。使用面板資料的研究稱為縱向研究或面板研究。
例如:每年第一天(多個時間間隔)在紐約市、舊金山市、波士頓、芝加哥(多個實體)的最高溫度、溼度和風(所有三種行為)。
三種資料型別的區別
基於上面的定義和例子,讓我們回顧一下這三種資料型別之間的區別:
1.時間序列
是一段時間內對單個實體的
一組觀察結果——例如,單個金融證券一年內的每日收盤價,或在一小時過程中每分鐘測量的單個患者心率。
2.橫截面
是在同一時間對多個實體進行的
一組觀察——例如,每家標準普爾 500 指數公司今天的收盤價,或 100 名患者在同一程式開始時的心率。
3。如果您的資料是按兩個維度組織的——例如,500 家公司一年內的每日收盤價——那麼您就有
面板
資料。
時間序列資料被收集、儲存、視覺化和分析,用於 不同領域的各種目的:
在資料探勘、模式識別和機器學習中,時間序列分析用於聚類、分類、按內容查詢、異常檢測和預測。
在訊號處理、控制工程和通訊工程中,時間序列資料用於訊號檢測和估計。
在統計學、計量經濟學、定量金融學、地震學、氣象學和地球物理學中,時間序列分析用於預測。
時間序列資料可以
在不同型別的圖表中視覺化,
以促進洞察力提取、趨勢分析和異常檢測。時間序列視覺化和儀表板工具包括 InfluxDB UI 和 Grafana。
術語“時間序列模式”描述了序列中的長期變化。無論是作為趨勢、季節性還是迴圈模式來衡量,相關性都可以透過多種方式(線性、指數等)計算,並且方向可能在任何給定時間發生變化。
時間序列資料用於時間序列分析(歷史或實時)和時間序列預測,以檢測和預測模式——本質上是觀察隨時間的變化。以下是每個的簡要概述。
時間序列分析方法
時間序列分析是一種分析一段時間內收集的一系列資料點的方法。在時間序列分析中,資料點在設定的時間段內定期記錄,而不是間歇性或隨機記錄。
時間序列分析是使用統計方法來分析時間序列資料並提取有關資料的有意義的統計資料和特徵。TSA 有助於識別趨勢、週期和季節性變化,以幫助預測未來事件。與 TSA 相關的因素包括平穩性、季節性和自相關。
時間序列分析有助於檢視給定變數如何隨時間變化(而時間本身,在時間序列資料中,通常是自變數)。時間序列分析還可用於檢查與所選資料點相關的變化與同一時間段內其他變數的變化相比如何。
瞭解有關
時間序列分析方法
的更多資訊,包括譜分析、小波分析、自相關和互相關。
時間序列預測方法
時間序列預測使用有關歷史值和相關模式的資訊來預測未來活動。
時間序列預測方法包括:
趨勢分析
週期性波動分析
季節性模式分析
與所有預測方法一樣,不能保證成功。機器學習通常用於此目的。它的經典前身也是如此:
誤差、趨勢、季節性預測 (ETS)、自迴歸綜合移動平均線 (ARIMA) 和 Holt-Winters
。
為了提前“看到事情”,時間序列建模(一種基於時間序列資料的預測方法)涉及處理基於時間的資料(年、日、小時、分鐘),以獲取為決策制定提供資訊的潛在見解。當您=擁有序列相關的資料時,時間序列模型是非常有用的模型。
大多數企業使用時間序列資料來分析明年的銷售預測、網站流量、競爭定位等等。
瞭解有關
時間序列預測方法
的更多資訊,包括分解模型、基於平滑的模型以及包括季節性在內的模型。
時間序列資料通常被大量攝取,需要
專門構建的資料庫
來處理其規模。使時間序列資料與其他資料工作負載非常不同的屬性是資料生命週期管理、彙總和對許多記錄的大範圍掃描。這就是為什麼時間序列資料最好儲存在 專門為處理帶時間戳的度量和事件或測量而構建的
時間序列資料庫中的原因。
最後,再補充兩個問題:
什麼是時間序列統計?
時間序列統計是指從
時間序列模型
中提取的資料。這些資訊必須定期記錄,並且可以與橫截面資料相結合以得出相關預測。
什麼是時間圖統計?
時間圖統計是指一個系列在特定時間間隔內的演變。它通常在分析開始時使用,以快速解釋從趨勢到異常的任何事情。
(完)
親愛的資料
編輯