1.背景介紹
流式計算一個很常見的場景是基于事件時間進(jìn)行處理,常用于檢測、監(jiān)控、根據(jù)時間進(jìn)行統(tǒng)計等系統(tǒng)中。比如埋點日志中每條日志記錄了埋點處操作的時間,或者業(yè)務(wù)系統(tǒng)中記錄了用戶操作時間,用于統(tǒng)計各種操作處理的頻率等,或者根據(jù)規(guī)則匹配,進(jìn)行異常行為檢測或監(jiān)控系統(tǒng)告警。這樣的時間數(shù)據(jù)都會包含在事件數(shù)據(jù)中,需要提取時間字段并根據(jù)一定的時間范圍進(jìn)行統(tǒng)計或者規(guī)則匹配等。
使用Spark Streaming SQL可以很方便的對事件數(shù)據(jù)中的時間字段進(jìn)行處理,同時Spark Streaming
SQL提供的時間窗口函數(shù)可以將事件時間按照一定的時間區(qū)間對數(shù)據(jù)進(jìn)行統(tǒng)計操作。
本文通過講解一個統(tǒng)計用戶在過去5秒鐘內(nèi)點擊網(wǎng)頁次數(shù)的案例,介紹如何使用Spark Streaming SQL對事件時間進(jìn)行操作。
2.時間窗語法說明
Spark Streaming SQ
熱門工具 換一換