今天來和大家聊一下如何使用Spark SQL進行流式數(shù)據(jù)的機器學(xué)習(xí)處理。本文主要分為以下幾個章節(jié):
* 什么是流式機器學(xué)習(xí)
* 機器學(xué)習(xí)模型獲取途徑
* 系統(tǒng)演示
1. 什么是流式機器學(xué)習(xí)
通常,當我們聽到有人提到實時數(shù)據(jù)機器學(xué)習(xí)時,其實他們是討論:
* 他們希望有一個模型,這個模型利用最近歷史信息來進行預(yù)測分析。舉一個天氣的例子,如果最近幾天都是晴天,那么未來幾天極小概率會出現(xiàn)雨雪和低溫天氣
* 這個模型還需要是可更新的。當數(shù)據(jù)流經(jīng)系統(tǒng)時,模型是可以隨之進化升級。舉個例子,隨著業(yè)務(wù)規(guī)模的擴大,我們希望零售銷售模型仍然保持準確。
第一個例子我們可以將它歸為時序預(yù)測。第二個例子中,模型需要更新或者重新訓(xùn)練,這是一個non-stationarity問題。時序預(yù)測和non-stationarity數(shù)據(jù)分布是兩類不同的問題。本文主要關(guān)注第二類問題,對于這類問題,一般的解決方
熱門工具 換一換