前言
Spark是非常流行的大數(shù)據(jù)處理引擎,數(shù)據(jù)科學(xué)家們使用Spark以及相關(guān)生態(tài)的大數(shù)據(jù)套件完成了大量又豐富場(chǎng)景的數(shù)據(jù)分析與挖掘。Spark目前已經(jīng)逐漸成為了業(yè)界在數(shù)據(jù)處理領(lǐng)域的行業(yè)標(biāo)準(zhǔn)。但是Spark本身的設(shè)計(jì)更偏向使用靜態(tài)的資源管理,雖然Spark也支持了類(lèi)似Yarn等動(dòng)態(tài)的資源管理器,但是這些資源管理并不是面向動(dòng)態(tài)的云基礎(chǔ)設(shè)施而設(shè)計(jì)的,在速度、成本、效率等領(lǐng)域缺乏解決方案。隨著Kubernetes的快速發(fā)展,數(shù)據(jù)科學(xué)家們開(kāi)始考慮是否可以用Kubernetes的彈性與面向云原生等特點(diǎn)與Spark進(jìn)行結(jié)合。在Spark
2.3中,Resource
Manager中添加了Kubernetes原生的支持,而本系列我們會(huì)給大家介紹如何用更Kubernetes的方式在集群中使用Spark進(jìn)行數(shù)據(jù)分析。本系列不需要開(kāi)發(fā)者有豐富的Spark
熱門(mén)工具 換一換
