標(biāo)簽(空格分隔): Spark
[toc]
前言
Spark SQL的介紹只包含官方文檔的Getting Started、DataSource、Performance Tuning和Distributed
SQL Engine部分。不含其他的遷移和PySpark等部分。
Spark SQL介紹
Spark SQL是一個Spark模塊用于結(jié)構(gòu)化數(shù)據(jù)處理。與基本的Spark RDD API不同,Spark
SQL提供的接口為Spark提供了有關(guān)數(shù)據(jù)結(jié)構(gòu)和正在執(zhí)行的計算的更多信息。 在內(nèi)部,Spark SQL使用此額外信息來執(zhí)行額外的優(yōu)化。 有幾種與Spark
SQL交互的方法,包括SQL和Dataset API。 在使用相同的執(zhí)行引擎計算結(jié)果時,與使用表達(dá)計算的API或者語言無關(guān)。
這種統(tǒng)一意味著開發(fā)人員可以輕松地在不同的API之間來回切換,從
熱門工具 換一換