某內(nèi)網(wǎng)項目需要測試spark和mongodb聯(lián)調(diào),因為不能連接外網(wǎng),所以下載好了相應的jar包扔進去了。
官網(wǎng)給出的事例代碼如下:
./bin/pyspark --conf
"spark.mongodb.input.uri=mongodb://127.0.0.1/test.myCollection?readPreference=primaryPreferred"
\ --conf "spark.mongodb.output.uri=mongodb://127.0.0.1/test.myCollection" \
--packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.0
其中--packages參數(shù)后面指定的jar包會自動從maven包中心下載,對于無法連接互聯(lián)網(wǎng)的機器,會提示錯誤。
其實,答案很簡單,只需要在后面跟上--jars參數(shù)就好:
./pyspark --conf "spark.mongodb.input.uri=..." --conf
"spark.mongodb.output.uri=..." --jars "/path/to/local/xxx.jar"
后面的路徑建議使用絕對路徑,以防手誤。
熱門工具 換一換