![240](https://upload.jianshu.io/users/upload_avatars/4209226/5a2d06e6-668b-4c97-b8cb-987bad1d5136.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP屬地:廣東
需求:spark 可以直接使用 textFile 讀取 HDFS,但是不能判斷 hdfs 文件是否存在,不過 pyspark 可以調(diào)用 java...
需求:一次插入多條,獲取每條記錄的自增 ID 注意:獲取 ID 必須在 commit 之前,否則獲取為 0
需求:服務(wù)器近幾日多次因為運存不足導(dǎo)致重啟族壳,找到相應(yīng)程序運行地址
使用隊列資源拷貝 HDFS 文件:
HDFS 若有子目錄,Spark 是不能遞歸讀取子目錄趣些,需要在 spark-submit 中配置以下參數(shù):
需求:遍歷字典時仿荆,刪除某個 key 正常情況下是不能直接刪除的,需要借助其他方式: 優(yōu)化后:
需求:有數(shù)據(jù) urls、data_list拢操,現(xiàn)在需要根據(jù) urls 的順序來排序锦亦,最終輸出的結(jié)果 html_list、url_list 是相對應(yīng)...
es_client.indices.refresh(index=index_name)令境,若不指定 index會導(dǎo)致全局刷新
es.resource 可配置為: ES 別名 單個索引名/doc_type 索引1,索引2,索引3