讀取csv文件
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext()
sqlsc = SQLContext(sc)
df = sqlsc.read.format('csv')\
.option('delimiter', '\t')\
.load('/path/to/file.csv')\
.toDF('col1', 'col2', 'col3')
寫入csv文件
df.write.format('csv')\
.option('header','true')\
.save('/path/to/file1.csv')
option支持參數(shù)
-
path
: csv文件的路徑谦疾。支持通配符;
-
header
: csv文件的header刻两。默認(rèn)值是false;
-
delimiter
: 分隔符庭惜。默認(rèn)值是','
;
-
quote
: 引號拯腮。默認(rèn)值是""
;
-
mode
: 解析的模式盹沈。支持的選項(xiàng)有:
- PERMISSIVE: nulls are inserted for missing tokens and extra tokens are ignored.
- DROPMALFORMED: drops lines which have fewer or more tokens than expected.
- FAILFAST: aborts with a RuntimeException if encounters any malformed line.
reference
- pyspark 讀取csv文件創(chuàng)建DataFrame
- Pyspark讀取csv文件
- 使用Spark讀寫CSV格式文件
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者