中文文檔 pyspark.sql.DataFrameStatFunctions

DataFrame的統(tǒng)計(jì)函數(shù)的功能刻剥。

8.1 corr(col1, col2, method=None)

以雙精度值計(jì)算DataFrame的兩列的相關(guān)性滩字。目前只支持personal相關(guān)系數(shù). DataFrame.corr() and DataFrameStatFunctions.corr() 互為別名御吞。

參數(shù):●?col1?– 第一列的名稱

????????????●col2?– 第二列的名稱

????????????●method?– 相關(guān)方法,目前只支持 personal相關(guān)系數(shù)

8.2 cov(col1, col2)

計(jì)算給定列的樣本協(xié)方差(由它們的名稱指定)作為雙精度值漓藕。DataFrame.cov() and DataFrameStatFunctions.cov() 互為別名。

參數(shù):●?col1?– 第一列的名稱

? ? ? ? ? ?●?col2?– 第二列的名稱

8.3 crosstab(col1, col2)

計(jì)算給定列的成對(duì)頻率表. 每列的去重后不同值的數(shù)量應(yīng)小于1e4. 最多1e6非零對(duì)頻率將被返回. 每行的第一列將是col1的不同值揍诽,列名將是col2的不同值.第一列的名稱應(yīng)該為$col1_$col2. 沒(méi)有出現(xiàn)的對(duì)數(shù)將為零. DataFrame.crosstab() and DataFrameStatFunctions.crosstab() 互為別名

參數(shù):●?col1?– 第一列的名稱. 去重項(xiàng)將成為每一行的第一項(xiàng)栗竖。

? ? ? ? ? ?●?col2?– 第二列的名稱. 去重項(xiàng)將成為DataFrame的列名稱。

In [411]: df.crosstab('name','age').show()

+--------+---+---+

|name_age|? 2|? 5|

+--------+---+---+

|? ? Bob|? 0|? 1|

|? Alice|? 1|? 0|

+--------+---+---+

8.4 freqItems(cols, support=None)

找到列的頻繁項(xiàng)狐肢,可能有誤差。 DataFrame.freqItems() and DataFrameStatFunctions.freqItems()等價(jià).

此功能用于探索性數(shù)據(jù)分析碟联,不保證所生成的DataFrame的模式的向后兼容性僵腺。

參數(shù):●?cols?– 用于計(jì)算頻繁項(xiàng)的列的名稱,為字符串的列表或元組想邦。

? ? ? ? ? ?●?support?–“頻繁”項(xiàng)目的頻率。 默認(rèn)值是1%,必須大于1e-4鹰椒。

In [413]: df.freqItems(['name','age']).show()

+--------------+-------------+

|name_freqItems|age_freqItems|

+--------------+-------------+

|? [Bob, Alice]|? ? ? [2, 5]|

+--------------+-------------+

In [414]: df.show()

+-----+---+------+

| name|age|height|

+-----+---+------+

|Alice|? 2|? ? 80|

|? Bob|? 5|? null|

+-----+---+------+

8.5 sampleBy(col, fractions, seed=None)

根據(jù)每層上給出的分?jǐn)?shù)返回一個(gè)沒(méi)有更換的分層樣本呕童。

參數(shù):●?col?– 定義分層的列

? ? ? ? ? ?●?fractions?– 每層的抽樣比例,如果沒(méi)有指定層夺饲,我們將其分?jǐn)?shù)視為零。

? ? ? ? ? ?●?seed?– 隨機(jī)值

返回: 一個(gè)代表分層樣本的新DataFrame

In [416]: from pyspark.sql.functions import col

? ? ...: data = sqlContext.range(0, 100).select((col("id") % 4).alias("key"))

? ? ...: sampled = data.sampleBy("key", fractions={0: 0.1, 1: 0.2},seed=0)

? ? ...: sampled.groupBy("key").count().orderBy("key").show()

+---+-----+

|key|count|

+---+-----+

|? 0|? ? 2|

|? 1|? ? 7|

+---+-----+

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末擂找,一起剝皮案震驚了整個(gè)濱河市浩销,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌慢洋,老刑警劉巖陆盘,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件隘马,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡酸员,警方通過(guò)查閱死者的電腦和手機(jī)盈包,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)呢燥,“玉大人,你說(shuō)我怎么就攤上這事呼渣∧海” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵仁连,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我使鹅,道長(zhǎng)昌抠,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任炊苫,我火速辦了婚禮,結(jié)果婚禮上执虹,老公的妹妹穿的比我還像新娘唠梨。我一直安慰自己袋励,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著均牢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪徘跪。 梳的紋絲不亂的頭發(fā)上琅攘,一...
    開(kāi)封第一講書(shū)人閱讀 51,679評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音坞琴,去河邊找鬼。 笑死寒亥,一個(gè)胖子當(dāng)著我的面吹牛荧关,可吹牛的內(nèi)容都是我干的溉奕。 我是一名探鬼主播忍啤,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼同波,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鳄梅!你這毒婦竟也來(lái)了参萄?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤校赤,失蹤者是張志新(化名)和其女友劉穎筒溃,沒(méi)想到半個(gè)月后马篮,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體怜奖,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年掷匠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片讹语。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蜂科,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出导匣,到底是詐尸還是另有隱情,我是刑警寧澤贡定,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布缓待,位于F島的核電站进每,受9級(jí)特大地震影響命斧,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜国葬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一汇四、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧通孽,春花似錦、人聲如沸背苦。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至腌巾,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間澈蝙,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工凌唬, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留漏麦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓撕贞,卻偏偏與公主長(zhǎng)得像测垛,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子食侮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容