中文文檔 pyspark.sql.DataFrameStatFunctions

DataFrame的統(tǒng)計(jì)函數(shù)的功能刻剥。

8.1 corr(col1, col2, method=None)

以雙精度值計(jì)算DataFrame的兩列的相關(guān)性滩字。目前只支持personal相關(guān)系數(shù). DataFrame.corr() and DataFrameStatFunctions.corr() 互為別名御吞。

參數(shù)：●?col1?– 第一列的名稱

????????????●col2?– 第二列的名稱

????????????●method?– 相關(guān)方法,目前只支持 personal相關(guān)系數(shù)

8.2 cov(col1, col2)

計(jì)算給定列的樣本協(xié)方差（由它們的名稱指定）作為雙精度值漓藕。DataFrame.cov() and DataFrameStatFunctions.cov() 互為別名。

參數(shù)：●?col1?– 第一列的名稱

? ? ? ? ? ?●?col2?– 第二列的名稱

8.3 crosstab(col1, col2)

計(jì)算給定列的成對(duì)頻率表. 每列的去重后不同值的數(shù)量應(yīng)小于1e4. 最多1e6非零對(duì)頻率將被返回. 每行的第一列將是col1的不同值揍诽，列名將是col2的不同值.第一列的名稱應(yīng)該為$col1_$col2. 沒(méi)有出現(xiàn)的對(duì)數(shù)將為零. DataFrame.crosstab() and DataFrameStatFunctions.crosstab() 互為別名

參數(shù)：●?col1?– 第一列的名稱. 去重項(xiàng)將成為每一行的第一項(xiàng)栗竖。

? ? ? ? ? ?●?col2?– 第二列的名稱. 去重項(xiàng)將成為DataFrame的列名稱。

In [411]: df.crosstab('name','age').show()

+--------+---+---+

|name_age|? 2|? 5|

+--------+---+---+

|? ? Bob|? 0|? 1|

|? Alice|? 1|? 0|

+--------+---+---+

8.4 freqItems(cols, support=None)

找到列的頻繁項(xiàng)狐肢，可能有誤差。 DataFrame.freqItems() and DataFrameStatFunctions.freqItems()等價(jià).

此功能用于探索性數(shù)據(jù)分析碟联，不保證所生成的DataFrame的模式的向后兼容性僵腺。

參數(shù)：●?cols?– 用于計(jì)算頻繁項(xiàng)的列的名稱，為字符串的列表或元組想邦。

? ? ? ? ? ?●?support?–“頻繁”項(xiàng)目的頻率。默認(rèn)值是1％,必須大于1e-4鹰椒。

In [413]: df.freqItems(['name','age']).show()

+--------------+-------------+

|name_freqItems|age_freqItems|

+--------------+-------------+

|? [Bob, Alice]|? ? ? [2, 5]|

+--------------+-------------+

In [414]: df.show()

+-----+---+------+

| name|age|height|

+-----+---+------+

|Alice|? 2|? ? 80|

|? Bob|? 5|? null|

+-----+---+------+

8.5 sampleBy(col, fractions, seed=None)

根據(jù)每層上給出的分?jǐn)?shù)返回一個(gè)沒(méi)有更換的分層樣本呕童。

參數(shù)：●?col?– 定義分層的列

? ? ? ? ? ?●?fractions?– 每層的抽樣比例，如果沒(méi)有指定層夺饲，我們將其分?jǐn)?shù)視為零。

? ? ? ? ? ?●?seed?– 隨機(jī)值

返回: 一個(gè)代表分層樣本的新DataFrame

In [416]: from pyspark.sql.functions import col

? ? ...: data = sqlContext.range(0, 100).select((col("id") % 4).alias("key"))

? ? ...: sampled = data.sampleBy("key", fractions={0: 0.1, 1: 0.2},seed=0)

? ? ...: sampled.groupBy("key").count().orderBy("key").show()

+---+-----+

|key|count|

+---+-----+

|? 0|? ? 2|

|? 1|? ? 7|

+---+-----+

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末擂找，一起剝皮案震驚了整個(gè)濱河市浩销，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌慢洋，老刑警劉巖陆盘，帶你破解...
沈念sama閱讀 218,858評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件隘马，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡酸员，警方通過(guò)查閱死者的電腦和手機(jī)盈包，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)呢燥，“玉大人，你說(shuō)我怎么就攤上這事呼渣∧海” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,282評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵仁连，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我使鹅，道長(zhǎng)昌抠，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,842評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任炊苫，我火速辦了婚禮，結(jié)果婚禮上执虹，老公的妹妹穿的比我還像新娘唠梨。我一直安慰自己袋励，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,857評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著均牢，像睡著了一般。火紅的嫁衣襯著肌膚如雪徘跪。梳的紋絲不亂的頭發(fā)上琅攘，一...
開(kāi)封第一講書(shū)人閱讀 51,679評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音坞琴，去河邊找鬼。笑死寒亥，一個(gè)胖子當(dāng)著我的面吹牛荧关，可吹牛的內(nèi)容都是我干的溉奕。我是一名探鬼主播忍啤，決...
沈念sama閱讀 40,406評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼同波，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鳄梅！你這毒婦竟也來(lái)了参萄？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,311評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤校赤，失蹤者是張志新（化名）和其女友劉穎筒溃，沒(méi)想到半個(gè)月后马篮，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體怜奖，經(jīng)...
沈念sama閱讀 45,767評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,945評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年掷匠，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片讹语。...
茶點(diǎn)故事閱讀 40,090評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡蜂科，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出导匣，到底是詐尸還是另有隱情，我是刑警寧澤贡定，帶...
沈念sama閱讀 35,785評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布缓待，位于F島的核電站进每，受9級(jí)特大地震影響命斧，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜国葬，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,420評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一汇四、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧通孽，春花似錦、人聲如沸背苦。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,988評(píng)論 0贊 22
一樁弒父案秕噪，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至腌巾，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間澈蝙，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,101評(píng)論 1贊 271
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工凌唬，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留漏麦，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,298評(píng)論 3贊 372
代替公主和親
正文我出身青樓撕贞，卻偏偏與公主長(zhǎng)得像测垛，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子食侮，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,033評(píng)論 2贊 355

中文文檔 pyspark.sql.DataFrameStatFunctions

推薦閱讀更多精彩內(nèi)容