在做Kaggle 比賽:房屋價格預測時拱烁,遇到了Johnson su 分布。
Bata分布:一種隨機比例镐作,就如同一段時間內(nèi)所完成的任務中有缺陷的產(chǎn)品所占的比例锈津。
二項式:在規(guī)定的試驗次數(shù)內(nèi)所出現(xiàn)的結(jié)果次數(shù);常常用來表示試驗結(jié)果的成功率或失敗率,例如,在一批即將到達的產(chǎn)品中次品的數(shù)量或者即將到達的顧客中特定類型的數(shù)量呀酸。
Cauchy:偏離中心向兩邊長長的延伸;Cauchy通常用于仿真分歧很大的數(shù)據(jù),這些數(shù)據(jù)分布于平均值中心的周圍琼梆;Cauchy分布看上去像正態(tài)分布性誉,但偏離量很大。
X分布:當標準正態(tài)分布的獨立變量N被開平方并求和后茎杂,將使X分布結(jié)果成正方形错览;它經(jīng)常用在統(tǒng)計實驗中。
常數(shù)分布:不產(chǎn)生隨機數(shù)煌往,且恒定的值也不會改變的倾哺;在構(gòu)建模型的早期階段,經(jīng)常被用來減少隨機因素的影響或用來表示已經(jīng)確定的相同的次數(shù)和數(shù)目刽脖。
經(jīng)驗分布:對于大家來說羞海,如果比較熟悉事件概率,用戶常常自己制訂或定義特定形式的分布類型曲管。
Erlang:頻率主要是基于排列理論却邓,表示各種不同的活動中服務的次數(shù),用于電話通信等建模翘地。
Exponential:指數(shù)分布,在工商業(yè)的服務過程方面指數(shù)分布用的最普遍癌幕。主要用于定義事件發(fā)生的時間間隔衙耕,例如顧客到超市購物的時間間隔以及設(shè)備更新維護的周期等;也用于電話交談的平均時間和一定階段內(nèi)需要維護的次數(shù)勺远。
Extreme 1A:描述許多類型實例的極大值的分布范圍橙喘。極大值經(jīng)常用在天文學、人壽命胶逢、放射系統(tǒng)厅瞎、材料強度饰潜、洪水和地震分析以降雨預測等系統(tǒng)模型的參數(shù)中。
Extreme 1B:描述許多類型實例的極小值的分布范圍和簸。極小值經(jīng)常用在天文學彭雾、人壽命、放射系統(tǒng)锁保、材料強度薯酝、洪水和地震分析以降雨預測等系統(tǒng)模型的參數(shù)中。
Gamma:通常用于代表完成某項任務所需的時間爽柒。該分布的參數(shù)值在0和1之間時與一個遞減的指數(shù)分布曲線相似吴菠。如果參數(shù)值大于1時,分布的像一個擺鐘一樣從峰值向最小值傾斜浩村。
Geometric:在一系列獨立的以一定的成功率進行的貝努利實驗中做葵,輸出第一個試驗成功之前要經(jīng)過失敗事件的數(shù)量。通常用來代表在檢查出第一件次品之前所檢查產(chǎn)品的數(shù)量心墅、一批隨機規(guī)模實體的數(shù)量或者定單中所需求實體的數(shù)量酿矢。
Hypereponential:通常在電話通信和排隊理論里使用Hyper Exponential分布。
Inverse Gaussin:通常用來模擬布朗運動和邊界條件的擴散過程嗓化;它也可以模擬總數(shù)中特定尺寸的分布棠涮,可靠性、有效期限和維修時間的分布刺覆。
Inverse Weibull:在通常情況下严肪,分布是確定的,但當達到極點時谦屑,數(shù)據(jù)有較大的偏差驳糯;這種分布用來描述壽命分布中的幾次實效的過程;也用來擬合頂點一側(cè)偏離區(qū)極不正常的數(shù)據(jù)氢橙。
Johnson SB:這種分布是正態(tài)分布的一種轉(zhuǎn)變酝枢,Johnson分布已經(jīng)被用在質(zhì)量控制過程中來描述非正態(tài)過程,然后可被轉(zhuǎn)換成正態(tài)分布用在標準試驗中悍手。
Johnson SU:如Johnson SB一樣帘睦,此分部也是正態(tài)分布轉(zhuǎn)變成的也可以用質(zhì)量控制過程中來描述非正態(tài)過程。此外坦康,這可以用來代大家皆知的不穩(wěn)定的皮爾遜IV分布竣付,其取值范圍相當可信。
Laplace(指數(shù)分布):該分布在中間有一個尖尖的頂點以區(qū)別于正態(tài)分布滞欠;Laplace分布可用來描述相互獨立的但指數(shù)相同的兩個分布古胆。常用于誤差分析。
Logarithmic(對數(shù)分布):對數(shù)分布可用于描述一種樣本的種類筛璧;即逸绎,規(guī)定的一種樣品中到底可以有多少不同的類型惹恃。例如,該分布已用在被一個蚊子吸取的人群中具有某種特點人的數(shù)量棺牧,或者在一組存貨清單中某種規(guī)定類型貨物的數(shù)量巫糙。
Logistic(數(shù)理分布):數(shù)理分布非常類似于正態(tài)分布,也有更大的偏差陨帆。數(shù)理分布的功能最主要用于一些問題的發(fā)展模式曲秉;如人口問題,商業(yè)獲益疲牵,企業(yè)倒閉等承二。
Log Logistic(數(shù)理對數(shù)):當參數(shù)S=1時,它像指數(shù)分布纲爸;當參數(shù)S<1時亥鸠,它在某個位置傾向于無限大,其值隨X的增加而減少识啦;當參數(shù)S>1時负蚊,它在某個位置的最小值0,接著到達頂點并逐漸減少。
LogNormal(標準對數(shù)):此種分布常用來描述進行一項活動(特別是有多項附屬活動時)需要的時間颓哮,活動失敗的間隔時間或者是手工活動持續(xù)的時間家妆;也廣泛的用于保護商業(yè)其它財產(chǎn)保險,例如關(guān)于股票收益率或房投資回報率的評估冕茅。
Negative Binomial(負二項式分布):負二項式分布用來描述在第一個事件成功之前經(jīng)過失敗的試驗次數(shù)伤极;P代表成功的概率。
Normal(正態(tài)分布):就是著名的高斯曲線或叫擺鐘型曲線;當事件是由于客觀因素而不是人為因素產(chǎn)生時姨伤,使用的最廣泛哨坪;例如描述許多數(shù)之和組成的總量的分布或者是誤差分布。
Pareto(負指數(shù)分布):被定義為與指數(shù)分布相反的指數(shù)分布乍楚,左側(cè)有共同的跳躍點当编,右側(cè)有指數(shù)延長線的特征;這種分布經(jīng)常用于模擬許多有非常長的延伸曲線的經(jīng)驗現(xiàn)象徒溪,例如一個社會的收入分配問題忿偷,城市人口規(guī)模,自然資源出現(xiàn)臊泌,股票價格波動鲤桥,公司的大小,慧星的亮度缺虐,以及在交通線路中一系列的堵塞芜壁。
Pearson Type V(皮爾遜V分布):皮爾遜V分布通常用于描述完成一些任務所需要的時間;從分布密度看上去類似于Lognormal的形狀礁凡,但是在X接近于零時有一個較大的極點高氮。
Pearson Type VI(皮爾遜VI分布):皮爾遜V分布通常用于描述完成一些任務所需要的時間;在零的左側(cè)慧妄,分布連續(xù)并且是確定的;在零的右側(cè)分布不確定剪芍。
Poisson(泊松分布):泊松分布主要是模擬事件的比率;例如塞淹,每分鐘電話的數(shù)量,每頁中出現(xiàn)錯別字的數(shù)量或一定時間內(nèi)系統(tǒng)中事件出現(xiàn)的次數(shù)罪裹。注意在排隊理論中饱普,事件到達的比率通常定義單位時間的泊松到達,這種分布原理與指數(shù)分布比較相似状共。
Power Function:功能函數(shù)在兩側(cè)都是在存在的套耕,并且含有的值不可能為負數(shù),均勻分布是功能函數(shù)分布的一種特殊情況峡继。
Rayleigh:Rayleight經(jīng)常代表壽命(有效周期),因為它的危險率隨著時間而加快增加冯袍;例如,真空管的壽命碾牌。它在左側(cè)跳躍康愤,并且有較長的延長線。
Triangular:通常比標準的分布更適合代表商業(yè)過程舶吗,因為它提供了實際價值最準確的初步評估征冷。常用于處理過程僅有三個特征信息(最大值、最小值和最可能的平均值)已知的情況誓琼。
均勻分布(整數(shù)或常數(shù)):均勻分布(整數(shù)或?qū)崝?shù))用來描述在特定的取值范圍內(nèi)所有的值都是可能的检激;如果關(guān)于任務的信息很少的話,通常用來描述某一任務活動的持續(xù)時間踊赠。
韋伯分布:Weibull主要用來描述產(chǎn)品壽命周期和項目的可靠性問題呵扛,例如機械設(shè)備損壞的時間間隔(TBF)和維護周期(TTR)。