240 發(fā)簡信
IP屬地:上海
  • 2019-08-28

    spearman秩相關(guān)系數(shù) pearson線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布仿贬。不服從正態(tài)分布的變量纽竣、分類或等級變量之間的關(guān)聯(lián)性可采用spearman秩相關(guān)系數(shù)。 只要...

  • 2019-08-21

    對于定性變量茧泪,常常根據(jù)變量的分類類型來分組蜓氨,可以采用餅圖和條形圖來描述定性變量的分布。 3.2.2對比分析 (1)絕對數(shù)比較 (2)相對數(shù)比較 1)結(jié)構(gòu)相對數(shù):將同一總體內(nèi)的...

  • 2019-08-19

    一队伟、數(shù)據(jù)質(zhì)量分析 臟數(shù)據(jù): 缺失值 異常值 不一致的值 重要數(shù)據(jù)含有特殊符號的數(shù)據(jù) 1.異常值分析 (1)簡單統(tǒng)計(jì)量分析穴吹,最常用的統(tǒng)計(jì)量是最大值和最小值,用來判斷這個(gè)變量是否...

  • 2019-08-07

    數(shù)據(jù)應(yīng)用 生意參謀 數(shù)據(jù)產(chǎn)品的本質(zhì)是產(chǎn)品嗜侮,那么首先要回答用戶是誰港令,用戶的痛點(diǎn)是什么,產(chǎn)品要解決用戶的哪些痛點(diǎn)锈颗,及產(chǎn)品給用戶帶來的價(jià)值是什么顷霹。對于企業(yè)內(nèi)部數(shù)據(jù)產(chǎn)品,它的用戶是公...

  • 2019-08-06

    數(shù)據(jù)質(zhì)量 15.1數(shù)據(jù)質(zhì)量保障原則 1.完整性 完整性是指數(shù)據(jù)的記錄和信息是否完整击吱,是否存在缺失的情況淋淀。 2.準(zhǔn)確性 準(zhǔn)確性是指數(shù)據(jù)種記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異掣泊迹或...

  • 2019-07-30

    存儲(chǔ)和成本管理 14.1數(shù)據(jù)壓縮 在分布式文件系統(tǒng)中绅喉,為了提高數(shù)據(jù)的可用性與性能渠鸽,通常會(huì)將數(shù)據(jù)存儲(chǔ)3分,這就意味著存儲(chǔ)1TB的邏輯數(shù)據(jù)柴罐,實(shí)際上會(huì)占用3TB的物理空間徽缚。 arc...

  • 2019-07-26

    優(yōu)化器新特性 優(yōu)化器具有一些新特性,主要是重新排序join和自動(dòng)mapjoin革屠。 (1)重新排序join (2)自動(dòng)mapjoin (3)隱式類型轉(zhuǎn)換 任務(wù)優(yōu)化 join傾斜

  • 2019-07-25

    數(shù)據(jù)管理 元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù) 元數(shù)據(jù)打通了源數(shù)據(jù)凿试、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用似芝,記錄了數(shù)據(jù)從產(chǎn)生到消費(fèi)的全過程那婉。 元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義,各層級間的映射關(guān)系党瓮、監(jiān)控?cái)?shù)據(jù)倉...

  • 2019-07-19

    退化維度 在大數(shù)據(jù)的事實(shí)表模型設(shè)計(jì)中详炬,更多的是考慮提高下游用戶的使用效率,降低數(shù)據(jù)獲取的復(fù)雜性寞奸,減少關(guān)聯(lián)的表數(shù)量呛谜。 特點(diǎn) 1.數(shù)據(jù)不斷更新 2.多業(yè)務(wù)過程日期 特殊處理 1....

  • 2019-07-18

    父子事實(shí)的處理方式 事實(shí)的設(shè)計(jì)準(zhǔn)則 1.事實(shí)完整性 2.事實(shí)一致性 3.事實(shí)可加性 周期快照事實(shí)表 在確定的間隔內(nèi)對實(shí)體的度量進(jìn)行抽樣,這樣可以很容易地研究實(shí)體的度量值枪萄,而不...

  • 2019-07-17

    多事務(wù)事實(shí)表 多事務(wù)事實(shí)表隐岛,將不同的事實(shí)放到同一個(gè)事實(shí)表中,即同一個(gè)事實(shí)表包含不同的業(yè)務(wù)過程瓷翻。 多事務(wù)事實(shí)表在設(shè)計(jì)時(shí)有兩種方法進(jìn)行事實(shí)的處理:1.不同業(yè)務(wù)過程的事實(shí)使用不同的...

  • 120
    一次完整的數(shù)據(jù)挖掘的過程

    任務(wù)描述 kaggle 案例 california-housing-priceshttps://www.kaggle.com/camnugent/california-hou...

  • 2019-07-11

    事實(shí)表設(shè)計(jì)方法 維度模型設(shè)計(jì)采用四步設(shè)計(jì)方法:選擇業(yè)務(wù)過程聚凹、聲明粒度、確定事實(shí)齐帚。 第一步:選擇業(yè)務(wù)過程及確定事實(shí)表類型 第二步:聲明粒度 第三步:確定維度 第四步:確定事實(shí) ...

  • 2019-07-10

    事實(shí)表有三種類型:事務(wù)事實(shí)表妒牙、周期快照事實(shí)表和累積快照事實(shí)表。 事務(wù)事實(shí)表用來描述業(yè)務(wù)過程对妄,跟蹤空間或時(shí)間上某點(diǎn)的度量事件湘今,保存的是最原子的數(shù)據(jù),也稱為“原子事實(shí)表”饥伊。周期快...

  • 2019-07-09

    極限存儲(chǔ) 1.透明化 底層的數(shù)據(jù)還是歷史拉鏈存儲(chǔ)象浑,但是上層做一個(gè)視圖操作或者在HIVE里做一個(gè)hook,通過分析語句的語法樹,把對極限存儲(chǔ)前的表的查詢轉(zhuǎn)換成對極限存儲(chǔ)表的查詢...

  • 2019-07-01

    一琅豆、模型設(shè)計(jì)基本原則 1.高內(nèi)聚和低耦合 將業(yè)務(wù)相近或者相關(guān)愉豺、粒度相同的數(shù)據(jù)設(shè)計(jì)為一個(gè)邏輯或者物理模型;將高概率同時(shí)訪問的數(shù)據(jù)放在一起茫因,將低概率同時(shí)訪問的數(shù)據(jù)分開存儲(chǔ)蚪拦。 2....

  • 2019-06-12

    大數(shù)據(jù)領(lǐng)域建模綜述 性能:良好的數(shù)據(jù)模型能幫助我們快速查詢所需要的數(shù)據(jù),減少數(shù)據(jù)I/O吞吐。 成本:良好的數(shù)據(jù)模型能極大的減少不必要的數(shù)據(jù)冗余驰贷,也能實(shí)現(xiàn)計(jì)算結(jié)果復(fù)用盛嘿,極大地降...

  • 2019-06-11

    數(shù)據(jù)挖掘 挖掘數(shù)據(jù)中臺(tái)分層: FDM層:用于存儲(chǔ)在模型訓(xùn)練前常用的特征指標(biāo),并進(jìn)行統(tǒng)一的清洗和去噪處理括袒,提升機(jī)器學(xué)習(xí)特征工程環(huán)節(jié)的效率次兆。 IDM層:個(gè)體挖掘指標(biāo)中間層,面向個(gè)...

個(gè)人介紹
數(shù)據(jù)產(chǎn)品經(jīng)理
亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品