![240](https://cdn2.jianshu.io/assets/default_avatar/9-cceda3cf5072bcdd77e8ca4f21c40998.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
光陰似箭仍秤,歲月如梭枯怖。機(jī)器學(xué)習(xí)時間也將近大半年了,一直在思考為什么要學(xué)習(xí)這玩意膝宁。高數(shù)和線代一直是多少人的噩夢,諱莫如深的算法,加上spark、sc...
矩陣行列式的幾何意義 矩陣只是一個數(shù)表灶芝,行列式還要對這個數(shù)表按照規(guī)則進(jìn)一步計算,最終得到一個實數(shù)贱枣、復(fù)數(shù)或者多項式 概括說來有兩個解釋: 一個解釋...
幾乎所有的機(jī)器學(xué)習(xí)模型都是與用向量表示的數(shù)值特征打交道监署。因此颤专,需要將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)值纽哥。 數(shù)值特征:這些特征通常為實數(shù)或整數(shù),比如年齡 類別特征...
pipelines中文意思是計算機(jī)流水線作業(yè)栖秕,通過pipelines的api可以很方便的實現(xiàn)數(shù)據(jù)工作流:數(shù)據(jù)源->特征轉(zhuǎn)換->數(shù)據(jù)建模->數(shù)據(jù)預(yù)...
昨天看到這樣一道題春塌,一機(jī)器在良好狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 90%,在故障狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 30%,機(jī)器良好的概率是 75%只壳。若一日第一件產(chǎn)品...
spark2.4開始支持image圖片數(shù)據(jù)源操作 df的schema信息 如果是多層目錄俏拱,而且需要獲取目錄名,可以將目錄命為:cls=strin...
皮爾森相關(guān)性 樣本相關(guān)與它代表的總體相關(guān)會存在一些誤差吼句。即使總體之間不存在相關(guān)锅必,任然可能會獲得一個非零相關(guān),對于小樣本來說尤其如此 當(dāng)樣本只有兩...
常用的sql查詢引擎 hive惕艳,impala搞隐,hive on spark,presto(京東)远搪,drill(支持hdfs劣纲,hive),phoen...
小文件過多谁鳍,會消耗hdfs的namenode的內(nèi)存內(nèi)存消耗=文件數(shù)+目錄數(shù)+block的數(shù)量