Spark學(xué)習(xí)(九):分布式矩陣

十余天沒有學(xué)習(xí)Spark了糊治,不是我在偷懶猜惋,而是前段時(shí)間一直在研究形態(tài)學(xué)算法提取波形的問題⊥璺眨現(xiàn)在算法差不多搞定啦,但是用Python開發(fā)的著摔,有空有能力時(shí)再補(bǔ)上Spark的程序缓窜。還是先來記錄一下分布式矩陣的用法吧~

一般采用分布式矩陣進(jìn)行存儲(chǔ)都在數(shù)據(jù)量非常大的情況下進(jìn)行,處理速度和效率與其存儲(chǔ)格式息息相關(guān)。MLlib提供了四種分布式矩陣存儲(chǔ)形式雹洗,分別為:行矩陣香罐,帶有行索引的行矩陣,坐標(biāo)矩陣和塊矩陣时肿,據(jù)說分塊矩陣并不常用庇茫。

行矩陣

行矩陣以行作為基本的矩陣存儲(chǔ)格式,每一行的內(nèi)容都可以單獨(dú)取出來進(jìn)行操作螃成,列的作用相較小旦签。

帶索引的行矩陣

為了方便在系統(tǒng)調(diào)試的過程中對(duì)行矩陣的內(nèi)容進(jìn)行觀察和顯示,MLlib提供了帶索引的行矩陣寸宏。

坐標(biāo)矩陣

坐標(biāo)矩陣是一種帶有坐標(biāo)標(biāo)記的矩陣宁炫,其中的每一個(gè)具體數(shù)據(jù)都有一組坐標(biāo)進(jìn)行標(biāo)示,類型格式如下:
(x: Long, y: Long, values: Double)

分塊矩陣

顧名思義氮凝,就是將矩陣分塊(好廢話哦)羔巢。分塊矩陣可由帶索引的行矩陣IndexedRowMatrix或坐標(biāo)矩陣CoordinateMatrix調(diào)用toBlockMatrix()方法來進(jìn)行轉(zhuǎn)換。

例程

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.mllib.linalg.{Matrix, Matrices, Vectors, Vector}
import org.apache.spark.mllib.linalg.distributed.{RowMatrix, IndexedRowMatrix, IndexedRow, CoordinateMatrix, MatrixEntry}

object RDDMatrix {
  def main(args: Array[String]): Unit = {
    println("--------------------------本地矩陣-------------------------------")
    val mx = Matrices.dense(2, 3, Array(1, 2, 3, 4, 5, 6)) // 創(chuàng)建2行3列的本地矩陣罩阵,Matrices.dense是矩陣重組的調(diào)用方法
    println(mx)

    println("--------------------------分布式行矩陣------------------------------")
    val conf = new SparkConf().setAppName("Distributed matrix").setMaster("local")
    val sc = new SparkContext(conf)
    val path = "F:/ScalaProject/test/collaborativeFilter/src/main/resources/Kmeans.txt"
    val rdd = sc.textFile(path).map(_.split(" ").map(_.toDouble)) // 轉(zhuǎn)化成Double類型的向量存儲(chǔ)
    val rdd1 = rdd.map(line => Vectors.dense(line))  // 轉(zhuǎn)換成向量存儲(chǔ)
    val rm = new RowMatrix(rdd1) // 讀入行矩陣
    // 如果打印rm中的具體內(nèi)容竿秆,結(jié)果顯示是數(shù)據(jù)的內(nèi)存地址。這表明RowMatrix只是一個(gè)轉(zhuǎn)化操作稿壁,并不運(yùn)行最終結(jié)果幽钢。
    println(rm.numRows())         // 打印行數(shù)
    println(rm.numCols())         // 打印列數(shù)

    println("--------------------------帶索引的行矩陣---------------------------")
    val rdd2 = rdd1.map(vd => new IndexedRow(vd.size, vd)) // 轉(zhuǎn)化格式
    val irm = new IndexedRowMatrix(rdd2)  // 建立索引行矩陣實(shí)例
    println(irm.getClass) // 打印類型
    irm.rows.foreach(println)// 打印內(nèi)容數(shù)據(jù)

    println("---------------------------坐標(biāo)矩陣--------------------------------")
    val rdd3 = rdd.map(vue => (vue(0).toLong, vue(1).toLong, vue(2))).  // 轉(zhuǎn)化成坐標(biāo)格式
      map(vue2 => new MatrixEntry(vue2._1, vue2._2, vue2._3))           // 轉(zhuǎn)化成坐標(biāo)矩陣格式
    // vue(0)和vue(1)分別是行和列坐標(biāo)的坐標(biāo)軸標(biāo)號(hào),vue(2)是具體內(nèi)容
    // ._1 和 ._2 是scala語句中元組參數(shù)的序數(shù)專用標(biāo)號(hào)傅是,分別是傳入第二個(gè)和第三個(gè)值
    val crm = new CoordinateMatrix(rdd3)  // 直接打印CoordinateMatrix實(shí)例的對(duì)象也僅僅是內(nèi)存地址
    crm.entries.foreach(println)


    println("--------------------------分塊矩陣---------------------------")
    // 將坐標(biāo)矩陣轉(zhuǎn)換成2x2的分塊矩陣并存儲(chǔ)匪燕,尺寸通過參數(shù)傳入
    val matA = irm.toBlockMatrix(2,2).cache()
    // 查看其分塊情況
    matA.blocks.collect.foreach(println)
    println(matA.numColBlocks)
    println(matA.numRowBlocks)
  }
}

原始數(shù)據(jù):

1 2 2
1 1 1
1 3 3
2 2 2
3 4 5
4 3 3
2 2 2
4 4 1

運(yùn)行結(jié)果:

--------------------------本地矩陣-------------------------------
1.0  3.0  5.0  
2.0  4.0  6.0  
--------------------------分布式行矩陣------------------------------
8
3
--------------------------帶索引的行矩陣---------------------------
class org.apache.spark.mllib.linalg.distributed.IndexedRowMatrix
IndexedRow(3,[1.0,2.0,2.0])
IndexedRow(3,[1.0,1.0,1.0])
IndexedRow(3,[1.0,3.0,3.0])
IndexedRow(3,[2.0,2.0,2.0])
IndexedRow(3,[3.0,4.0,5.0])
IndexedRow(3,[4.0,3.0,3.0])
IndexedRow(3,[2.0,2.0,2.0])
IndexedRow(3,[4.0,4.0,1.0])
---------------------------坐標(biāo)矩陣--------------------------------
MatrixEntry(1,2,2.0)
MatrixEntry(1,1,1.0)
MatrixEntry(1,3,3.0)
MatrixEntry(2,2,2.0)
MatrixEntry(3,4,5.0)
MatrixEntry(4,3,3.0)
MatrixEntry(2,2,2.0)
MatrixEntry(4,4,1.0)
--------------------------分塊矩陣---------------------------
((1,1),2 x 1 CSCMatrix
(1,0) 19.0)
((1,0),2 x 2 CSCMatrix
(1,0) 18.0
(1,1) 21.0)
2
2

至于分塊矩陣為什么會(huì)輸出這么奇怪的結(jié)果,還沒有研究明白喧笔,等搞明白再補(bǔ)上吧帽驯!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市溃斋,隨后出現(xiàn)的幾起案子界拦,更是在濱河造成了極大的恐慌,老刑警劉巖梗劫,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異截碴,居然都是意外死亡梳侨,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門日丹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來走哺,“玉大人,你說我怎么就攤上這事哲虾”铮” “怎么了择示?”我有些...
    開封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)晒旅。 經(jīng)常有香客問我栅盲,道長(zhǎng),這世上最難降的妖魔是什么废恋? 我笑而不...
    開封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任谈秫,我火速辦了婚禮,結(jié)果婚禮上鱼鼓,老公的妹妹穿的比我還像新娘拟烫。我一直安慰自己,他們只是感情好迄本,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開白布硕淑。 她就那樣靜靜地躺著,像睡著了一般嘉赎。 火紅的嫁衣襯著肌膚如雪置媳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天曹阔,我揣著相機(jī)與錄音半开,去河邊找鬼。 笑死赃份,一個(gè)胖子當(dāng)著我的面吹牛寂拆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播抓韩,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼纠永,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了谒拴?” 一聲冷哼從身側(cè)響起尝江,我...
    開封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎英上,沒想到半個(gè)月后炭序,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡苍日,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年惭聂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片相恃。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辜纲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情耕腾,我是刑警寧澤见剩,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站扫俺,受9級(jí)特大地震影響苍苞,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜牵舵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一柒啤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧畸颅,春花似錦担巩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至送火,卻和暖如春拳话,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背种吸。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來泰國打工弃衍, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人坚俗。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓镜盯,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親猖败。 傳聞我的和親對(duì)象是個(gè)殘疾皇子速缆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345