Scala 強(qiáng)大的集合數(shù)據(jù)操作示例

Scala是數(shù)據(jù)挖掘算法領(lǐng)域最有力的編程語(yǔ)言之一,語(yǔ)言本身是面向函數(shù)专控,這也符合了數(shù)據(jù)挖掘算法的常用場(chǎng)景:在原始數(shù)據(jù)集上應(yīng)用一系列的變換,語(yǔ)言本身也對(duì)集合操作提供了眾多強(qiáng)大的函數(shù),本文將以List類型為例子翔烁,介紹常見(jiàn)的集合變換操作。

注意improt

import scala.collection.JavaConverters._
import scala.collection.mutable

一旨涝、常用操作符(操作符其實(shí)也是函數(shù))

++ ++[B](that: GenTraversableOnce[B]): List[B] 從列表的尾部添加另外一個(gè)列表

++: ++:[B >: A, That](that: collection.Traversable[B])(implicit bf: CanBuildFrom[List[A], B, That]): That 在列表的頭部添加一個(gè)列表

+: +:(elem: A): List[A] 在列表的頭部添加一個(gè)元素

:+ :+(elem: A): List[A] 在列表的尾部添加一個(gè)元素

:: ::(x: A): List[A] 在列表的頭部添加一個(gè)元素

::: :::(prefix: List[A]): List[A] 在列表的頭部添加另外一個(gè)列表

:\ :[B](z: B)(op: (A, B) ? B): B 與foldRight等價(jià)

val left = List(1,2,3)
val right = List(4,5,6)

//以下操作等價(jià)
left ++ right   // List(1,2,3,4,5,6)
left ++: right  // List(1,2,3,4,5,6)
right.++:(left)    // List(1,2,3,4,5,6)
right.:::(left)  // List(1,2,3,4,5,6)

//以下操作等價(jià)
0 +: left    //List(0,1,2,3)
left.+:(0)   //List(0,1,2,3)

//以下操作等價(jià)
left :+ 4    //List(1,2,3,4)
left.:+(4)   //List(1,2,3,4)

//以下操作等價(jià)
0 :: left      //List(0,1,2,3)
left.::(0)     //List(0,1,2,3)

看到這里大家應(yīng)該跟我一樣有一點(diǎn)暈吧蹬屹,怎么這么多奇怪的操作符,這里給大家一個(gè)提示,任何以冒號(hào)結(jié)果的操作符慨默,都是右綁定的贩耐,即 0 :: List(1,2,3) = List(1,2,3).::(0) = List(0,1,2,3) 從這里可以看出操作::其實(shí)是右邊List的操作符,而非左邊Int類型的操作符

二厦取、常用變換操作

1.map

map[B](f: (A) ? B): List[B]

定義一個(gè)變換,把該變換應(yīng)用到列表的每個(gè)元素中,原列表不變潮太,返回一個(gè)新的列表數(shù)據(jù)

Example1 平方變換

val nums = List(1,2,3)
val square = (x: Int) => x*x   
val squareNums1 = nums.map(num => num*num)    //List(1,4,9)
val squareNums2 = nums.map(math.pow(_,2))    //List(1,4,9)
val squareNums3 = nums.map(square)            //List(1,4,9)

Example2 保存文本數(shù)據(jù)中的某幾列

val text = List("Homeway,25,Male","XSDYM,23,Female")
val usersList = text.map(_.split(",")(0))    
val usersWithAgeList = text.map(line => {
    val fields = line.split(",")
    val user = fields(0)
    val age = fields(1).toInt
    (user,age)
})

2.flatMap, flatten

flatten: flatten[B]: List[B] 對(duì)列表的列表進(jìn)行平坦化操作 flatMap: flatMap[B](f: (A) ? GenTraversableOnce[B]): List[B] map之后對(duì)結(jié)果進(jìn)行flatten

定義一個(gè)變換f, 把f應(yīng)用列表的每個(gè)元素中,每個(gè)f返回一個(gè)列表蒜胖,最終把所有列表連結(jié)起來(lái)消别。

val text = List("A,B,C","D,E,F")
val textMapped = text.map(_.split(",").toList) // List(List("A","B","C"),List("D","E","F"))
val textFlattened = textMapped.flatten          // List("A","B","C","D","E","F")
val textFlatMapped = text.flatMap(_.split(",").toList) // List("A","B","C","D","E","F")

3.reduce

reduce[A1 >: A](op: (A1, A1) ? A1): A1

定義一個(gè)變換f, f把兩個(gè)列表的元素合成一個(gè),遍歷列表台谢,最終把列表合并成單一元素

Example 列表求和


val nums = List(1,2,3)
val sum1 = nums.reduce((a,b) => a+b)   //6
val sum2 = nums.reduce(_+_)            //6
val sum3 = nums.sum                 //6

4.reduceLeft,reduceRight

reduceLeft: reduceLeft[B >: A](f: (B, A) ? B): B

reduceRight: reduceRight[B >: A](op: (A, B) ? B): B

reduceLeft從列表的左邊往右邊應(yīng)用reduce函數(shù)寻狂,reduceRight從列表的右邊往左邊應(yīng)用reduce函數(shù)

Example


val nums = List(2.0,2.0,3.0)
val resultLeftReduce = nums.reduceLeft(math.pow)  // = pow( pow(2.0,2.0) , 3.0) = 64.0
val resultRightReduce = nums.reduceRight(math.pow) // = pow(2.0, pow(2.0,3.0)) = 256.0

5.fold,foldLeft,foldRight

fold: fold[A1 >: A](z: A1)(op: (A1, A1) ? A1): A1 帶有初始值的reduce,從一個(gè)初始值開(kāi)始,從左向右將兩個(gè)元素合并成一個(gè)朋沮,最終把列表合并成單一元素蛇券。

foldLeft: foldLeft[B](z: B)(f: (B, A) ? B): B 帶有初始值的reduceLeft

foldRight: foldRight[B](z: B)(op: (A, B) ? B): B 帶有初始值的reduceRight


val nums = List(2,3,4)
val sum = nums.fold(1)(_+_)  // = 1+2+3+4 = 9

val nums = List(2.0,3.0)
val result1 = nums.foldLeft(4.0)(math.pow) // = pow(pow(4.0,2.0),3.0) = 4096
val result2 = nums.foldRight(1.0)(math.pow) // = pow(1.0,pow(2.0,3.0)) = 8.0

6.sortBy,sortWith,sorted

sortBy: sortBy[B](f: (A) ? B)(implicit ord: math.Ordering[B]): List[A] 按照應(yīng)用函數(shù)f之后產(chǎn)生的元素進(jìn)行排序

sorted: sorted[B >: A](implicit ord: math.Ordering[B]): List[A] 按照元素自身進(jìn)行排序

sortWith: sortWith(lt: (A, A) ? Boolean): List[A] 使用自定義的比較函數(shù)進(jìn)行排序

val nums = List(1,3,2,4)
val sorted = nums.sorted  //List(1,2,3,4)

val users = List(("HomeWay",25),("XSDYM",23))
val sortedByAge = users.sortBy{case(user,age) => age}  //List(("XSDYM",23),("HomeWay",25))
val sortedWith = users.sortWith{case(user1,user2) => user1._2 < user2._2} //List(("XSDYM",23),("HomeWay",25))

7.filter, filterNot

filter: filter(p: (A) ? Boolean): List[A]

filterNot: filterNot(p: (A) ? Boolean): List[A]

filter 保留列表中符合條件p的列表元素 , filterNot樊拓,保留列表中不符合條件p的列表元素

val nums = List(1,2,3,4)
val odd = nums.filter( _ % 2 != 0) // List(1,3)
val even = nums.filterNot( _ % 2 != 0) // List(2,4)

8.count

count(p: (A) ? Boolean): Int

計(jì)算列表中所有滿足條件p的元素的個(gè)數(shù)纠亚,等價(jià)于 filter(p).length

val nums = List(-1,-2,0,1,2) val plusCnt1 = nums.count( > 0) val plusCnt2 = nums.filter( > 0).length
9. diff, union, intersect

diff:diff(that: collection.Seq[A]): List[A] 保存列表中那些不在另外一個(gè)列表中的元素,即從集合中減去與另外一個(gè)集合的交集

union : union(that: collection.Seq[A]): List[A] 與另外一個(gè)列表進(jìn)行連結(jié)

intersect: intersect(that: collection.Seq[A]): List[A] 與另外一個(gè)集合的交集

val nums1 = List(1,2,3)
val nums2 = List(2,3,4)
val diff1 = nums1 diff nums2   // List(1)
val diff2 = nums2.diff(num1)   // List(4)
val union1 = nums1 union nums2  // List(1,2,3,2,3,4)
val union2 = nums2 ++ nums1        // List(2,3,4,1,2,3)
val intersection = nums1 intersect nums2  //List(2,3)

10.distinct

distinct: List[A] 保留列表中非重復(fù)的元素筋夏,相同的元素只會(huì)被保留一次

val list = List("A","B","C","A","B") val distincted = list.distinct // List("A","B","C")

11.groupBy, grouped

groupBy : groupBy[K](f: (A) ? K): Map[K, List[A]] 將列表進(jìn)行分組蒂胞,分組的依據(jù)是應(yīng)用f在元素上后產(chǎn)生的新元素
grouped: grouped(size: Int): Iterator[List[A]] 按列表按照固定的大小進(jìn)行分組

val data = List(("HomeWay","Male"),("XSDYM","Femail"),("Mr.Wang","Male"))
val group1 = data.groupBy(_._2) // = Map("Male" -> List(("HomeWay","Male"),("Mr.Wang","Male")),"Female" -> List(("XSDYM","Femail")))
val group2 = data.groupBy{case (name,sex) => sex} // = Map("Male" -> List(("HomeWay","Male"),("Mr.Wang","Male")),"Female" -> List(("XSDYM","Femail")))
val fixSizeGroup = data.grouped(2).toList // = Map("Male" -> List(("HomeWay","Male"),("XSDYM","Femail")),"Female" -> List(("Mr.Wang","Male")))

12.scan

scan[B >: A, That](z: B)(op: (B, B) ? B)(implicit cbf: CanBuildFrom[List[A], B, That]): That

由一個(gè)初始值開(kāi)始,從左向右条篷,進(jìn)行積累的op操作骗随,這個(gè)比較難解釋,具體的看例子吧赴叹。

val nums = List(1,2,3)
val result = nums.scan(10)(_+_)   // List(10,10+1,10+1+2,10+1+2+3) = List(10,11,12,13)

13.scanLeft,scanRight

scanLeft: scanLeft[B, That](z: B)(op: (B, A) ? B)(implicit bf: CanBuildFrom[List[A], B, That]): That

scanRight: scanRight[B, That](z: B)(op: (A, B) ? B)(implicit bf: CanBuildFrom[List[A], B, That]): That

scanLeft: 從左向右進(jìn)行scan函數(shù)的操作鸿染,scanRight:從右向左進(jìn)行scan函數(shù)的操作

val nums = List(1.0,2.0,3.0)
val result = nums.scanLeft(2.0)(math.pow)   // List(2.0,pow(2.0,1.0), pow(pow(2.0,1.0),2.0),pow(pow(pow(2.0,1.0),2.0),3.0) = List(2.0,2.0,4.0,64.0)
val result = nums.scanRight(2.0)(math.pow)  // List(2.0,pow(3.0,2.0), pow(2.0,pow(3.0,2.0)), pow(1.0,pow(2.0,pow(3.0,2.0))) = List(1.0,512.0,9.0,2.0)

14.take,takeRight,takeWhile

take : takeRight(n: Int): List[A] 提取列表的前n個(gè)元素 takeRight: takeRight(n: Int): List[A] 提取列表的最后n個(gè)元素 takeWhile: takeWhile(p: (A) ? Boolean): List[A] 從左向右提取列表的元素,直到條件p不成立

val nums = List(1,1,1,1,4,4,4,4)
val left = nums.take(4)   // List(1,1,1,1)
val right = nums.takeRight(4) // List(4,4,4,4)
val headNums = nums.takeWhile( _ == nums.head)  // List(1,1,1,1)

15.drop,dropRight,dropWhile

drop: drop(n: Int): List[A] 丟棄前n個(gè)元素乞巧,返回剩下的元素 dropRight: dropRight(n: Int): List[A] 丟棄最后n個(gè)元素涨椒,返回剩下的元素 dropWhile: dropWhile(p: (A) ? Boolean): List[A] 從左向右丟棄元素,直到條件p不成立

val nums = List(1,1,1,1,4,4,4,4)
val left = nums.drop(4)   // List(4,4,4,4)
val right = nums.dropRight(4) // List(1,1,1,1)
val tailNums = nums.dropWhile( _ == nums.head)  // List(4,4,4,4)

16.span, splitAt, partition

span : span(p: (A) ? Boolean): (List[A], List[A]) 從左向右應(yīng)用條件p進(jìn)行判斷绽媒,直到條件p不成立蚕冬,此時(shí)將列表分為兩個(gè)列表

splitAt: splitAt(n: Int): (List[A], List[A]) 將列表分為前n個(gè),與,剩下的部分

partition: partition(p: (A) ? Boolean): (List[A], List[A]) 將列表分為兩部分,第一部分為滿足條件p的元素糙置,第二部分為不滿足條件p的元素

val nums = List(1,1,1,2,3,2,1)
val (prefix,suffix) = nums.span( _ == 1) // prefix = List(1,1,1), suffix = List(2,3,2,1)
val (prefix,suffix) = nums.splitAt(3)  // prefix = List(1,1,1), suffix = List(2,3,2,1)
val (prefix,suffix) = nums.partition( _ == 1) // prefix = List(1,1,1,1), suffix = List(2,3,2)

17.padTo

padTo(len: Int, elem: A): List[A]

將列表擴(kuò)展到指定長(zhǎng)度,長(zhǎng)度不夠的時(shí)候赢乓,使用elem進(jìn)行填充忧侧,否則不做任何操作。

 val nums = List(1,1,1)
 val padded = nums.padTo(6,2)   // List(1,1,1,2,2,2)

18.combinations,permutations

combinations: combinations(n: Int): Iterator[List[A]] 取列表中的n個(gè)元素進(jìn)行組合牌芋,返回不重復(fù)的組合列表蚓炬,結(jié)果一個(gè)迭代器

permutations: permutations: Iterator[List[A]] 對(duì)列表中的元素進(jìn)行排列,返回不重得的排列列表躺屁,結(jié)果是一個(gè)迭代器

val nums = List(1,1,3)
val combinations = nums.combinations(2).toList //List(List(1,1),List(1,3))
val permutations = nums.permutations.toList        // List(List(1,1,3),List(1,3,1),List(3,1,1))

19.zip, zipAll, zipWithIndex, unzip,unzip3

zip: zip[B](that: GenIterable[B]): List[(A, B)] 與另外一個(gè)列表進(jìn)行拉鏈操作肯夏,將對(duì)應(yīng)位置的元素組成一個(gè)pair,返回的列表長(zhǎng)度為兩個(gè)列表中短的那個(gè)

zipAll: zipAll[B](that: collection.Iterable[B], thisElem: A, thatElem: B): List[(A, B)] 與另外一個(gè)列表進(jìn)行拉鏈操作犀暑,將對(duì)應(yīng)位置的元素組成一個(gè)pair驯击,若列表長(zhǎng)度不一致,自身列表比較短的話使用thisElem進(jìn)行填充耐亏,對(duì)方列表較短的話使用thatElem進(jìn)行填充

zipWithIndex:zipWithIndex: List[(A, Int)] 將列表元素與其索引進(jìn)行拉鏈操作徊都,組成一個(gè)pair

unzip: unzip[A1, A2](implicit asPair: (A) ? (A1, A2)): (List[A1], List[A2]) 解開(kāi)拉鏈操作

unzip3: unzip3[A1, A2, A3](implicit asTriple: (A) ? (A1, A2, A3)): (List[A1], List[A2], List[A3]) 3個(gè)元素的解拉鏈操作

val alphabet = List("A",B","C")
val nums = List(1,2)
val zipped = alphabet zip nums   // List(("A",1),("B",2))
val zippedAll = alphabet.zipAll(nums,"*",-1)   // List(("A",1),("B",2),("C",-1))
val zippedIndex = alphabet.zipWithIndex  // List(("A",0),("B",1),("C",3))
val (list1,list2) = zipped.unzip        // list1 = List("A","B"), list2 = List(1,2)
val (l1,l2,l3) = List((1, "one", '1'),(2, "two", '2'),(3, "three", '3')).unzip3   // l1=List(1,2,3),l2=List("one","two","three"),l3=List('1','2','3')

20.slice

slice(from: Int, until: Int): List[A] 提取列表中從位置from到位置until(不含該位置)的元素列表

val nums = List(1,2,3,4,5)
val sliced = nums.slice(2,4)  //List(3,4)

21.sliding

sliding(size: Int, step: Int): Iterator[List[A]] 將列表按照固定大小size進(jìn)行分組,步進(jìn)為step广辰,step默認(rèn)為1,返回結(jié)果為迭代器

val nums = List(1,1,2,2,3,3,4,4)
val groupStep2 = nums.sliding(2,2).toList  //List(List(1,1),List(2,2),List(3,3),List(4,4))
val groupStep1 = nums.sliding(2).toList //List(List(1,1),List(1,2),List(2,2),List(2,3),List(3,3),List(3,4),List(4,4))

22.updated

updated(index: Int, elem: A): List[A] 對(duì)列表中的某個(gè)元素進(jìn)行更新操作

val nums = List(1,2,3,3)
val fixed = nums.updated(3,4)  // List(1,2,3,4)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末暇矫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子择吊,更是在濱河造成了極大的恐慌李根,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件几睛,死亡現(xiàn)場(chǎng)離奇詭異房轿,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)所森,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門囱持,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人必峰,你說(shuō)我怎么就攤上這事洪唐∽甑牛” “怎么了吼蚁?”我有些...
    開(kāi)封第一講書人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)问欠。 經(jīng)常有香客問(wèn)我肝匆,道長(zhǎng),這世上最難降的妖魔是什么顺献? 我笑而不...
    開(kāi)封第一講書人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任旗国,我火速辦了婚禮,結(jié)果婚禮上注整,老公的妹妹穿的比我還像新娘能曾。我一直安慰自己度硝,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布寿冕。 她就那樣靜靜地躺著蕊程,像睡著了一般。 火紅的嫁衣襯著肌膚如雪驼唱。 梳的紋絲不亂的頭發(fā)上藻茂,一...
    開(kāi)封第一講書人閱讀 51,737評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音玫恳,去河邊找鬼辨赐。 笑死,一個(gè)胖子當(dāng)著我的面吹牛京办,可吹牛的內(nèi)容都是我干的掀序。 我是一名探鬼主播,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼惭婿,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼森枪!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起审孽,我...
    開(kāi)封第一講書人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤县袱,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后佑力,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體式散,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年打颤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了暴拄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡编饺,死狀恐怖乖篷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情透且,我是刑警寧澤撕蔼,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站秽誊,受9級(jí)特大地震影響鲸沮,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锅论,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一讼溺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧最易,春花似錦怒坯、人聲如沸炫狱。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)毕荐。三九已至,卻和暖如春艳馒,著一層夾襖步出監(jiān)牢的瞬間憎亚,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工弄慰, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留第美,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓陆爽,卻偏偏與公主長(zhǎng)得像什往,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子慌闭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Scala強(qiáng)大的集合操作 Map和FlatMap map[B](f: (A) ? B): List[B]定義一個(gè)變...
    it_zzy閱讀 4,869評(píng)論 0 1
  • Lua 5.1 參考手冊(cè) by Roberto Ierusalimschy, Luiz Henrique de F...
    蘇黎九歌閱讀 13,813評(píng)論 0 38
  • 數(shù)組是一種可變的别威、可索引的數(shù)據(jù)集合。在Scala中用Array[T]的形式來(lái)表示Java中的數(shù)組形式 T[]驴剔。 v...
    時(shí)待吾閱讀 953評(píng)論 0 0
  • Scala的集合類可以從三個(gè)維度進(jìn)行切分: 可變與不可變集合(Immutable and mutable coll...
    時(shí)待吾閱讀 5,823評(píng)論 0 4
  • 已過(guò)去的父親 他省古,不會(huì)多說(shuō),但我知道他在關(guān)注著我丧失; 他豺妓,不多聲響,但我知道我有需要的時(shí)候他一定在我身后布讹; 他琳拭,是個(gè)...
    Elaine的教練心語(yǔ)閱讀 303評(píng)論 0 1