spark 2.0 新特性

Spark Core & SparkSQL

  • dataframe與dataset統(tǒng)一历葛,dataframe只是dataset[Row]的類型別名,移除dataframe類嘀略。
  • dataset增強(qiáng)聚合api
  • SparkSession:統(tǒng)一SQLContext和HiveContext
  • accumulator功能增強(qiáng):便攜api恤溶、webUI支持,性能提高
  • 支持sql2003 標(biāo)準(zhǔn)
  • 支持ansi-sql和hive sql的sql parser
  • 支持ddl命令
  • 支持子查詢
  • 支持csv文件
  • 支持hive風(fēng)格的bucket表
  • 通過whole-stage code genetation技術(shù)將spark sql和dataset的性能提升2~10倍
  • 通過vectorization技術(shù)提升parquet文件的掃描吞吐量
  • 提升orc文件的讀寫性能
  • 提升catalyst查詢優(yōu)化器的性能
  • 通過native實現(xiàn)方式提升窗口函數(shù)的性能
  • 對某些數(shù)據(jù)源進(jìn)行自動文件合并

Spark MLlib

  • Spark MLlib 未來將主要基于dataset api來實現(xiàn)帜羊,基于rdd的api轉(zhuǎn)為維護(hù)階段
  • 基于dataframe的api咒程,支持持久化保存和加載模型和pipeline
  • 基于dataframe的api,支持更多算法讼育,包括k-means帐姻,高斯混合、maxabsscaler
  • spark R 支持mlib算法奶段,包括線性回歸饥瓷,樸素貝葉斯、k-means忧饭、多元回歸等
  • pyspark支持更多MLlib算法扛伍,包括LDA筷畦、高斯混合词裤、泛化線性回歸等
  • 基于dataframe的api刺洒,向量和矩陣使用性能更高的序列化機(jī)制

Spark Streaming

  • 發(fā)布測試版的structured streaming:
    基于spark sql和catalyst引擎構(gòu)建
    支持使用dataframe風(fēng)格的api進(jìn)行流式計算操作
    catalyst 引擎能夠?qū)?zhí)行計劃進(jìn)行優(yōu)化
  • 基于DStream的api支持kafka 0.10 版本

依賴管理、打包

  • 不再需要在生產(chǎn)環(huán)境部署時打包fat jar吼砂,可以使用provided風(fēng)格
  • 完全移除了對akka的依賴(spark 1.6已經(jīng)開始移除一部分)
  • mesos粗粒度模式下逆航,支持啟動多個executor
  • 支持kryo 3.0版本
  • 使用scala 2.11 替代了scala 2.10

移除的功能

  • bagel模塊
  • 對hadoop2.1 以及之前版本的支持
  • 閉包序列化配置的支持
  • HTTPBroadcast 的支持
  • 基于TTL模式的元數(shù)據(jù)清理支持
  • 半私有的org.apache.spark.Logging的使用支持
  • SparkContext.metricsSystem API
  • 與tachyon的面向block的整合支持
  • spark 1.x中標(biāo)記為過期的api
  • python dataframe中返回rdd的方法
  • 使用很少的streaming數(shù)據(jù)源支持:twitter、akka渔肩、MQTT因俐、ZeroMQ
  • hash-based shuffle manager
  • standalone master的歷史數(shù)據(jù)的支持功能
  • dataframe不再是一個類,而是dataset[Row]的類型別名

變化的機(jī)制

  • SQL中的浮點類型周偎,使用decima類型表示抹剩,而不是double類型
  • JAVA的flatMap和mapPartition方法,從iterable類型轉(zhuǎn)變?yōu)閕terator類型
  • JAVA的countByKey返回<K,Long>類型蓉坎,而不是<K,Object>類型
  • 寫parquet文件時澳眷,summary文件默認(rèn)不會寫了,需要開啟參數(shù)來啟用
  • spark millib 中蛉艾,基于dataframe的api完全依賴自己钳踊,不在依賴mllib包

過期的API

  • mesos的細(xì)粒度支持
  • java7支持標(biāo)記為過期,可能2.x未來版本會移除支持
  • python 2.6 的支持
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勿侯,一起剝皮案震驚了整個濱河市拓瞪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌助琐,老刑警劉巖祭埂,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異兵钮,居然都是意外死亡沟堡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進(jìn)店門矢空,熙熙樓的掌柜王于貴愁眉苦臉地迎上來航罗,“玉大人,你說我怎么就攤上這事屁药≈嘌” “怎么了?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵酿箭,是天一觀的道長复亏。 經(jīng)常有香客問我,道長缭嫡,這世上最難降的妖魔是什么缔御? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮妇蛀,結(jié)果婚禮上耕突,老公的妹妹穿的比我還像新娘笤成。我一直安慰自己,他們只是感情好眷茁,可當(dāng)我...
    茶點故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布炕泳。 她就那樣靜靜地躺著,像睡著了一般上祈。 火紅的嫁衣襯著肌膚如雪培遵。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天登刺,我揣著相機(jī)與錄音籽腕,去河邊找鬼。 笑死纸俭,一個胖子當(dāng)著我的面吹牛节仿,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播掉蔬,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼廊宪,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了女轿?” 一聲冷哼從身側(cè)響起箭启,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蛉迹,沒想到半個月后傅寡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡北救,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年荐操,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片珍策。...
    茶點故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡托启,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出攘宙,到底是詐尸還是另有隱情屯耸,我是刑警寧澤,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布蹭劈,位于F島的核電站疗绣,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏铺韧。R本人自食惡果不足惜多矮,卻給世界環(huán)境...
    茶點故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望哈打。 院中可真熱鬧塔逃,春花似錦讯壶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽罢维。三九已至淹仑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肺孵,已是汗流浹背匀借。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留平窘,地道東北人吓肋。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓,卻偏偏與公主長得像瑰艘,于是被迫代替她去往敵國和親是鬼。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內(nèi)容