大數(shù)據(jù)時(shí)代,掌握處理數(shù)據(jù)的技能是必要的,書單包括數(shù)據(jù)清洗+數(shù)據(jù)挖掘+數(shù)據(jù)分析......
1自赔、數(shù)據(jù)清洗入門與實(shí)踐
作者:Megan Squire
譯者:任政委
★ 真實(shí)事例講解數(shù)據(jù)清洗入門译荞!
★ 真實(shí)項(xiàng)目鍛煉實(shí)踐數(shù)據(jù)清洗!
《干凈的數(shù)據(jù):數(shù)據(jù)清洗入門與實(shí)踐》從文件格式玻墅、數(shù)據(jù)類型、字符編碼等基本概念講起壮虫,通過真實(shí)的示例澳厢,探討如何提取和清洗關(guān)系型數(shù)據(jù)庫、網(wǎng)頁文件和PDF文檔中的數(shù)據(jù)囚似。最后提供了兩個(gè)真實(shí)的項(xiàng)目剩拢,讓讀者將所有數(shù)據(jù)清洗技術(shù)付諸實(shí)踐,完成整個(gè)數(shù)據(jù)科學(xué)過程饶唤。
2徐伐、數(shù)據(jù)科學(xué)入門
作者:Joel Grus
譯者:高蓉 韓波
★ Google數(shù)據(jù)科學(xué)家作品!
★ 數(shù)據(jù)科學(xué)基本知識(shí)的重量級(jí)讀本搬素!
《數(shù)據(jù)科學(xué)入門》從零開始講解數(shù)據(jù)科學(xué)工作呵晨,教授數(shù)據(jù)科學(xué)工作所必需的黑客技能,并帶領(lǐng)讀者熟悉數(shù)據(jù)科學(xué)的核心知識(shí)——數(shù)學(xué)和統(tǒng)計(jì)學(xué)熬尺。 作者選擇了功能強(qiáng)大摸屠、簡(jiǎn)單易學(xué)的Python語言環(huán)境,親手搭建工具和實(shí)現(xiàn)算法粱哼,并精心挑選了注釋良好季二、簡(jiǎn)潔易讀的實(shí)現(xiàn)范例。書中涵蓋的所有代碼和數(shù)據(jù)都可以在GitHub上下載揭措。
通過閱讀本書胯舷,你可以:
? 學(xué)到一堂Python速成課;
? 學(xué)習(xí)線性代數(shù)绊含、統(tǒng)計(jì)和概率論的基本方法桑嘶,了解它們是怎樣應(yīng)用在數(shù)據(jù)科學(xué)中的;
? 掌握如何收集躬充、探索逃顶、清理讨便、轉(zhuǎn)換和操作數(shù)據(jù);
? 深入理解機(jī)器學(xué)習(xí)的基礎(chǔ)以政;
? 運(yùn)用k-近鄰霸褒、樸素貝葉斯、線性回歸和邏輯回歸盈蛮、決策樹废菱、神經(jīng)網(wǎng)絡(luò)和聚類等各種數(shù)據(jù)模型;
? 探索推薦系統(tǒng)抖誉、自然語言處理殊轴、網(wǎng)絡(luò)分析、MapReduce和數(shù)據(jù)庫寸五。
3梳凛、Python網(wǎng)絡(luò)數(shù)據(jù)采集
作者:Ryan Mitchell
譯者:陶俊杰 陳小莉
《Python網(wǎng)絡(luò)數(shù)據(jù)采集》采用簡(jiǎn)潔強(qiáng)大的Python語言,全面介紹網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)梳杏,教你從不同形式的網(wǎng)絡(luò)資源中自由地獲取數(shù)據(jù)。你將學(xué)會(huì)如何使用Python腳本和網(wǎng)絡(luò)API一次性采集并處理成千上萬個(gè)網(wǎng)頁上的數(shù)據(jù)淹接。書中內(nèi)容還包括分析原始數(shù)據(jù)十性、用網(wǎng)絡(luò)爬蟲測(cè)試網(wǎng)站等。還提供了詳細(xì)的代碼示例塑悼。
“這本書中的工具和示例幫我輕松地將一些重復(fù)性工作自動(dòng)化了劲适,我可以將省下來的時(shí)間用于解決更有意思的問題。這是一本實(shí)用手冊(cè)厢蒜,非常適合用來解決實(shí)際工作中的問題霞势。”
——Eric VanWyk斑鸦,美國歐林工程學(xué)院電子計(jì)算機(jī)工程師
4愕贡、洞悉數(shù)據(jù):用可視化方法發(fā)掘數(shù)據(jù)真義
作者:Hunter Whitney
譯者:劉云濤
★ 多學(xué)科、多維度巷屿、清晰全面地理解數(shù)據(jù)和數(shù)據(jù)可視化固以!?
《洞悉數(shù)據(jù):用可視化方法發(fā)掘數(shù)據(jù)真義》包含各種插圖、名人名言和現(xiàn)實(shí)生活中的例子嘱巾,以及商業(yè)分析憨琳、醫(yī)療、網(wǎng)絡(luò)監(jiān)控旬昭、安全和游戲等領(lǐng)域的案例分析篙螟,來演示可視化如何讓數(shù)據(jù)變得更清晰、更全面问拘,通過對(duì)數(shù)據(jù)可視化的廣泛用途和適用性的討論遍略,來了解它如何讓數(shù)據(jù)變得更加讓人容易接受和理解慢味。
“這本書的重點(diǎn)在于提供理解數(shù)據(jù)的不同視角。我們?nèi)绾卫斫膺@本書中的信息完全在于我們自己的視角墅冷。我認(rèn)為這本書的主題是保持開放的心態(tài)纯路,這樣才能看到理解信息的全新機(jī)遇,它絕不是片面的說明文寞忿〕刍#”
——亞馬遜讀者評(píng)論
5、決策知識(shí)自動(dòng)化:大數(shù)據(jù)時(shí)代的商業(yè)決策分析方法
作者:Alan N. Fish
譯者:王飛躍 王曉 鄭心湖
★ 知名科學(xué)家王飛躍譯著腔彰,柴天佑等院士聯(lián)名推薦叫编!
《決策知識(shí)自動(dòng)化:大數(shù)據(jù)時(shí)代的商業(yè)決策分析方法》是大數(shù)據(jù)商業(yè)實(shí)踐手冊(cè),通過大量來源于流程自動(dòng)化的主流應(yīng)用場(chǎng)景霹抛,聚焦于企業(yè)業(yè)務(wù)流程中經(jīng)營決策的知識(shí)自動(dòng)化這一主題搓逾,向讀者展示如何在實(shí)踐中應(yīng)用決策管理系統(tǒng)更高效地管理項(xiàng)目。 本書適合各企業(yè)CEO杯拐、CIO霞篡、IT架構(gòu)師以及一切對(duì)知識(shí)自動(dòng)化理論感興趣的讀者。
“Fish博士提出的收集端逼、建模與管理決策需求的方法行之十分有效朗兵。對(duì)于任何想要建立決策管理系統(tǒng),或是高效地以決策為中心進(jìn)行形勢(shì)分析和開展商業(yè)自動(dòng)化的組織顶滩、團(tuán)體或個(gè)人余掖,本書都是必讀之選〗嘎常”
——James Taylor盐欺,Decision Management Solutions公司CEO、首席顧問
6仅醇、社會(huì)媒體挖掘
作者:Reza Zafarani 冗美, Mohammad Ali Abbasi , Huan Liu
譯者:劉挺 秦兵 趙妍妍
★ 掌握基本原理和方法着憨,從火熱的社會(huì)媒體中挖掘真義墩衙!
《社會(huì)媒體挖掘》整合了社會(huì)媒體、社會(huì)網(wǎng)絡(luò)分析以及數(shù)據(jù)挖掘的相關(guān)知識(shí)甲抖,為學(xué)生漆改、從業(yè)者、研究人員和項(xiàng)目經(jīng)理理解社會(huì)媒體挖掘的基礎(chǔ)知識(shí)和潛能准谚,提供了一個(gè)方便的平臺(tái)挫剑。本書介紹了社會(huì)媒體數(shù)據(jù)獨(dú)有的問題,并闡述了網(wǎng)絡(luò)分析以及數(shù)據(jù)挖掘中的基本概念柱衔、新出現(xiàn)的問題和有效的算法樊破。 書中涵蓋了不同難度的練習(xí)題愉棱,可以幫助讀者在社會(huì)媒體數(shù)據(jù)挖掘的不同場(chǎng)景中理解和應(yīng)用相關(guān)的概念、原理以及方法哲戚。
7奔滑、云數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)
作者:Gary Lee
譯者:唐富年
★ 由英特爾公司內(nèi)部專家撰寫,介紹支撐云數(shù)據(jù)中心的前沿網(wǎng)絡(luò)技術(shù)顺少!
《云數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)》聚焦于數(shù)據(jù)中心內(nèi)部的網(wǎng)絡(luò)朋其,所討論的話題集中在大型云數(shù)據(jù)中心內(nèi)部組網(wǎng)所需的設(shè)備、軟件和標(biāo)準(zhǔn)脆炎。主要內(nèi)容包括:云計(jì)算和云端網(wǎng)絡(luò)互連概述梅猿,數(shù)據(jù)中心的演變,交換結(jié)構(gòu)技術(shù)秒裕,云數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)袱蚓,網(wǎng)絡(luò)虛擬化,軟件定義網(wǎng)絡(luò)几蜻,等等喇潘。 本書適合云計(jì)算網(wǎng)絡(luò)、網(wǎng)絡(luò)建設(shè)入蛆、網(wǎng)絡(luò)管理响蓉、系統(tǒng)集成行業(yè)的開發(fā)人員、技術(shù)工程師等閱讀哨毁。
8、人人都是數(shù)據(jù)分析師:Tableau應(yīng)用實(shí)戰(zhàn)
作者:劉紅閣 王淑娟 溫融冰
★ 基于9.1版本源武,采用實(shí)際案例扼褪,深度講解核心功能!
★ Tableau亞太區(qū)副總裁粱栖、埃森哲大中華區(qū)董事總經(jīng)理傾情作序话浇!
★ 特斯拉、百度闹究、亞馬遜等數(shù)據(jù)分析師聯(lián)袂推薦!
★ 簡(jiǎn)單易用,拖放成圖青责,無需統(tǒng)計(jì)捻撑、計(jì)算機(jī)背景,即可進(jìn)行可視化分析价认,分秒間讀取嗅定,快速引擎處理,幫你看見并讀懂大數(shù)據(jù)用踩!
《人人都是數(shù)據(jù)分析師:Tableau應(yīng)用實(shí)戰(zhàn)》包括數(shù)據(jù)連接與編輯渠退、圖形展示與編輯功能忙迁,如何與R等工具進(jìn)行集成,如何在服務(wù)器上進(jìn)行發(fā)布管理等內(nèi)容碎乃,而且廣泛覆蓋數(shù)據(jù)獲取與管理姊扔、基礎(chǔ)與高級(jí)圖形分析、地圖分析梅誓、交互分析與數(shù)據(jù)挖掘恰梢、圖表集成整合與分享發(fā)布等主要內(nèi)容,方便大家快速掌握敏捷分析方法與技術(shù)证九。
“本書通過真實(shí)的案例删豺,闡述了一個(gè)完全不同于以往的數(shù)據(jù)分析方法論。它展示了領(lǐng)先企業(yè)如何讓商業(yè)智能不再局限于少數(shù)技術(shù)人員愧怜,讓多數(shù)人都掌握自助分析呀页,讀懂?dāng)?shù)據(jù)創(chuàng)造更大的價(jià)值∮堤常”
——JY Pook蓬蝶, Tableau亞太區(qū)副總裁
9、Spark快速大數(shù)據(jù)分析
作者:Holden Karau 猜惋, Andy Konwinski 丸氛, Patrick Wendell , Matei Zaharia
譯者:王道遠(yuǎn)
★ Spark開發(fā)者及核心成員共同打造著摔!
《Spark快速大數(shù)據(jù)分析》講解了網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代應(yīng)運(yùn)而生的缓窜、能高效迅捷地分析處理數(shù)據(jù)的工具——Spark,它帶領(lǐng)讀者快速掌握用 Spark收集谍咆、計(jì)算禾锤、簡(jiǎn)化和保存海量數(shù)據(jù)的方法,學(xué)會(huì)交互摹察、迭代和增量式分析恩掷,解決分區(qū)、數(shù)據(jù)本地化和自定義序列化等問題供嚎』颇铮可以讓數(shù)據(jù)科學(xué)家和工程師即刻上手。你能學(xué)到如何使用簡(jiǎn)短的代碼實(shí)現(xiàn)復(fù)雜的并行作業(yè)克滴,還能了解從簡(jiǎn)單的批處理作業(yè)到流處理以及機(jī)器學(xué)習(xí)等應(yīng)用逼争。
10、Spark高級(jí)數(shù)據(jù)分析
作者:Sandy Ryza 偿曙, Uri Laserson 氮凝, Sean Owen , Josh Wills
譯者:龔少成
★ Cloudera公司數(shù)據(jù)科學(xué)家團(tuán)隊(duì)攜手打造望忆,教你用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析罩阵!
★ 使用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的實(shí)戰(zhàn)寶典竿秆!
這是一本實(shí)用手冊(cè),四位作者均是Cloudera公司的數(shù)據(jù)科學(xué)家稿壁,他們聯(lián)袂展示了利用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的若干模式幽钢,而且每個(gè)模式都自成一體。他們將Spark傅是、統(tǒng)計(jì)學(xué)方法和真實(shí)數(shù)據(jù)集結(jié)合起來匪燕,通過實(shí)例向讀者講述了怎樣解決分析型問題。
《Spark高級(jí)數(shù)據(jù)分析》首先介紹了Spark及其生態(tài)系統(tǒng)喧笔,接著詳細(xì)介紹了將分類帽驯、協(xié)同過濾及異常檢查等常用技術(shù)應(yīng)用于基因?qū)W、安全和金融領(lǐng)域的若干模式书闸。如果你對(duì)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)有基本的了解尼变,并且會(huì)用Java、Python或Scala編程浆劲,這些模式將有助于你開發(fā)自己的數(shù)據(jù)應(yīng)用嫌术。
更多書訊盡在圖靈社區(qū)