之前在做文本分類時(shí)套耕,發(fā)現(xiàn)在不同業(yè)務(wù)上的文本分類流程是一致的件已,即輸入輸出一致,故把此抽離出來形成一個(gè)基礎(chǔ)工具岸梨,方便對(duì)數(shù)據(jù)有基礎(chǔ)的感知和對(duì)算法有基本...
1曹阔、前言 簡(jiǎn)單API設(shè)計(jì)與制作是數(shù)據(jù)工程師必備的技能之一半开,同時(shí)相信數(shù)學(xué)科班出身的數(shù)據(jù)挖掘工程師在職業(yè)初期都會(huì)思考如何提高個(gè)人的工程性,所以數(shù)據(jù)挖...
目錄 1. 前言2. 數(shù)據(jù)字典3. 優(yōu)雅使用pandas3.1 讀取數(shù)據(jù)3.2 索引與選取3.3 布爾索引3.4 去重3.5 分組3.6 數(shù)據(jù)框...
目錄1.“看不見”的數(shù)據(jù)2. 讓數(shù)據(jù)現(xiàn)身2.1 數(shù)據(jù)API分析2.1.1 數(shù)據(jù)文件在哪里寂拆?2.1.2 guid(數(shù)據(jù)全局唯一標(biāo)識(shí)符)在哪里?2....
目錄 1. 前記2. 文件分割(split)2.1 命令語法2.2 使用實(shí)例(1)查看文件總行數(shù)(2)分割文件(3)分割結(jié)果3. 文件合并...
目錄 1. 迭代(iteration)與迭代器(iterator)1.1 構(gòu)建簡(jiǎn)單迭代器1.2 調(diào)用next()1.3 迭代器狀態(tài)圖2. 生...
目錄 1. 何為代理IP池抓韩?2. 代理IP池構(gòu)建2.1 瀏覽器偽裝2.2 代理IP爬取2.3 代理IP驗(yàn)證2.4 代理IP多進(jìn)程驗(yàn)證2.5 函數(shù)...
目錄 1. Python多線程與多進(jìn)程知識(shí)1.1 并發(fā)與并行1.2 線程(thread)與進(jìn)程(process)1.3 IO密集型與CPU密集...