![240](https://upload.jianshu.io/users/upload_avatars/23086282/2282dec9-13a2-4627-8b8e-22f2c39d9ff1.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
1. sum() SUM(show_cnt) OVER (ORDER BY show_cnt DESC) AS acc_show_cnt, --逐行累計(jì) SUM(sh...
1. drop columns df.drop(columns=['Founder', 'Locations']) 2. 兩列復(fù)制到一起 df['aaa'] = df['aa...
在因果推斷的學(xué)習(xí)中,遇到了ATE投蝉、ATC器赞、ATT三個(gè)詞,感覺(jué)很抽象不好理解墓拜。直到在油管上看到一個(gè)視頻港柜,解釋得比較容易理解,在此記錄下來(lái)。用上面這一張圖夏醉,就可以理解這三個(gè)概念爽锥。...
在Python上做PSM,可以使用causalinference這個(gè)庫(kù)畔柔。以下介紹使用方法氯夷。 這個(gè)數(shù)據(jù)集是員工的個(gè)人信息(經(jīng)驗(yàn)、性別靶擦、種族等等)和工資腮考。假如我們要看性別這一個(gè)因...
1. distinct select distinct 列名 from 表名 2. row_number select *,row_number() over (partit...
常用的優(yōu)化方式:https://www.changchenghao.cn/n/174426.html 對(duì)查詢進(jìn)行優(yōu)化,應(yīng)盡量避免全表掃描玄捕,首先應(yīng)考慮在 where和order...
之前配置應(yīng)用過(guò)的一些SQL應(yīng)用函數(shù)踩蔚,留作記錄。 截?cái)嗳掌陬愋秃瘮?shù)date_trunc() 根據(jù)指定的日期部分截?cái)鄷r(shí)間戳表達(dá)式或文字枚粘。語(yǔ)法:date_trunc(datepar...
RF馅闽、GBDT和XGBoost都屬于集成學(xué)習(xí)(Ensemble Learning),集成學(xué)習(xí)的目的是通過(guò)結(jié)合多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果來(lái)改善單個(gè)學(xué)習(xí)器的泛化能力和魯棒性馍迄。根據(jù)個(gè)體...
考察:Spark和Hadoop運(yùn)行機(jī)制的理解,對(duì)技術(shù)應(yīng)用場(chǎng)景的敏感性和理解程度攀圈,這對(duì)工作的具體質(zhì)量有很大的影響暴凑。 Spark SQL比Hadoop Hive快,是有一定條件的...
一赘来、什么是埋點(diǎn) 所謂埋點(diǎn)是數(shù)據(jù)領(lǐng)域的專業(yè)術(shù)語(yǔ)搬设,也是互聯(lián)網(wǎng)應(yīng)用里的一個(gè)俗稱。它的學(xué)名應(yīng)該叫做事件追蹤撕捍,對(duì)應(yīng)的英文是Event Tracking拿穴。它主要是針對(duì)特定用戶行為或事件進(jìn)...
新開(kāi)一個(gè)面試專題,爭(zhēng)取在面試中不要掉鏈子~ 今日份知識(shí)點(diǎn)串講: 置信度忧风、置信區(qū)間 置信區(qū)間是我們所計(jì)算出的變量存在的范圍默色,置信水平就是我們對(duì)于這個(gè)數(shù)值存在于我們計(jì)算出的這個(gè)范...
量化用戶的內(nèi)容、想法狮腿、信念和意見(jiàn)被稱為情感分析腿宰。用戶的在線帖子、博客缘厢、推特吃度、產(chǎn)品的反饋有助于商業(yè)人士了解目標(biāo)受眾,并在產(chǎn)品和服務(wù)方面進(jìn)行創(chuàng)新贴硫。情緒分析有助于以更好椿每、更準(zhǔn)確的方...
接著上一篇nltk的學(xué)習(xí)筆記亦渗,今天我們繼續(xù)來(lái)看看nltk更多的內(nèi)容~ Stopword 停用詞: 停用詞在文本中被視為噪音。文本可能包含停用詞汁尺,例如is法精,am,are痴突,thi...
文本挖掘也稱為文本分析,文本挖掘是探索大量文本數(shù)據(jù)并查找模式的過(guò)程辽装,我們將學(xué)習(xí)NLTK這個(gè)包帮碰,他功能強(qiáng)大,提供了一組多種自然語(yǔ)言算法如迟。讓我們一起來(lái)看看吧~ 首先,要在你的電腦...
https://www.cnblogs.com/dreamingbaobei/p/9717234.html search方法攻走,進(jìn)行比對(duì)查找 也可以: 前面的字符串是規(guī)則殷勘,后面...
最近擠出時(shí)間,用python在kaggle上試了幾個(gè)project昔搂,有點(diǎn)體會(huì)玲销,記錄下。 Step1: Exploratory Data Analysis EDA摘符,也就是對(duì)數(shù)據(jù)...
1.準(zhǔn)備工作 我們要分析豆瓣前250的電影~首先因?yàn)樗?5部電影一頁(yè)贤斜,所以我們看看他是怎么分頁(yè)的 原來(lái),在link里面逛裤,如果start = 25的話瘩绒,新的一頁(yè)就會(huì)顯示從26...