好累乏矾,記一下今天的成果泼菌,然后趕緊睡覺(jué)
文本挖掘課程
今天上了文本挖掘課程泳挥,講了一些統(tǒng)計(jì)語(yǔ)言模型的歷史和簡(jiǎn)單的中文分詞技術(shù),然后使用jieba分詞做了小練習(xí):用lxml爬一些文章下來(lái)革骨,然后分詞饮六,最后使用wordcould做詞云。
爬文章
import lxml.html
from urllib import request
f1 = request.urlopen('http://news.baidu.com/').read()
lxf1 = lxml.html.fromstring(f1)
lxf1l = lxf1.cssselect('a.a3')
lxf1ls = [[l.get('href'),l.text_content()] for l in lxf1l]
#lxf1lspd = pd.DataFrame(lxf1ls)
for ls in [lxf1ls[0]]:
ls1 = request.urlopen(ls[0]).read()
lxls1 = lxml.html.fromstring(ls1)
lxls1l = lxls1.cssselect('div > p')
lxls1ltext = '\n'.join([x.text_content() for x in lxls1l])
print(ls[1])
print('----------------------')
print(lxls1ltext)
print('======================')
詞云
import jieba
from wordcloud import WordCloud
jtext = jieba.cut(lxls1ltext,cut_all=False)
wcjtext = '/'.join(jtext)
fp = r'C:\Windows\Fonts\simkai.ttf'
wordcloud = WordCloud(font_path=fp,background_color='white',scale=1.5).generate(wcjtext)
plt.figure(1,(10,10))
plt.imshow(wordcloud)
大概就是這樣了苛蒲。
Python金融大數(shù)據(jù)分析
下課以后學(xué)了這個(gè),感覺(jué)python的pandas庫(kù)太牛了绿满,做數(shù)據(jù)分析必備臂外。雖然之前用也在用這個(gè)庫(kù),但是從來(lái)沒(méi)有系統(tǒng)的學(xué)習(xí)過(guò)喇颁,這次稍微看了看書(shū)漏健,書(shū)上的一些高級(jí)用法讓人眼前一亮。
從yahoo下載Google股價(jià)橘霎,計(jì)算收益率年化波動(dòng)
import numpy as np
import pandas as pd
import pandas_datareader as web
import matplotlib.pyplot as plt
import math
import numexpr as ne
ne.set_num_threads(4)
goog = web.DataReader('GOOG',data_source='yahoo',start='2009-01-01',end='2017-01-01') # 用校園網(wǎng)有線連接
goog['Log_Ret'] = np.log(goog['Close']/goog['Close'].shift(1))
goog['Volatility'] = goog['Log_Ret'].rolling(window=252).std()*np.sqrt(252) # 年化
#%matplotlib inline
goog[['Close','Volatility']].plot(subplots=True,color=['blue','red'],figsize=(8,6),grid=True)
使用numexpr加速numpy科學(xué)計(jì)算
import numexpr as ne
loops = 1000000
a = np.arange(1,loops)
%timeit r = 3*np.log(a)+np.cos(a)**2
ne.set_num_threads(1)
%timeit r = ne.evaluate('3*log(a)+cos(a)**2')
ne.set_num_threads(4)
%timeit r = ne.evaluate('3*log(a)+cos(a)**2')
10 loops, best of 3: 138 ms per loop
10 loops, best of 3: 61.4 ms per loop
10 loops, best of 3: 31.2 ms per loop
使用numexpr以后蔫浆,速度翻倍,增加線程數(shù)量姐叁,速度再次翻倍瓦盛。
%prun魔法函數(shù)代碼分析
%prun r = ne.evaluate('3*log(a)+cos(a)**2')
IPython的Latex
#%%
%%latex
\begin{equation}
S_T = S_0 e^{(r - 0.5\sigma^2) T + \sigma \sqrt{T} z}
\end{equation}
Bravo洗显!我一定要好好學(xué)python!
MineCraft比拼
想學(xué)Java原环,打算看看之前玩的游戲MineCraft的源碼挠唆。
下面放幾個(gè)鏈接:
http://hopper.minecraft.net/help/pixel-format-not-accelerated/
錯(cuò)誤處理:我的電腦只有集顯(獨(dú)顯的驅(qū)動(dòng)壞了,不能更新)嘱吗,所以報(bào)錯(cuò)玄组,看這個(gè)是因?yàn)槭褂肐ntel HD 3000的集顯,太low谒麦,所以Java版本不能太高俄讹,之前一直用的jre1.8.0_144,降低到j(luò)re6就好了绕德。
https://tieba.baidu.com/p/4421623213?red_tag=0927855031
https://tieba.baidu.com/p/4251510226?red_tag=1211872928
教你怎么看MineCraft的源碼患膛。Java太惡心看不下去......
http://www.modcoderpack.com/website/content/
反編譯器的下載地址,對(duì)應(yīng)好版本下載即可迁匠。
我用了原來(lái)的我的世界精靈客戶端剩瓶,和網(wǎng)易的客戶端,發(fā)現(xiàn)網(wǎng)易代理超級(jí)卡城丧。當(dāng)然延曙,如果使用集顯,網(wǎng)易客戶端不能使用過(guò)高版本的MineCraft亡哄,因?yàn)?.12的我的世界用的是jre8枝缔,降低到1.7.10就是用的jie7,jie7下渣渣集顯啟動(dòng)成功蚊惯。
用其他的非網(wǎng)易代理的盜版客戶端時(shí)候愿卸,注意也要更改jre版本。如果改不了的截型,去%AppData%\Roaming\XXX\下找找java.list趴荸、config一類的配置文件,手動(dòng)修改jre地址宦焦。這里XXX就是使用的盜版客戶端的名字了(MCELF发钝,MCLC什么的)。無(wú)奈波闹,網(wǎng)易代理不給力啊酝豪,想玩win10自帶的C++版MineCraft了。
睏=_=精堕。