Anaconda介紹
- Anaconda 是一個(gè)包含數(shù)據(jù)科學(xué)常用包的 Python 發(fā)行版本嗦明。它基于 conda ——一個(gè)包和環(huán)境管理器——衍生而來(lái)蚪燕。你將使用 conda 創(chuàng)建環(huán)境奔浅,以便分隔使用不同 Python 版本和不同程序包的項(xiàng)目裙戏。你還將使用它在環(huán)境中安裝、卸載和更新包累榜。通過(guò)使用 Anaconda,處理數(shù)據(jù)的過(guò)程將更加愉快葛作。
- Anaconda 能讓你在數(shù)據(jù)科學(xué)的工作中輕松安裝經(jīng)常使用的程序包。你還將使用它創(chuàng)建虛擬環(huán)境赂蠢,以便更輕松地處理多個(gè)項(xiàng)目辨泳。Anaconda 簡(jiǎn)化了工作流程,并且解決了多個(gè)包和 Python 版本之間遇到的大量問(wèn)題菠红。
- Anaconda 實(shí)際上是一個(gè)軟件發(fā)行版,它附帶了 conda蔑滓、Python 和 150 多個(gè)科學(xué)包及其依賴項(xiàng)。應(yīng)用程序 conda 是包和環(huán)境管理器键袱。Anaconda 的下載文件比較大(約 500 MB)摹闽,因?yàn)樗綆Я?Python 中最常用的數(shù)據(jù)科學(xué)包。如果只需要某些包付鹿,或者需要節(jié)省帶寬或存儲(chǔ)空間,也可以使用 Miniconda 這個(gè)較小的發(fā)行版(僅包含 conda 和 Python)倘屹。但你仍可以使用 conda 來(lái)安裝任何可用的包纽匙,它只是自身沒(méi)有附帶這些包而已拍谐。
Jupyter notebook介紹
Jupyter notebook 是一種 Web 文檔馏段,能讓你將文本践瓷、圖像和代碼全部組合到一個(gè)文檔中。它事實(shí)上已經(jīng)成為數(shù)據(jù)分析的標(biāo)準(zhǔn)環(huán)境晕翠。Jupyter notebook 源自 2011 年的 IPython 項(xiàng)目,之后迅速流行起來(lái)淋肾。
pip介紹
Python 庫(kù)的默認(rèn)包管理器
conda 與 pip 相似,不同之處是可用的包以數(shù)據(jù)科學(xué)包為主拿愧,而 pip 適合一般用途。與此同時(shí)碌尔,conda 并非 像 pip 那樣專門(mén)適用于 Python,它也可以安裝非 Python 的包柳洋。它是支持 任何 軟件的包管理器。也就是說(shuō)膳灶,雖然并非所有的 Python 庫(kù)都能通過(guò) Anaconda 發(fā)行版和 conda 獲得立由,但同時(shí)它也支持非 Python 庫(kù)的獲得。在使用 conda 的同時(shí)锐膜,你仍可以使用 pip 來(lái)安裝包。
conda介紹
- 除了管理包之外而柑,conda 還是虛擬環(huán)境管理器。它類似于另外兩個(gè)很流行的環(huán)境管理器媒咳,即 virtualenv 和 pyenv种远。
- 環(huán)境能讓你分隔用于不同項(xiàng)目的包。你常常要使用依賴于某個(gè)庫(kù)的不同版本的代碼坠敷。例如射富,你的代碼可能使用了 Numpy 中的新功能粥帚,或者使用了已刪除的舊功能。實(shí)際上芒涡,不可能同時(shí)安裝兩個(gè) Numpy 版本。你要做的應(yīng)該是弛槐,為每個(gè) Numpy 版本創(chuàng)建一個(gè)環(huán)境,然后項(xiàng)目的對(duì)應(yīng)環(huán)境中工作乎串。在應(yīng)對(duì) Python 2 和 Python 3 時(shí)速警,此問(wèn)題也會(huì)常常發(fā)生。你可能會(huì)使用在 Python 3 中不能運(yùn)行的舊代碼闷旧,以及在 Python 2 中不能運(yùn)行的新代碼。同時(shí)安裝兩個(gè)版本可能會(huì)造成許多混亂和錯(cuò)誤忙灼,而創(chuàng)建獨(dú)立的環(huán)境會(huì)好很多。你也可以將環(huán)境中的包列表導(dǎo)出為文件酸舍,然后將該文件與代碼包括在一起。這能讓其他人輕松加載代碼的所有依賴項(xiàng)啃勉。pip 提供了類似的功能双妨,即
pip freeze > requirements.txt
。
安裝 Anaconda
Anaconda 可用于 Windows刁品、Mac OS X 和 Linux√羲妫可以在 https://www.continuum.io/downloads 上找到安裝程序和安裝說(shuō)明。
國(guó)內(nèi)網(wǎng)如果不好的話 可以使用
清華大學(xué)開(kāi)源軟件鏡像站
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
注:Anaconda3-4.4.0-Windows-x86_64.exe(對(duì)應(yīng)是64位python3.6版本)
如果計(jì)算機(jī)上已經(jīng)安裝了 Python竞阐,這不會(huì)有任何影響骆莹。實(shí)際上,腳本和程序使用的默認(rèn) Python 是 Anaconda 附帶的 Python幕垦。
選擇 Python 3.6 版本(你也可以根據(jù)具體的需要選擇 Python 2 的版本)傅联。此外,如果是 64 位操作系統(tǒng)蒸走,則選擇 64 位安裝程序,否則選擇 32 位安裝程序比驻。繼續(xù)并選擇合適的版本,然后安裝它别惦。之后,繼續(xù)進(jìn)行氯庆!
完成安裝后,會(huì)自動(dòng)進(jìn)入默認(rèn)的 conda 環(huán)境堤撵,而且所有包均已安裝完畢悯周,如下面所示∏菀恚可以在終端或命令提示符中鍵入 conda list
,以查看你安裝的內(nèi)容闰挡。
在 Windows 上,會(huì)隨 Anaconda 一起安裝一批應(yīng)用程序:
- Anaconda Navigator溪北,它是用于管理環(huán)境和包的 GUI
- Anaconda Prompt 終端,它可讓你使用命令行界面來(lái)管理環(huán)境和包
- Spyder之拨,它是面向科學(xué)開(kāi)發(fā)的 IDE
為了避免報(bào)錯(cuò),我推薦在默認(rèn)環(huán)境下更新所有的包蚀乔。打開(kāi) Anaconda Prompt (或者 Mac 下的終端),鍵入:
conda upgrade --all
并在提示是否更新的時(shí)候輸入 y(Yes)以便讓更新繼續(xù)派撕。初次安裝下的軟件包版本一般都比較老舊,因此提前更新可以避免未來(lái)不必要的問(wèn)題终吼。
管理包
安裝了 Anaconda 之后氯哮,管理包是相當(dāng)簡(jiǎn)單的。要安裝包蛙粘,請(qǐng)?jiān)诮K端中鍵入 conda install package_name
。例如出牧,要安裝 numpy,請(qǐng)鍵入 conda install numpy
舔痕。
你還可以同時(shí)安裝多個(gè)包。類似 conda install numpy scipy pandas
的命令會(huì)同時(shí)安裝所有這些包慨代。還可以通過(guò)添加版本號(hào)(例如 conda install numpy=1.10
)來(lái)指定所需的包版本啸如。
Conda 還會(huì)自動(dòng)為你安裝依賴項(xiàng)。例如叮雳,scipy
依賴于 numpy
,因?yàn)樗褂貌⑿枰?numpy
帘不。如果你只安裝 scipy
(conda install scipy
),則 conda 還會(huì)安裝 numpy
(如果尚未安裝的話)寞焙。
大多數(shù)命令都是很直觀的互婿。要卸載包慈参,請(qǐng)使用 conda remove package_name
。要更新包懂牧,請(qǐng)使用 conda update package_name
。如果想更新環(huán)境中的所有包(這樣做常常很有用),請(qǐng)使用 conda update --all
畜侦。最后,要列出已安裝的包旋膳,請(qǐng)使用前面提過(guò)的 conda list
。
如果不知道要找的包的確切名稱擅羞,可以嘗試使用 conda search search_term
進(jìn)行搜索。例如减俏,我知道我想安裝 Beautiful Soup碱工,但我不清楚確切的包名稱。因此怕篷,我嘗試執(zhí)行 conda search beautifulsoup
。
它返回可用的 Beautiful Soup 包的列表廊谓,并列出了相應(yīng)的包名稱 beautifulsoup4
。
管理環(huán)境
如前所述蒸痹,你可以使用 conda 創(chuàng)建環(huán)境以隔離項(xiàng)目。要?jiǎng)?chuàng)建環(huán)境惕稻,請(qǐng)?jiān)诮K端中使用 conda create -n env_name list of packages
。在這里俺祠,-n env_name
設(shè)置環(huán)境的名稱(-n
是指名稱),而 list of packages
是要安裝在環(huán)境中的包的列表蜘渣。例如,要?jiǎng)?chuàng)建名為 my_env
的環(huán)境并在其中安裝 numpy腿准,請(qǐng)鍵入 conda create -n my_env numpy
。
創(chuàng)建環(huán)境時(shí)吐葱,可以指定要安裝在環(huán)境中的 Python 版本。這在你同時(shí)使用 Python 2.x 和 Python 3.x 中的代碼時(shí)很有用弟跑。要?jiǎng)?chuàng)建具有特定 Python 版本的環(huán)境防症,請(qǐng)鍵入類似于 conda create -n py3 python=3
或 conda create -n py2 python=2
的命令。實(shí)際上蔫敲,我在我的個(gè)人計(jì)算機(jī)上創(chuàng)建了這兩個(gè)環(huán)境。我將它們用作與任何特定項(xiàng)目均無(wú)關(guān)的通用環(huán)境奈嘿,以處理普通的工作(可輕松使用每個(gè) Python 版本)。這些命令將分別安裝 Python 3 和 Python 2 的最新版本酝惧。要安裝特定版本(例如 Python 3.3),請(qǐng)使用 conda create -n py python=3.3
晚唇。
進(jìn)入環(huán)境
創(chuàng)建了環(huán)境后,在 OSX/Linux 上使用 source activate my_env
進(jìn)入環(huán)境哩陕。在 Windows 上赫舒,請(qǐng)使用 activate my_env
。
進(jìn)入環(huán)境后接癌,你會(huì)在終端提示符中看到環(huán)境名稱,它類似于 (my_env) ~ $
缺猛。環(huán)境中只安裝了幾個(gè)默認(rèn)的包椭符,以及你在創(chuàng)建它時(shí)安裝的包耻姥。你可以使用 conda list
檢查這一點(diǎn)。在環(huán)境中安裝包的命令與前面一樣:conda install package_name
蒸健。不過(guò),這次你安裝的特定包僅在你進(jìn)入環(huán)境后才可用似忧。要離開(kāi)環(huán)境,請(qǐng)鍵入 source deactivate
(在 OSX/Linux 上)橡娄。在 Windows 上癣籽,請(qǐng)使用 deactivate
滤祖。
保存和加載環(huán)境
共享環(huán)境這項(xiàng)功能確實(shí)很有用,它能讓其他人安裝你的代碼中使用的所有包匠童,并確保這些包的版本正確。你可以使用 conda env export > environment.yaml
將包保存為 YAML俏险。命令的第一部分 conda env export
用于輸出環(huán)境中的所有包的名稱(包括 Python 版本)。
上圖中竖独,你可以看到環(huán)境的名稱和所有依賴項(xiàng)及其版本。導(dǎo)出命令的第二部分 > environment.yaml
將導(dǎo)出的文本寫(xiě)入到 YAML 文件 environment.yaml
中∮。現(xiàn)在可以共享此文件墓赴,而且其他人能夠用于創(chuàng)建和你項(xiàng)目相同的環(huán)境。
要通過(guò)環(huán)境文件創(chuàng)建環(huán)境诫硕,請(qǐng)使用 conda env create -f environment.yaml
。這會(huì)創(chuàng)建一個(gè)新環(huán)境章办,而且它具有同樣的在 environment.yaml
中列出的庫(kù)滨彻。
列出環(huán)境
如果忘記了環(huán)境的名稱(我有時(shí)會(huì)這樣)挠日,可以使用 conda env list
列出你創(chuàng)建的所有環(huán)境。你會(huì)看到環(huán)境的列表冬骚,而且你當(dāng)前所在環(huán)境的旁邊會(huì)有一個(gè)星號(hào)。默認(rèn)的環(huán)境(即當(dāng)你不在選定環(huán)境中時(shí)使用的環(huán)境)名為 root
只冻。
刪除環(huán)境
如果你不再使用某些環(huán)境,可以使用 conda env remove -n env_name
刪除指定的環(huán)境(在這里名為 env_name
)喜德。
最佳做法
使用環(huán)境
對(duì)我?guī)椭艽蟮囊稽c(diǎn)是垮媒,我的 Python 2 和 Python 3 具有獨(dú)立的環(huán)境。我使用了 conda create -n py2 python=2
和 conda create -n py3 python=3
創(chuàng)建兩個(gè)獨(dú)立的環(huán)境睡雇,即 py2
和 py3
。現(xiàn)在它抱,我的每個(gè) Python 版本都有一個(gè)通用環(huán)境。在所有這些環(huán)境中观蓄,我都安裝了大多數(shù)標(biāo)準(zhǔn)的數(shù)據(jù)科學(xué)包(numpy、scipy歌径、pandas 等)。
我還發(fā)現(xiàn)沮脖,為我從事的每個(gè)項(xiàng)目創(chuàng)建環(huán)境很有用。這對(duì)于與數(shù)據(jù)不相關(guān)的項(xiàng)目(例如使用 Flask 開(kāi)發(fā)的 Web 應(yīng)用)也很有用勺届。
共享環(huán)境
在 GitHub 上共享代碼時(shí)娶耍,最好同樣創(chuàng)建環(huán)境文件并將其包括在代碼庫(kù)中。這能讓其他人更輕松地安裝你的代碼的所有依賴項(xiàng)榕酒。對(duì)于不使用 conda 的用戶故俐,我通常還會(huì)使用 pip freeze
(在此處了解詳情)將一個(gè) pip requirements.txt
文件導(dǎo)出并包括在其中紊婉。
了解更多信息
要詳細(xì)了解 conda 以及它如何融入到 Python 生態(tài)系統(tǒng)中,請(qǐng)查看這篇由 Jake Vanderplas 撰寫(xiě)的文章:Conda myths and misconceptions(有關(guān) conda 的迷思和誤解)喻犁。此外,如果你有空閑精力肢础,也可以參考這篇 conda 文檔传轰。