問(wèn)題原因
在macOS通過(guò)pip3 install 安裝tensorflow(CPU版)后豫领,運(yùn)行示例代碼
import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello).decode())
運(yùn)行之后可以正常輸出
“Hello, TensorFlow!"
但是有一個(gè)警告警告提示:
I tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
在Stack Overflow上面關(guān)于這個(gè)問(wèn)題有一個(gè)詳細(xì)的解答
大致翻譯一下高贊答案:
Modern CPUs provide a lot of low-level instructions, besides the usual arithmetic and logic, known as extensions, e.g. SSE2, SSE4, AVX, etc. From the Wikipedia:
Advanced Vector Extensions (AVX) are extensions to the x86 instruction set architecture for microprocessors from Intel and AMD proposed by Intel in March 2008 and first supported by Intel with the Sandy Bridge processor shipping in Q1 2011 and later on by AMD with the Bulldozer processor shipping in Q3 2011. AVX provides new features, new instructions and a new coding scheme.
In particular, AVX introduces fused multiply-accumulate (FMA) operations, which speed up linear algebra computation, namely dot-product, matrix multiply, convolution, etc. Almost every machine-learning training involves a great deal of these operations, hence will be faster on a CPU that supports AVX and FMA (up to 300%). The warning states that your CPU does support AVX (hooray!).
I'd like to stress here: it's all about CPU only.
現(xiàn)代CPU提供了一系列低級(jí)別的指令集,除了通常的算術(shù)和邏輯之外尊搬,被稱為擴(kuò)展绩卤,例如途样, SSE2,SSE4濒憋,AVX等何暇。
維基百科有描述:
高級(jí)矢量擴(kuò)展(AVX)是英特爾在2008年3月提出的英特爾和AMD微處理器的x86指令集體系結(jié)構(gòu)的擴(kuò)展,英特爾首先通過(guò)Sandy Bridge處理器在2011年第一季度推出跋炕,隨后由AMD推出Bulldozer處理器 在2011年第三季度.AVX提供了新功能赖晶,新指令和新編碼方案。
特別是,AVX引入了融合乘法累加(FMA)操作遏插,加速了線性代數(shù)計(jì)算捂贿,即點(diǎn)積,矩陣乘法胳嘲,卷積等厂僧。幾乎所有機(jī)器學(xué)習(xí)訓(xùn)練都涉及大量這些操作,因此將會(huì) 支持AVX和FMA的CPU(最高達(dá)300%)更快了牛。 該警告指出您的CPU確實(shí)支持AVX(hoorayQ胀馈)。
那為什么沒(méi)有使用呢鹰祸?
由于tensorflow默認(rèn)是在沒(méi)有CPU擴(kuò)展的情況下構(gòu)建的甫窟,例如SSE4.1,SSE4.2蛙婴,AVX粗井,AVX2,F(xiàn)MA等街图。默認(rèn)版本(來(lái)自pip install tensorflow的版本)旨在與盡可能多的CPU兼容浇衬。 另一個(gè)觀點(diǎn)是,即使使用這些擴(kuò)展名餐济,CPU的速度也要比GPU低很多耘擂,所以它預(yù)計(jì)中大型機(jī)器學(xué)習(xí)任務(wù)應(yīng)該在GPU上執(zhí)行。
那我們應(yīng)該怎么辦
如果你有GPU的話絮姆,直接忽略這一項(xiàng)即可醉冤,因?yàn)榇蟛糠值母呦牟僮鞫紩?huì)被分配到GPU上執(zhí)行(除非你設(shè)置了不這么做)。在這種情況下滚朵,你可以通過(guò)下面這個(gè)方式直接忽略這個(gè)警告:
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
這種方法只是去掉警告冤灾,實(shí)際上是沒(méi)有解決問(wèn)題的。
如果你沒(méi)有GPU辕近,你想最大化使用CPU韵吨,你應(yīng)該啟動(dòng)你的CPU的AVX,AVX2以及FMA拓展移宅。在這個(gè)問(wèn)題以及這個(gè)GitHub issue里面都有詳細(xì)的討論归粉。Tensorflow使用稱為bazel的ad-hoc構(gòu)建系統(tǒng),構(gòu)建它并不是那么簡(jiǎn)單漏峰,但肯定是可行的糠悼。 在此之后,不僅警告消失浅乔,張量流性能也應(yīng)該改善倔喂。
解決方法
什么是SSE4.2和AVX铝条?
SIMD (Single Instruction Multiple Data)單指令流多數(shù)據(jù)流,是一種采用一個(gè)控制器來(lái)控制多個(gè)處理器席噩,同時(shí)對(duì)一組數(shù)據(jù)(又稱“數(shù)據(jù)向量”)中的每一個(gè)分別執(zhí)行相同的操作從而實(shí)現(xiàn)空間上的并行性技術(shù)班缰。
在微處理器中,SIMD則是一個(gè)控制器控制多個(gè)并行的處理微元悼枢,例如Intel的MMX或SSE埠忘,以及AMD的3D NOW指令集。
所以說(shuō)SSE4.2和AVX都是一種SIMD指令集馒索。
對(duì)于TF tasks莹妒。SSE4.2和AVX使向量和矩陣計(jì)算更加高效。具體可以看這個(gè)課件绰上。
所以該怎么做旨怠,大概只能重裝一遍tensorflow了。注意這次重裝時(shí)候要從源碼安裝渔期,從在源碼安裝的時(shí)候進(jìn)行相關(guān)的設(shè)置运吓。
從源碼安裝的官方教程總體來(lái)說(shuō)還是非常麻煩的,需要很多依賴疯趟,安裝一些其他的東西。
基本過(guò)程可以概括為三步:
- 下載TensorFlow源碼
- 準(zhǔn)備安裝環(huán)境 (此處需要安裝很多東西)
- 構(gòu)建pip軟件包(一個(gè).whl后綴文件)
- 使用pip命令進(jìn)行本地安裝
其中2谋梭,3步驟都非常負(fù)責(zé)信峻,及其容易出錯(cuò)。
最終采用的是另外一種方法瓮床。
到這個(gè)GitHub repo下載自己對(duì)應(yīng)版本的pip軟件包盹舞。
<font color =red>一定要對(duì)應(yīng)版本!</font>
版本查看方式
$ python3
Python 3.6.5 (default, Apr 25 2018, 14:23:58)
[GCC 4.2.1 Compatible Apple LLVM 9.1.0 (clang-902.0.39.1)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>>
從中可以得出我們的版本 Python 3.6.5 clang-902.0.29.1,又這兩個(gè)版本號(hào)加上自己的系統(tǒng)名在上面的GitHub repo里面選擇對(duì)應(yīng)的軟件包隘庄。下載下來(lái)相當(dāng)于直接完成了官網(wǎng)教材的前3步踢步。
所以只需要執(zhí)行第4步。
pip install --ignore-installed --upgrade /path/to/binary.whl
注意 Python3的pip命令是pip3 這條語(yǔ)句可以忽略我們已經(jīng)安裝好的tf包丑掺,不需要卸載获印,會(huì)直接升級(jí)過(guò)去。很方便街州。