參數(shù)
-
fn:
fn
是函數(shù)描述了在一步scan.fn
中所有的操作,這個個函數(shù)必須構造出描述一步迭代的輸出的變量。同樣還需要看成是 theano 的輸入變量友驮,表示輸入序列的所有分片和過去的輸出值,以及所有賦給 scan 的non_sequences
的這些其他參數(shù)稽寒。而 scan 依照如下順序傳遞給fn
這些變量: - all time slices of the first sequence
- all time slices of the second sequence
- ...
- all time slices of the last sequence
- all time slices of the last sequence
- all past slices of the first output
- all past slices of the second otuput
- ...
- all past slices of the last output
- all other arguments (the list given as non_sequences to scan)
序列的順序和在列表 sequences
一致。輸出的順序和 output_info
的順序相同趟章。對任意序列或者輸出杏糙,時間分片的順序和他們給定作為 taps 的序列相同。例如蚓土,如果代碼寫成下面這樣:
scan(fn,
sequences = [ dict(input= Sequence1, taps = [-3,2,-1]) , Sequence2 , dict(input = Sequence3, taps = 3) ] ,
outputs_info = [ dict(initial = Output1, taps = [-3,-5]) , dict(initial = Output2, taps = None) , Output3 ] ,
non_sequences = [ Argument1, Argument2])
fn
期待的輸入順序是:
- Sequence1[t-3]
- Sequence1[t+2]
- Sequence1[t-1]
- Sequence2[t]
- Sequence3[t+3]
- Output1[t-3]
- Output1[t-5]
- Output3[t-1]
- Argument1
- Argument2
non_sequences
同樣包含共享變量宏侍,只是 scan
可以將這些變量忽略。為了代碼的清晰北戏,我們推薦將這些變量傳遞給 scan
负芋。在某種程度上,scan
可以確定其他即使沒有傳遞給 scan
(但被 fn
使用的)non_sequences
(not shared) 變量嗜愈。例如:
import theano.tensor as TT
W = TT.matrix()
W_2 = W**2
def f(x):
return TT.dot(x,W_2)
函數(shù)需要返回兩個東西。一個是按照 outputs_info
順序排列的輸出列表莽龟,不同的是對每個輸出初始狀態(tài)只有一個一個輸出變量對應(即使沒有使用 tap 值)蠕嫁。第二個 fn
應當返回一個更新字典(告訴程序如何對共享變量進行每步的更新)。字典也可以以 tuple 的列表給出毯盈。對于這兩個列表的順序倒沒有限制剃毒,fn
可以返回 (outputs_list, update_dictionary)
或者 (update_dictionary, outputs_list)
,或者就其中之一(另一個為空)。將 scan
當成是一個 while 循環(huán)赘阀,我們需要給 fn
增加一個退出循環(huán)的條件——將條件配置在一個 until
類中歐諾個益缠。這些條件必須被返回為第三個元素,如下:
...
return [y1_t, y2_t], {x:x+1}, theano.scan_module.until(x<50)
注意基公,步數(shù)(最大迭代步驟數(shù))仍然需要指定幅慌,即使一個有了一個條件
-
sequences: 序列是 Theano 變量或者字典的列表,告訴程序
scan
必須迭代的序列轰豆。如果序列以字典的形式給出胰伍,那么可選信息集合可給這個序列。字典應該包含如下的關鍵信息: -
input
(強制的)表示序列的 Theano 變量 -
taps
fn
需要的時間片酸休。通常以整數(shù)列表的方式提供骂租,其中k
的值表示一個迭代步驟t
scan 會 傳遞給fn
序列片t+k
。默認值為[0]
任何在 sequence
列表的 Theano 變量都會自動封裝成一個字典斑司,其 taps
被設置為 [0]
-
output_info
outputs_info
是 Theano 變量或者字典的列表渗饮,給出了遞歸計算的輸出初始時的狀態(tài)。當這個初始狀態(tài)給定為字典時宿刮,說明了對應這些初始狀態(tài)的輸出的可選信息抽米。字典應當包含下面的元素: -
initial
表示一個給定輸出的初始狀態(tài)的 Theano 變量。如果輸出不是遞歸計算的(如 map)或者不需要初始狀態(tài)糙置,那么這里可以跳過云茸。由fn
前面時間步的輸出,初始狀態(tài)應該擁有和輸出的同樣形狀谤饭,并且不能夠包含輸出的數(shù)據(jù)類型的轉換标捺。如果使用多時間 tap,初始狀態(tài)應當由額外的維度來覆蓋所有可能的 tap揉抵。例如亡容,如果我們使用-5, -2, -1
作為過去的 tap,在第 0 步冤今,fn
會需要output[-5], output[-2] output[-1]
闺兢。這將由初始狀態(tài)給出,這里的形狀就是(5,)+ output.shape
戏罢。如果這個包含初始狀態(tài)的變量稱為init_y
那么init_y[0]
對應于output[-5]
屋谭。init_y[1]
對應于output[-4]
。init_y[2]
對應于output[-3]
龟糕。init_y[3]
對應于output[-2]
桐磁。init_y[4]
對應于output[-1]
。這個順序可能看起來奇怪讲岁,不過這來自給定點的數(shù)組劃分我擂,也有相應的道理衬以。假設我們有一個數(shù)組x
,選擇k
為時間步0
校摩。那么初始的狀態(tài)就是x[:k]
看峻,而輸出就是x[k:]
⊙梅裕看看這個劃分互妓,在x[:k]
中的元素順序和init_y
中完全一致。 -
taps
輸出的時間 tap 將會被傳遞給fn
分井。他們是以負整數(shù)的列表給出车猬,其中k
表示在迭代步t
scan 會將切片t+k
傳遞給fn
。
scan
會按照下面的規(guī)則進行: - 如果輸出現(xiàn)在封裝在一個字典中尺锚,
scan
將會按照你僅僅在輸出的最后一步使用他這個前提封裝它(即讓你的 tap 值設置為[-1]
) - 如果你在一個字典中封裝一個輸出珠闰,并且你不提供任何的 tap 但是提供了一個初始狀態(tài),那么會假設你僅僅使用 tap 值為 -1.
- 如果你將輸出封裝進一個字典中瘫辩,不過你沒有提供任何的初始狀態(tài)伏嗜,那么會假設你不回使用任何形式的 tap
- 如果你提供
None
而非一變量或者一個空字典,那么scan
假設你將不會對這個輸出使用任何 tap(就像在 map 中那樣)
如果 outputs_info
是一個空列表或者 None
伐厌,scan
假設了沒有 tap 用在任何輸出上承绸。如果信息僅僅針對輸出的子集給出,那么會拋出一個異常(因為并沒有給出 scan 如何映射信息給 fn
的輸出的默認行為)
-
non_sequences
non_sequences
是在每一步被傳遞給fn
的參數(shù)的列表挣轨。我們可以可選擇地將fn
中使用的變量用此列表剔除军熏,盡管為了代碼清晰不建議這么做。 -
n_steps
n_steps
是以 int 或者 Theano scalar 給出的迭代步數(shù)卷扮。如果任何輸入序列沒有足夠的元素荡澎,scan 會給出一個錯誤。如果值為 0 輸出將只有 0 行晤锹。如果值為負值摩幔,scan
會往回運行。如果go_backwards
flag 已經(jīng)設置了鞭铆,而且n_steps
是負值或衡,scan
將會向前運行。如果n_steps
沒有給出车遂,scan
將在給定輸入序列時就會搞清楚應當運行的步數(shù)封断。 -
truncate_gradient
truncate_gradient
是用在 truncated BPTT 上的步數(shù)。如果你通過 scan op 來計算梯度艰额,他們會使用 BPTT 來計算澄港。通過給定不同于 -1 的值,你將確定使用 truncated BPTT 而非經(jīng)典的 BPTT -
go_backwards
go_backwards
是表示scan
是否往回走的標志柄沮。如果你將每個句子看做按照時間標記,讓這個標志設置為 True 會讓scan
按照時間往回掃描。 -
name 在對
scan
進行性能分析時祖搓,給每個scan
的實例進行命名是很重要的狱意。性能分析器將產(chǎn)生整體的代碼分析,甚至每個scan
實例步驟的分析拯欧。實例的name
則出現(xiàn)在這些分析中详囤,提供了具有區(qū)分度的信息。 -
mode 推薦將此設置為 None镐作,特別是對
scan
進行分析的時候(否則結果會不準確)藏姐。如果你傾向 scan 的某一步計算使用某種特殊的方式計算,可以使用 mode 來改變計算行為(參考theano.function
來看看可能的使用方式) -
profile Flag 或者 string该贾。如果為 True羔杨,或者不同于一個空串,那么就會創(chuàng)建一個分析器對象杨蛋,并綁定在 scan 的 inner 計算圖上兜材。如果
profile
設置為 True,該對象會有一個 scan 實例的名字逞力,否則就使用傳遞的 string曙寡。分析器對象僅僅會在使用新 cvm鏈接器運行 inner 計算圖的時候收集(并打印)信息(按照默認模式寇荧,對其他鏈接器举庶,這個參數(shù)就是無用的) -
allow_gc 設置此項可以允許 scan 的內部計算圖進行 gc。如果為 None揩抡,就會使用
config.scan.allow_gc
的值户侥。 -
strict 如果設置為 True,
fn
中所有共享變量都必須作為non_sequences
或者sequences
的一部分提供捅膘。
返回值
形為 (outputs, updates) 的元組添祸,outputs 是 Theano 的變量或者 Theano 變量的列表,表示 scan 的輸出(按照 outputs_info
的順序)寻仗。updates
是一個字典的子類指定了所有共享變量的更新規(guī)則刃泌。這個字典應該被傳遞給 theano.function
。不同于正常的字典的是我們驗證這些 key 為 SharedVariable 并且確保這些字典的求和是一致的署尤。
返回類型
元組(tuple)