最近學習視頻和圖像的處理,剛好要先將視頻進行預(yù)處理判导。因為需要針對不同的鏡頭來做不一樣的處理咨察,所以在做進一步處理之前论熙,要將整段視頻進行分割處理。
先是在網(wǎng)上搜索了一下摄狱,找到一篇可以借鑒的文章 《視頻鏡頭分割與關(guān)鍵幀提取》脓诡。里面把整個算法思路都說的很清楚,雖然沒有具體的代碼實現(xiàn)媒役,這個不重要祝谚,思路比代碼更重要,按照對應(yīng)的思路酣衷,通過python寫出了具體的實現(xiàn)代碼交惯,可是最后在我處理的視頻上的效果不是很明顯,所以暫時將這個方案擱置穿仪。
后來在github找到了一個關(guān)于如何為視頻生成簡介的項目席爽,項目也是沒有太多的實現(xiàn),給了一篇國外論文的地址啊片∪花了三天時間總算把那篇難啃的英文論文看懂了,整理了一下里面的思路钠龙,然后將之前的思路結(jié)合起來炬藤,就寫出了我自己的實現(xiàn)代碼。
一碴里、邊緣檢測
根據(jù)幀圖像的灰度值直方圖差異進行邊緣檢測沈矿,差異值越大的幀可能就是鏡頭邊緣幀。這種方式可以避免在鏡頭移動或者圖像中出現(xiàn)動態(tài)移動的時候差異咬腋,提高邊緣檢測的準確性羹膳。其中要注意的地方
1、相鄰的兩個鏡頭根竿,中間的幀圖像個數(shù)應(yīng)該有一個閾值陵像,也就是說幀數(shù)相差太少不認可為新的一個鏡頭
2就珠、檢測出來的鏡頭邊緣幀,它與前一幀的差值應(yīng)該是此鏡頭中醒颖,所有幀差中最大的妻怎。其的值也應(yīng)該是當前鏡頭中所有幀差均值的一個倍數(shù)
二、具體算法
1泞歉、創(chuàng)建類逼侦,用來存儲每一幀的信息。
# 由于我處理的視頻一個就近2G腰耙,為了減少內(nèi)存的消耗榛丢,所以不會再內(nèi)存中存放幀的數(shù)據(jù)信息,只計算需要的數(shù)據(jù)后釋放掉
class frame_info:
def __init__(self, index, diff):
self.index = index # 幀編號
self.diff = diff # 當前幀與前一幀的diff
2挺庞、創(chuàng)建函數(shù)晰赞,用來計算幀間差值。
gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
n_pixel = frame.shape[0] * frame.shape[1]
hist = cv2.calcHist([gray], [0], None, [16], [0, 256])
hist = hist * (1.0 / n_pixel)
diff = np.sum(np.abs(np.subtract(hist, pre_hist)))
這就是第一步遍歷視頻选侨,計算整個視頻中所有幀的幀差宾肺。存放到一個列表中,第一幀的幀差默認是0侵俗。
接下來就是對于邊緣幀的檢測
3锨用、找尋差值最大的幀,這里需要簡單說明一下算法思路
1隘谣、創(chuàng)建一個窗口增拥,定義窗口中幀的數(shù)量,每次對窗口中的幀進行判斷寻歧。然后取對應(yīng)數(shù)量的幀掌栅;
2、計算窗口中差值最大的幀码泛,定義為可疑的鏡頭邊緣幀M再進行下一步判斷猾封;
3、取得前一鏡頭邊緣幀P噪珊,判斷當前M與P中間的幀數(shù)量晌缘,是否超過設(shè)定的鏡頭最小幀數(shù)閾值,如果不超過痢站,則舍棄M磷箕,清空窗口數(shù)據(jù),進行下一個鏡頭判斷阵难;否則進行下一步判斷岳枷;
4、判斷M的差值是不是P到M的平均差值(不包括M的差值)的一個閾值倍數(shù)。
def second_find_diff_max(list_frames = [], start_no = 0):
sus_max_frame = [] # 可疑的鏡頭幀空繁,以M為值
window_frame = []
length = len(list_frames)
index_list = range(0, length)
for index in index_list:
frame_item = list_frames[index]
window_frame.append(frame_item)
if len(window_frame) < window_size:
continue
# 處理窗口幀的判斷
max_diff_frame = getMaxFrame(window_frame)
max_diff_index = max_diff_frame.index
if len(sus_max_frame) == 0:
sus_max_frame.append(max_diff_frame)
continue
last_max_frame = sus_max_frame[-1]
'''
判斷是否超過鏡頭跨度最小值
1殿衰、低于,則移除窗口中最大幀之前的所有幀(包括最大幀)盛泡,然后重新移動窗口
2闷祥、則進入下一步判斷
'''
if (max_diff_index - last_max_frame.index) < m_MinLengthOfShot:
start_index = window_frame[0].index
if last_max_frame.diff < max_diff_frame.diff:
# 最后一條可疑frame失效
sus_max_frame.pop(-1)
sus_max_frame.append(max_diff_frame)
pop_count = max_diff_index - start_index + 1
else:
# 舍棄當前的可疑frame,整個窗口清除
pop_count = window_size
count = 0
while True:
window_frame.pop(0)
count += 1
if count >= pop_count:
break
continue
'''
鏡頭差超過最小鏡頭值后的下一步判斷饭于,判斷是否為可疑幀
當前最大幀距離上一個可疑幀的平均差值是否差距很大
'''
sum_start_index = last_max_frame.index + 1 - start_no
sum_end_index = max_diff_index - 1 - start_no
id_no = sum_start_index
# print("{0}, {1}, {2}".format(sum_start_index, sum_end_index, id_no))
sum_diff = 0
while True:
sum_frame_item = list_frames[id_no]
sum_diff += sum_frame_item.diff
id_no += 1
if id_no > sum_end_index:
break
average_diff = sum_diff / (sum_end_index - sum_start_index + 1)
if max_diff_frame.diff >= (m_suddenJudge * average_diff):
sus_max_frame.append(max_diff_frame)
window_frame = []
continue
sus_last_frame = sus_max_frame[-1]
last_frame = list_frames[-1]
if sus_last_frame.index < last_frame.index:
sus_max_frame.append(last_frame)
return sus_max_frame
4蜀踏、在上一步的處理后维蒙,其實效果已經(jīng)可以實現(xiàn)部分了。但是在實際的測試中,發(fā)現(xiàn)效果還是有一定的問題颓芭,所以做了一個簡單的優(yōu)化步驟
具體的優(yōu)化處理思路就是彻犁,處理在上面中在連續(xù)幀差值都比較波動大的時候,很容易出現(xiàn)鏡頭幀獲取錯誤的問題斑响。還有就是陡增菱属、陡降的時候,鏡頭邊緣幀的判斷失誤問題舰罚。
整體的思路就是:
1纽门、如果當前可疑幀是陡增情況,即其前面的多個幀的差值都很低营罢,突然其卻很高赏陵,形成了一個近乎近90度的陡增效果,則認為其為鏡頭邊緣幀
2饲漾、陡降的效果蝙搔,類似于陡增處理
3、當前找到的可疑邊緣幀考传,其幀差值應(yīng)該是其附近(前后)一定幀數(shù)范圍內(nèi)的最大值吃型;
def third_optimize_frame(tag_frames, all_frames, start_no):
'''
進一步優(yōu)化
對于每一個分割鏡頭幀,其前后的幀的平均值都遠遠低于其
'''
new_tag_frames = []
for tag_frame in tag_frames:
tag_index = tag_frame.index
if tag_frame.diff < m_diff_threshold:
continue
# 向前取m_MinLengthOfShot個幀
pre_start_index = tag_index - m_offset_frame_count - m_offset
pre_start_no = pre_start_index - start_no
if pre_start_no < 0:
# 如果往前找時已經(jīng)到頭了僚楞,則認為此鏡頭不可取勤晚,將鏡頭交給最起始的幀
new_tag_frames.append(all_frames[0])
continue
pre_end_no = tag_index - 1 - start_no - m_offset
pre_sum_diff = 0
emulator_no = pre_start_no
while True:
pre_frame_info = all_frames[emulator_no]
pre_sum_diff += pre_frame_info.diff
emulator_no += 1
if tag_frame.index == 42230:
print("向前:{0}, {1}".format(pre_frame_info.index, pre_frame_info.diff))
if emulator_no > pre_end_no:
break
# 向后取m_MinLengthOfShot個幀
back_end_index = tag_index + m_offset_frame_count + m_offset
back_end_no = back_end_index - start_no
if back_end_no >= len(all_frames):
# 如果往后找時已經(jīng)到頭了,則認為此鏡頭不可取泉褐,將鏡頭交給結(jié)束的幀
new_tag_frames.append(all_frames[-1])
continue
back_start_no = tag_index + 1 - start_no + m_offset
back_sum_diff = 0
emulator_no = back_start_no
while True:
back_frame_info = all_frames[emulator_no]
back_sum_diff += back_frame_info.diff
emulator_no += 1
if emulator_no > back_end_no:
break
is_steep = False
# 判斷是不是陡增/或者陡降
pre_average_diff = pre_sum_diff / m_offset_frame_count
print("前平均 {0}, {1}, {2}".format(tag_frame.index, tag_frame.diff, pre_average_diff))
if tag_frame.diff > (m_optimize_steep * pre_average_diff):
is_steep = True
back_average_diff = back_sum_diff / m_offset_frame_count
print("后平均 {0}, {1}, {2}".format(tag_frame.index, tag_frame.diff, back_average_diff))
if tag_frame.diff > (m_optimize_steep * back_average_diff):
is_steep = True
# 計算平均值运翼,如果大于一定的閾值倍數(shù),則認可兴枯,不然舍棄
sum_diff = pre_sum_diff + back_sum_diff
average_diff = sum_diff / (m_offset_frame_count * 2)
print("{0}, {1}, {2}".format(tag_frame.index, tag_frame.diff, average_diff))
if tag_frame.diff > (m_optimize * average_diff) or is_steep:
new_tag_frames.append(tag_frame)
return new_tag_frames
這樣就得到了所有鏡頭幀的編號血淌,然后對應(yīng)視頻找鏡頭幀編號就行了。我用了視頻進行測試,得到的效果還是很滿意的悠夯。
其中33-0表示:截下來的視頻鏡頭總數(shù)量——有問題的鏡頭數(shù)量
這樣整體的結(jié)果就是:230——10癌淮,而且其中的錯誤鏡頭還有是因為視頻花屏導(dǎo)致的。所以最后的成功率基本在90%以上沦补,基本滿足了需求乳蓄。
如果有疑問或者有更好的建議,我們可以一起探討夕膀,共同進步虚倒!