作者:郎思呈
學(xué)號:16020188007
轉(zhuǎn)載自https://blog.csdn.net/VucNdnrzk8iwX/article/details/84901106
摘 要 隨著未來戰(zhàn)爭日趨復(fù)雜虎谢、人工智能突飛猛進, 指揮與控制向智能化發(fā)展成為大勢所趨. 美軍的 “深綠” 計劃項目雖因各 種原因暫停, 但其思路和方法值得借鑒. AlphaGo 在圍棋領(lǐng)域戰(zhàn)勝人類頂尖水平, 其采用的方法也有一定的參考價值. 簡要介紹了二者采用的方法, 并開展了方法適用性分析, 研究了其在指揮與控制領(lǐng)域的應(yīng)用機理及能力, 分析了應(yīng)用的難點及對策, 并對 指揮與控制智能化的發(fā)展提出了啟示和建議.
指揮與控制是一項跨物理域章蚣、信息域和認(rèn)知域的學(xué)科, 既包含工程, 也包含藝術(shù).受到信息技術(shù)發(fā)展的推動和制約, 多年來指揮與控制技術(shù)的發(fā)展大量集中在信息域和物理域, 在指揮與控制系統(tǒng)工程 方面取得了長足的進步, 但在指揮與控制輔助決 策方面, 尤其是涉及指揮藝術(shù)的認(rèn)知域, 一直停留在初級階段. 雖然設(shè)計了一些輔助計算模型,但在現(xiàn)代化戰(zhàn)爭復(fù)雜、快速庆尘、多變的特性面前, 可信度几苍、實用 性遠(yuǎn)遠(yuǎn)不能滿足實際需要. 美軍曾推出 “深綠” 計劃, 旨在探索智能化的指揮與控制輔助決策, 但也因戰(zhàn)爭的復(fù)雜性等種種原因未獲成功.人工智能技術(shù)近年來發(fā)展迅猛,尤以深度學(xué)習(xí)技術(shù)為代表, 在語音識別、圖像識別、運動感知等領(lǐng)域紛紛取得了突破性的進展.AlphaGo與李世石的一場圍棋大戰(zhàn)獲得了舉世矚目, 最終人工智能以4:1 的結(jié)果戰(zhàn)勝了人類, 代表其在認(rèn)知領(lǐng)域再下一城,一時間掀起了熱議. 緊接著, AlphaGo宣稱要挑戰(zhàn)星際爭霸, 更是將人工智能推向了神壇. 圍棋和星際爭霸這兩類游戲,和軍事指揮與控制有著緊密的聯(lián)系, 尤其是星際爭霸與戰(zhàn)爭有著很高的相似度. 因此, 很自然的想法, 就是將人工智能技術(shù)應(yīng)用于作戰(zhàn)指揮. 隨著 美軍宣稱要將人工智能列為 “改變游戲規(guī)則” 的顛覆性技術(shù)大力發(fā)展, 國內(nèi)外對指揮與控制智能化的呼聲也越來越高.相比之下, AlphaGo是智能化技術(shù)向軍事領(lǐng)域的推進, 而“深綠”則是從軍事領(lǐng)域推智能化. 兩者雖然一成一敗, 都不失為軍事指揮與控制智能化發(fā)展的里程碑.其中涉及的技術(shù)方法,很值得深入研究.本文簡要介紹了二者采用的技術(shù)方法, 并開展了方法 適用性分析, 研究了其在指揮與控制領(lǐng)域的應(yīng)用機理及能力, 分析了應(yīng)用的難點及對策, 并作為拋磚引玉, 對指揮與控制智能化的發(fā)展提出了啟示和建議.
1 方法簡介及適用性分析
1.1 美軍 “深綠” 系統(tǒng)?
????“深綠”計劃是美國國防部高級研究計劃局DARPA支持的一項面向美國陸軍赁遗、旅級的指揮與控制領(lǐng)域的研究項目, 是將人工智能引入作戰(zhàn)輔助決策的一項嘗試探索. 文獻對 “深綠” 計劃中應(yīng)用的技術(shù)桶唐、執(zhí)行的情況、及其面臨的困難和挑戰(zhàn) 進行了深入探討.?
????深綠的核心技術(shù)本質(zhì)上是基于實時態(tài)勢的動態(tài) 仿真, 也是 “平行仿真” 的核心要義. 仿真擅長逼真地航徙、量化地模擬復(fù)雜多因素綜合作用的過程和結(jié) 果, 而這是很難用傳統(tǒng)的數(shù)學(xué)公式描述出來的. 基于 實時態(tài)勢做仿真, 可以量化地估計未來某一時刻的戰(zhàn)場狀態(tài),也可以幫助人理解各種量變在不同時間到踏、空間上交叉產(chǎn)生杠袱、綜合作用之后可能帶來的質(zhì)變, 這種質(zhì)變代表具有不同意義的戰(zhàn)場態(tài)勢局面. 在復(fù)雜戰(zhàn)爭中, 可能導(dǎo)致不同態(tài)勢局面的因素眾多, 包含各種隨機性、偶然性, 一個細(xì)微的因素可能改變整個戰(zhàn) 局的發(fā)展. 使用仿真的方法, 可以盡可能地將每一個細(xì)節(jié)因素的影響都模擬出來, 只要模型足夠逼真, 計算平臺足以支撐.?
????然而, 用仿真來預(yù)測戰(zhàn)場變化的一大缺點, 是無法應(yīng)對分支太多的情形. 包括敵方戰(zhàn)術(shù)策略窝稿、我方應(yīng)對策略楣富、環(huán)境變化、隨機過程等不確定性都會導(dǎo)致分支出現(xiàn). 而各種不確定性的組合爆炸是 “深綠” 面臨的最大難題. 按照深綠的方法, 每種可能的分支都 要仿真模擬一遍才行, 那么分支一多, 這種仿真模擬 的計算資源和時間成本就十分高昂, 以至于無法實 現(xiàn). 但事實證明, 戰(zhàn)爭迷霧無處不在, 只有戰(zhàn)術(shù)層面伴榔、 短時間內(nèi), 不確定性才相對較少. 但很明顯, 戰(zhàn)術(shù)層面纹蝴、短時間內(nèi)的預(yù)測對指揮員而言非常簡單, 用機器預(yù)測的意義不大. 此外, 態(tài)勢與決策的輸入輸出、數(shù)據(jù)的決定性踪少、計算機與人協(xié)同等問題, 都是 “深綠” 計劃面臨的難題.?
美軍于 2011 財年終止 “深綠” 計劃的原因是多方面的, 包括技術(shù)上存在的風(fēng)險, 也包括經(jīng)費塘安、人員 等各方面因素. 美軍高調(diào)宣稱終止某項研究計劃的背后, 往往在隱秘地持續(xù)開展相關(guān)研究. “深綠” 計劃表面上雖然被叫停, 不排除相關(guān)研究仍在繼續(xù)的可能.
1.2 谷歌 AlphaGo系統(tǒng)
相比于軍方自頂向下推進指揮與控制智能化的 努力困難重重, AlphaGo 在民用領(lǐng)域取得的突破可謂 另辟蹊徑, 后來居上.
????AlphaGo 所采用的核心技術(shù)是深度學(xué)習(xí)和蒙特 卡洛搜索,特別擅于分析博弈層面的問題, 而且已 被證明比人類更擅長應(yīng)對天文數(shù)字般的組合不確定 性. 其通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò), 實現(xiàn)對人類直覺思維 的模擬, 是在神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用中非常有魄力的一 種創(chuàng)新. 神經(jīng)網(wǎng)絡(luò)雖然和人類大腦中的神經(jīng)元系統(tǒng) 相差甚遠(yuǎn), 卻被實踐證明可以模擬非常復(fù)雜的映射關(guān)系. 而人類的直覺就是一種說不清援奢、道不明的潛 在映射關(guān)系. 機器通過千萬級別的訓(xùn)練樣本, 學(xué)會了 人類的這種直覺, 可以直接生成當(dāng)前局勢的 “應(yīng)對良 策”(實際上是人類高手在同類局勢下使用較多的棋 招), 而不是對每種可能性都推一遍, 同時生成對最終 輸贏結(jié)果的價值估計 (實際上是人類類似棋局最終 輸贏結(jié)果的統(tǒng)計分布), 并在有限范圍內(nèi)開展推演求 證 (由于縮小了范圍, 屏蔽了細(xì)節(jié), 推演效率高). 因此, 使用 AlphaGo 的方法, 可以幫助人們高效演算作 戰(zhàn)中的博弈問題, 從而尋求戰(zhàn)法策略的優(yōu)化.?
然而, AlphaGo直接用于作戰(zhàn)設(shè)計和分析是有問題的, 主要是屏蔽了太多細(xì)節(jié)導(dǎo)致的失真兼犯。和圍棋不同, 戰(zhàn)場上任何一招一策, 能達到何種效果, 都是和具體對象、環(huán)境相關(guān)的. 棋盤上看似簡單的一步棋, 實際效果可能未必落在想要落在的那個格子里. 此外, 使用 AlphaGo方法, 還面臨著戰(zhàn)場抽象建模集漾、非輪次博弈切黔、非單一目標(biāo)、不完全信息具篇、不完備規(guī)則纬霞、缺訓(xùn)練樣本等一系列問題, 下文中會詳細(xì)闡述. 換言之, 單靠棋盤上的博弈驗證戰(zhàn)法策略的有效性, 有 “紙上 談兵” 之嫌, 具有一定的意義, 但實用性不強.
2 應(yīng)用機理及能力分析
2.1 應(yīng)用機理
?????“深綠”和 AlphaGo所采用的兩種方法, 既可以 分別應(yīng)用在指揮與控制中, 也可以結(jié)合起來應(yīng)用, 取 決于實際需求.
? ?? 1) “深綠”—— 戰(zhàn)術(shù)級仿真推演?
????從美軍 “深綠” 系統(tǒng)的設(shè)計初衷和其應(yīng)用效果來 看, 其更適合戰(zhàn)術(shù)層級的仿真推演. 一方面, 戰(zhàn)術(shù)層 級的實體行為模型較易建立, 武器平臺的運用規(guī)則 相對簡單、作用效果相對容易量化評估. 另一方面, 戰(zhàn)術(shù)層級的不確定性相對較小, 因為時間相對較短驱显、 規(guī)模相對較小诗芜、流程相對固定. 再一方面, 戰(zhàn)術(shù)層級 的分析對于精確量化的要求更高, 武器平臺的控制、 打擊效果的評估等都需要精確量化的數(shù)據(jù)支撐. 在 戰(zhàn)術(shù)級運用仿真推演, 可以充分發(fā)揮機器精確的計 算能力.?
????2) AlphaGo—— 戰(zhàn)略埃疫、戰(zhàn)役級博弈推理?
????從 AlphaGo 定位于棋類游戲來看, 其更適合戰(zhàn) 略绢陌、戰(zhàn)役層級的博弈推理. 棋招類似于戰(zhàn)法, 走一 步棋類似于指揮員下定一步作戰(zhàn)行動的決心. 通過 AlphaGo 扮演 “藍軍” 指揮員, 與扮演 “紅軍” 的人類 指揮員互相拆招喂招, 可以幫助指揮員定性地分析 各種戰(zhàn)法相互作用、多個回合之后的可能結(jié)果. 戰(zhàn)爭 是不確定性的王國, AlphaGo 擅長的就是從大量不確 定性中尋求可行解. 另外, AlphaGo 采用的自我博弈 方法, 還能幫助指揮員從龐大的解空間中自動尋找最有可能取勝的戰(zhàn)法組合, 幫助實現(xiàn)戰(zhàn)法策略的優(yōu) 化.?
????3) 兩者結(jié)合 —— 一體化作戰(zhàn)設(shè)計分析?
????然而, AlphaGo 真正要用在指揮與控制領(lǐng)域, 實 現(xiàn)從棋類游戲到戰(zhàn)爭推演的轉(zhuǎn)化, 就要和 “深綠” 的 方法相結(jié)合, 互相取長補短.
結(jié)合應(yīng)用的機理如圖 1 所示, 指揮員和機器在 棋盤上進行對弈, 通過仿真環(huán)境實現(xiàn)和真實戰(zhàn)場的 對接. 首先, 指揮員在棋盤上設(shè)計戰(zhàn)法, 相當(dāng)于走出 一步棋,“深綠” 系統(tǒng)使用草圖到計劃的功能, 將該戰(zhàn) 法細(xì)化成具體可操作的行動方案, 并基于實時接入 的戰(zhàn)場數(shù)據(jù), 通過仿真模擬出方案執(zhí)行后的效果, 將該效果抽象之后呈現(xiàn)在棋盤上, 即通過仿真估計出 棋子可能落在哪一格. 接著, AlphaGo 用其深度學(xué)習(xí) 得到的策略網(wǎng)絡(luò), 生成敵方的戰(zhàn)法, “深綠” 系統(tǒng)將其 細(xì)化成方案, 仿真出效果并抽象到棋盤上, 從而完成 雙方一輪走棋. AlphaGo 再用估值網(wǎng)絡(luò)估計一下當(dāng)前 盤面的勝負(fù)概率, 并用蒙特卡洛搜索進行推演求證, 供指揮員分析參考. ????按照這種方法, 戰(zhàn)略熔恢、戰(zhàn)役、戰(zhàn)術(shù)層級得到了兼 顧, 兩種方法形成了優(yōu)勢互補, AlphaGo 解決了不確 定性的問題, “深綠” 實現(xiàn)了 “紙上談兵” 和實際戰(zhàn)場 的結(jié)合, 因此, 可用于一體化的作戰(zhàn)設(shè)計分析.
2.2 應(yīng)用能力?
????在指揮與控制領(lǐng)域應(yīng)用 “深綠” 和 AlphaGo的方法, 可以實現(xiàn)很多前所未有的功能, 支撐戰(zhàn)前推演臭笆、實時預(yù)測叙淌、臨機決策、精準(zhǔn)控制愁铺、戰(zhàn)后評估等一系列指揮與控制業(yè)務(wù).?
????1) 博弈式籌劃推演?
????在戰(zhàn)前, 可以將 AlphaGo和 “深綠” 結(jié)合起來, 實 現(xiàn)博弈式的籌劃推演. 一種是人 - 機博弈: 人類指揮員設(shè)計我方戰(zhàn)法, AlphaGo 設(shè)計敵方戰(zhàn)法, “深綠” 負(fù)責(zé)行動方案細(xì)化生成鹰霍、行動效果模擬抽象, AlphaGo 估計勝負(fù)概率, 人類指揮員可以選擇繼續(xù)往下走, 或者悔棋重新設(shè)計戰(zhàn)法, 重新推演, 以此反復(fù)修改優(yōu)化方案. 另一種是機 - 機博弈: AlphaGo 用自我博弈的方法, 同時設(shè)計敵、我戰(zhàn)法, 通過隨機選擇戰(zhàn)法的方 式, 把各種可能的戰(zhàn)法組合都推演一遍, 并自動對推 演結(jié)果進行批處理分析茵乱、比對, 從而幫助人類指揮員尋找較為理想的方案. 由于人類指揮員在設(shè)計方案時往往具有思維定勢, 容易忽略掉一些可行解, 而 器采用有限范圍內(nèi)的解空間搜索方式, 或許能搜出 一些人想不到的方案, 其中不乏 “奇招茂洒、妙招”. ? ?
????2) 實時態(tài)勢預(yù)測?
????在戰(zhàn)中, 可以將 AlphaGo 和 “深綠” 結(jié)合起來, 實 現(xiàn)戰(zhàn)場態(tài)勢的實時預(yù)測. 其中, AlphaGo 主要負(fù)責(zé)敵 方的出招預(yù)測, 即預(yù)測敵方在當(dāng)前形勢下, 下一步可 能采用的戰(zhàn)法. 但按其方法原理, 其只能預(yù)測當(dāng)前局 勢下令對手贏面最大的一招, 而無法預(yù)測對手可能 采用的 “昏招” 或 “險招”. “深綠” 主要負(fù)責(zé)戰(zhàn)術(shù)層面 的戰(zhàn)場狀態(tài)預(yù)測, 一是按敵我當(dāng)前戰(zhàn)法打下去, 量化 估計下一時刻可能的戰(zhàn)場狀態(tài), 二是考慮環(huán)境、對抗 中的少量隨機性, 或敵我戰(zhàn)法的少量可選項, 歸納出 短時間內(nèi)未來態(tài)勢可能出現(xiàn)的幾種局面.?
????3) 臨機快速決策?
????AlphaGo 的一大特點, 是克服大量未知不確定性的組合爆炸, 模擬人類的棋感直覺, 根據(jù)當(dāng)前盤面形勢快速拆招解招. 這種能力如果用在臨機指揮中, 可以快速生成決策建議, 尤其是在突遭變化瓶竭、敵方后招 難以捉摸, 而形勢又特別緊急的情況下, 可以避免人 類指揮員容易出現(xiàn)的猶豫不決現(xiàn)象, 提升決策效率. 更重要的是, AlphaGo 在訓(xùn)練時使用的樣本很多, 可以模擬很多高水平指揮員的共性直覺, 理論上其生成的建議有可能會優(yōu)于單個人類指揮員. 當(dāng)然, 以目前人工智能的水平, 支持戰(zhàn)前籌劃還行, 支持戰(zhàn)中指揮有點不太現(xiàn)實, 但如果 AlphaGo攻克了星際爭霸之類的實時競技類游戲, 那就完全不同了.?
????4) 前饋式精準(zhǔn)控制?
????深綠基于仿真的實時量化預(yù)測能力, 可以在行動執(zhí)行過程中, 模擬戰(zhàn)場多因素綜合作用的結(jié)果, 超實時預(yù)測行動執(zhí)行的效果, 并根據(jù)實時數(shù)據(jù)動態(tài)修正預(yù)測結(jié)果. 指揮員可以實時把握行動預(yù)計效果同預(yù)期之間的偏差, 提前對行動進行調(diào)整. 過去都是根據(jù)當(dāng)前行動執(zhí)行的結(jié)果, 來調(diào)整下一步的行動, 是在偏差已經(jīng)產(chǎn)生情況下的調(diào)控. 而通過超前預(yù)測引入的反饋, 是在偏差尚未產(chǎn)生之前的調(diào)控, 類似控制論 中的前饋式控制, 可以幫助指揮員防患于未然. 在此基礎(chǔ)上, 如果仿真模型的粒度越細(xì), 則效果預(yù)測就越精確, 控制的精準(zhǔn)度就越高.
????5) 戰(zhàn)后評估訓(xùn)練?
一方面, 戰(zhàn)前的博弈式推演方法也可以用在戰(zhàn)后, 對各種戰(zhàn)法進行博弈演練, 發(fā)現(xiàn)戰(zhàn)法存在的問題, 從而進行優(yōu)化. 另一方面, 利用 AlphaGo中的深度學(xué)習(xí)技術(shù), 還可以實現(xiàn)各種作戰(zhàn)模型的訓(xùn)練優(yōu)化. 很多作戰(zhàn)模型因為影響因素太多督勺、作用機理復(fù)雜, 傳統(tǒng)數(shù)學(xué)模型難以精確擬合. 例如部隊實戰(zhàn)能力, 受敵我兵力配屬渠羞、武器配備、使用戰(zhàn)法智哀、訓(xùn)練水平次询、士氣、相對位置瓷叫、戰(zhàn)場環(huán)境等諸多因素影響, 一直以來都很難建模. 而指揮員和部隊一起摸爬滾打多年, 對其實戰(zhàn)能力的估計是比較準(zhǔn)確的, 這種經(jīng)驗性的直覺判斷, 類似 AlphaGo 對盤面勝負(fù)概率的估計. 神經(jīng)網(wǎng)絡(luò)具備超強的分類/擬合性能, 如果給定歷史案例中各種情況下的戰(zhàn)況數(shù)據(jù), 用深度學(xué)習(xí)方式或許能擬合出 一個較為精確的模型出來.
3 技術(shù)應(yīng)用面臨的挑戰(zhàn)
“深綠” 計劃面臨的挑戰(zhàn)如前所述, 包括戰(zhàn)爭的復(fù)雜不確定性屯吊、模型的精確性、計算資源的占用性等. AlphaGo的方法雖然在圍棋領(lǐng)域取得了杰出的成就, 并且具有一定的通用性, 但真正應(yīng)用在作戰(zhàn)指 揮與控制領(lǐng)域, 還面臨許多挑戰(zhàn).
????1) 戰(zhàn)場抽象建模?
????棋盤上, 車無輪摹菠、馬無韁, 一切都是簡化過的. 而現(xiàn)實戰(zhàn)爭太復(fù)雜, 要考慮的細(xì)節(jié)因素太多, 只有抽象到棋盤層面, 才有可能分析戰(zhàn)法博弈. 但如何抽象, 才能做到既簡化了繁冗的細(xì)節(jié), 又保留了博弈的本質(zhì), 是一個值得研究的問題. 例如, 戰(zhàn)場態(tài)勢決不僅僅是兵力的棋布, 各種相互關(guān)系盒卸、能勢大小、趨勢方向都應(yīng)在棋盤上反映出來次氨;調(diào)兵遣將也決不僅僅是棋子的位置挪移, 各種戰(zhàn)法戰(zhàn)術(shù)策略蔽介、武器使用方式都應(yīng)在棋盤上可選. 其實這是兵棋要考慮的問題, 但現(xiàn)在的兵棋能否做到, 還有待驗證.?
????2) 非輪次博弈?
????現(xiàn)代化戰(zhàn)爭不像古代的決斗, 不是你走一步我 走一步的模式, 而是你走一步, 我可能走兩步甚至更多. 戰(zhàn)爭也不是你走一子我走一子, 而是多個子同時在走. 像星際爭霸之類的游戲是很接近戰(zhàn)爭, 但 AlphaGo 能否攻克還是未知數(shù), 很可能不會采用和圍棋一樣的方法. 戰(zhàn)爭是連續(xù)演進的, 一種方式是采用某種策略將其離散化, 分成許多時間片段, 允許每個片段結(jié)束時雙方各做一次決策 (保持不變也是一種決策), 然后套用圍棋的方法, 這種方法帶來的問題就是時間片劃分多細(xì)合適, 太細(xì)了計算量大, 太粗了容易失真. 除此之外, 就需要創(chuàng)新提出完全不同于AlphaGo的方法來解決.?
3) 非單一目標(biāo)
棋盤對弈, 最終的目標(biāo)就是輸贏. 而實際戰(zhàn)爭往往沒有那么簡單, 很多情況下沒有明確的輸贏之分, 而是要達到某種期望的狀態(tài), 比如奪取制空權(quán)之類. 而且實際戰(zhàn)爭中除了輸贏, 考評一個作戰(zhàn)方案還有很多其它指標(biāo), 比如預(yù)期效能的達標(biāo)性、損失代價的可接受性糟需、資源占用條件的滿足性屉佳、應(yīng)對各種變化的靈活性等. 換言之, 實際戰(zhàn)爭的目標(biāo)是非單一的, 是一套價值目標(biāo)體系. 如何在棋盤對弈中模擬這樣的價值目標(biāo)體系, 而神經(jīng)網(wǎng)絡(luò)又如何來學(xué)習(xí)這種價值目標(biāo)體系下的人類直覺, 都是值得研究的問題.
????4) 不完全信息?
????棋盤上, 黑白分布一目了然. 而現(xiàn)實戰(zhàn)爭中, 信息有缺有失、有真有假. 當(dāng)信息缺失時, 就好像一個人在下棋, 走了好幾步之后, 才知道對手走到哪兒, 也不知道對手是怎么走到那里的, 那么在這幾步 “盲棋” 中, 該如何做決策洲押?另一方面, 當(dāng)信息有假時, 就好像對手表面上走了一步棋, 實際上走的是另一步棋, 有一個看得見的棋盤和一個看不見的棋盤, 如何鑒別看得見的這步棋, 又如何估計看不見的那步棋武花? 星際爭霸游戲中設(shè)置了一部分信息缺失的元素, 例如未經(jīng)玩家探索過的地區(qū)會蒙上一層黑幕. AlphaGo能否通過這樣的考驗, 讓我們試目以待.?
????5) 不完備規(guī)則?
????棋盤上, 一招一式都有規(guī)定, 規(guī)則是明確的, 對雙方是一致的. 而現(xiàn)實戰(zhàn)爭中, 招無定式、兵無定法, 人可以隨時創(chuàng)造出新戰(zhàn)法. 朱可夫在與關(guān)東軍作戰(zhàn) 中, 用滑輪繩索將坦克拉上陡坡, 實現(xiàn)了出奇制勝. 而現(xiàn)代化戰(zhàn)爭中, 前方兵力看似不多, 后方一枚遠(yuǎn)程導(dǎo)彈就有可能瞬間改變戰(zhàn)局, 美軍號稱一小時內(nèi)能打到全球任何一處, 小小棋盤又哪能覆蓋無邊界的戰(zhàn)場杈帐?即便循規(guī)蹈矩地照教科書上的戰(zhàn)法, 用在不同的實際情況下也是需要調(diào)整的, 創(chuàng)新是無處不在的. 試想兩人對弈中, 如果對手不斷地違規(guī)走棋, 即便是 “圍棋之神” 也難以取勝. 當(dāng)然, 實際戰(zhàn)爭中對手的規(guī)則也不是完全不清楚, 是可以大致估計出來的, 很多情況下對手別無選擇, 這里面有個度的問題.
?????6) 缺訓(xùn)練樣本
????棋局盤面可以達到千萬級的規(guī)模, 現(xiàn)實戰(zhàn)爭不太可能. 即便算上演習(xí)訓(xùn)練, 也離這個規(guī)模相去甚遠(yuǎn). AlphaGo 通過自我博弈無中生有地制造了大量樣本, 這對于戰(zhàn)爭能否做到是個問題. 棋盤上自我博弈較為簡單, 用于作戰(zhàn)還要解決從戰(zhàn)法到行動方案的自動生成問題. 此外, 人造的樣本能不能用也是個問題, 深度學(xué)習(xí)如果學(xué)到的是人造的規(guī)律, 就失去了意義. 另一方面, 人類自身在學(xué)習(xí)時并不需要太多樣本, 打 過幾次仗的兵就算老兵了, 一生身經(jīng)數(shù)十戰(zhàn)就是 “戰(zhàn)神” 了, 人類靠的不僅僅是經(jīng)驗積累, 每積累一次經(jīng)驗都會帶有思考, 讓理性思維和感性認(rèn)識相結(jié)合, 才能實現(xiàn)快速學(xué)習(xí). 如何讓機器像人一樣去學(xué)習(xí)作戰(zhàn), 是很值得研究的問題.?
上述挑戰(zhàn)問題, 每一個目前都沒有很好的解決辦法, 但筆者相信隨著技術(shù)的發(fā)展, 它們終有一天會被解決. 正如 AlphaGo 贏棋之前, 很多人預(yù)測這一天還要很多年才能到來. 我們處在技術(shù)飛速發(fā)展的時 代, 每一天都在見證奇跡的出現(xiàn).
4 指揮與控制智能化發(fā)展著力點
分析認(rèn)為, 不論 AlphaGo還是 “深綠”, 其邁向智能化的基礎(chǔ)都是知識. AlphaGo的知識是16萬人類高手的圍棋棋譜, “深綠” 的知識是各種仿真實體的交戰(zhàn)模型. 沒有這些知識做基礎(chǔ), 它們是達不到現(xiàn)在 的智能化程度的. 因此, 知識工程是智能化的基石, 解決智能化的關(guān)鍵問題, 還應(yīng)從知識表示体箕、知識學(xué) 習(xí)、知識推理等基礎(chǔ)問題入手, 加強技術(shù)方法研究.
????1) 加強指揮員認(rèn)知域的知識表示方法研究?
????智能化的第一步, 是讓機器理解戰(zhàn)爭, 理解戰(zhàn)場上發(fā)生的事, 以及指揮員心中考慮的問題. 分析戰(zhàn)爭問題, 很重要的一點就是抽象. 要分析戰(zhàn)法博弈層面的問題, 首先要分析一下指揮員心中的棋盤是什么樣的, 指揮員是如何分析任務(wù)目標(biāo)挑童、理解戰(zhàn)場局勢累铅、 設(shè)計作戰(zhàn)思路的、評價作戰(zhàn)效果的, 指揮員大腦里抽象站叼、模糊娃兽、不確定的知識產(chǎn)物具有哪些要素特征. 然后探尋如何將這些要素特征形式化描述, 以便機器理解.?
????2) 加強復(fù)雜戰(zhàn)爭規(guī)律的知識學(xué)習(xí)方法研究?
????戰(zhàn)爭規(guī)律不斷在變化, 而且復(fù)雜性也在不斷提升, 人類經(jīng)驗總結(jié)是一方面, 機器學(xué)習(xí)的方法可以幫助人類提升對復(fù)雜戰(zhàn)爭規(guī)律的認(rèn)識. 運用深度學(xué)習(xí)方法, 首先要解決訓(xùn)練樣本的問題, 可用的實際戰(zhàn)爭和演習(xí)數(shù)據(jù)有限, 一種可行的途徑是通過仿真模擬的作戰(zhàn)過程積累數(shù)據(jù). 因此, 要大力建設(shè)作戰(zhàn)仿真模擬環(huán)境, 類似星際爭霸之類的戰(zhàn)爭游戲, 還應(yīng)當(dāng)越做越精細(xì), 更加逼真的模擬真實作戰(zhàn), 不僅僅是在畫面效果上, 還要在作戰(zhàn)流程、交戰(zhàn)對抗尽楔、實體行為決策投储、 戰(zhàn)場環(huán)境上盡量貼近真實, 讓更多一線的指揮人員成為游戲的玩家, 同時也讓將戰(zhàn)爭游戲打造成為檢 驗戰(zhàn)法戰(zhàn)術(shù)的試金石和試驗田. 在積累了大量指揮軍官的游戲數(shù)據(jù)之后, 深度學(xué)習(xí)才能派上用場.?
????3) 加強面向博弈對抗的知識推理方法研究?
如前所述, 戰(zhàn)爭博弈對抗具有非輪次博弈、非單一目標(biāo)阔馋、不完全信息玛荞、不完備規(guī)則等特征, 傳統(tǒng)的知識推理方法存在適用性問題. 因此, 在充分吸收 AlphaGo的推理方法的同時, 還應(yīng)結(jié)合邏輯推理、不確定推理呕寝、基于案例的推理勋眯、基于仿真的模擬推演,以及傳統(tǒng)的數(shù)學(xué)計算等多種手段, 或者創(chuàng)造新的推理方法. 另一方面, 人工智能目前還不能完全替代人類的智慧, 但兩種智能可以結(jié)合起來解決問題. 如何優(yōu)化人和機器的智能分工與協(xié)作效率, 實現(xiàn)智能輸出的最大化, 也是值得研究的問題.
5 啟示及建議
本文對美軍 “深綠” 計劃及 AlphaGo進行了簡要的介紹, 分析了其各自的優(yōu)缺點, 提出了將二者的核心技術(shù)方法結(jié)合起來, 應(yīng)用于戰(zhàn)前推演、實時預(yù)測、臨機決策客蹋、精準(zhǔn)控制塞蹭、戰(zhàn)后評估等指揮與控制業(yè)務(wù)的方法.同時, 也從戰(zhàn)爭抽象建模、非輪次博弈嚼酝、非單一目標(biāo)浮还、不完全信息、不完備規(guī)則闽巩、缺訓(xùn)練樣本等方面分析了技術(shù)應(yīng)用面臨的挑戰(zhàn), 指出發(fā)展指揮與控制智能化應(yīng)以知識表示钧舌、學(xué)習(xí)、推理等基礎(chǔ)問題作為著力點. 知識是智能化的核心, 而數(shù)據(jù)是根基, 所謂 “巧婦難為無米之炊”, 是當(dāng)前指揮與控制智能化面臨的困境, 因此, 要大力推進知識工程建設(shè), 積累數(shù)據(jù)是關(guān)鍵涎跨。
????人工智能技術(shù)雖然不能說已經(jīng)成熟, 但足以和目前的指揮與控制系統(tǒng)拉開足夠差距, 可以發(fā)展的空間很大, 很多傳統(tǒng)方法解決不了的問題有可能通過智能化技術(shù)解決洼冻。然而,發(fā)展智能化指揮與控制要一步步來隅很,不能急功近利撞牢,“深綠” 就是前車之鑒, 把握不好, 一次重大失利, 就可能將其帶入低谷. 深度 學(xué)習(xí)技術(shù)只是人工智能的一種方法, 不能解決所有問題, 其他人工智能方法也有待進一步發(fā)展, 關(guān)鍵在于如何結(jié)合領(lǐng)域特征高效轉(zhuǎn)化應(yīng)用. 最后, 應(yīng)當(dāng)將人工智能當(dāng)作指揮員的助手, 用于輔助決策, 但最終做決定的還應(yīng)當(dāng)是人類, 全自主化戰(zhàn)爭目前來看還太遙遠(yuǎn)。