近年來我軍指揮信息系統(tǒng)建設(shè)成果十分顯著。首先,以指揮自動化建設(shè)為基礎(chǔ),新型指揮信息系統(tǒng)已經(jīng)涵蓋了作戰(zhàn)指揮C4ISR的各個環(huán)節(jié),成為作戰(zhàn)指揮的基礎(chǔ)平臺;其次,多年的建模仿真及數(shù)據(jù)工程建設(shè)實踐為指揮信息系統(tǒng)建設(shè)積累了大量的基礎(chǔ)性模型、規(guī)則和數(shù)據(jù);第三,分析評估和任務(wù)規(guī)劃系統(tǒng)快速發(fā)展,已經(jīng)成為指揮信息系統(tǒng)的重要組成部分。但是,這些系統(tǒng)都遇到了智能化問題,即對智能程度要求稍高的態(tài)勢理解、決策輔助或?qū)雇蒲莸葐栴}始終難以突破。未來戰(zhàn)爭需要快速決策、自動決策和自主決策,這些都有賴于智能瓶頸的突破,否則無法適應(yīng)未來戰(zhàn)爭的需要。這也是其他國家軍隊指揮信息系統(tǒng)建設(shè)同樣面臨的問題。
指揮信息系統(tǒng)的智能化既是系統(tǒng)能力實現(xiàn)階躍式提升的核心環(huán)節(jié),也是形成與對手不對稱優(yōu)勢的關(guān)鍵。本文將以美軍的“深綠”計劃發(fā)展過程為例,簡要分析機器智能輔助存在的問題,并結(jié)合AlphaGo在智能方法研究上的突破,探討未來指揮信息系統(tǒng)研發(fā)需要關(guān)注的問題及趨勢。
“深綠”計劃的組成及特點
“深綠”計劃是2007年由美國國防部高級研究計劃局(DARPA,Defense Advanced Research Projects Agency)啟動的關(guān)于指揮控制系統(tǒng)的研發(fā)計劃,原計劃3年完成,然后將這個系統(tǒng)嵌入到美國陸軍旅級C4ISR戰(zhàn)時指揮信息系統(tǒng)中去①。
簡單的說,“深綠”就是想將智能技術(shù)引入到作戰(zhàn)指揮過程中。受當(dāng)時IBM的“深藍”戰(zhàn)勝了國際象棋棋王卡斯帕羅夫的影響,該計劃取名“深綠”。美軍認為既然計算機可以戰(zhàn)勝棋王,那么也能幫助指揮員快速決策,在作戰(zhàn)指揮中取得致勝的先機。但事實證明原先的估計過于樂觀和簡單了,計劃至今都沒有完成。
“深綠”的任務(wù)是預(yù)測戰(zhàn)場上的瞬息變化,幫助指揮員提前進行思考,判斷是否需要調(diào)整計劃,并協(xié)助指揮員生成新的替代方案。最初的設(shè)想是能夠?qū)⒅贫ê头治鲎鲬?zhàn)方案的時間縮短為現(xiàn)在的四分之一。通過提前演示出不同作戰(zhàn)方案以及可能產(chǎn)生的分支結(jié)果實現(xiàn)快速決策,從而使敵方始終不能將完整的決策行動閉環(huán)(觀察—判斷—決策—行動),永遠無法完成決策并行動。“深綠”的主要目標(biāo)是將指揮員的注意力集中在決策選擇上,而非方案細節(jié)制定上,方案細節(jié)的制定交由計算機完成。
“深綠”由四大部分組成。第一部分叫指揮官助手,實質(zhì)是人機接口;第二部分叫“閃電戰(zhàn)”,實質(zhì)是模擬仿真;第三部分叫“水晶球”,相當(dāng)于系統(tǒng)總控,完成戰(zhàn)場態(tài)勢融合和分析評估;第四部分是“深綠”與指揮系統(tǒng)的接口。它們主要有三個特點:
基于草圖指揮。通過指揮官助手這個模塊實現(xiàn)決策指揮“從圖中來,到圖中去”,以最大限度地符合指揮員的決策分析與操作習(xí)慣。也就是通過最自然的手寫圖交互的方式,與計算機實現(xiàn)交互。從戰(zhàn)場態(tài)勢感知、目標(biāo)價值分析、作戰(zhàn)方案制定、指揮員決策,一直到作戰(zhàn)行動執(zhí)行、作戰(zhàn)效果評估,全部實現(xiàn)“基于草圖進行決策”,即由“草圖到計劃”(STP, Sketch to Plan)和“草圖到?jīng)Q策”(STD, Sketch to Decision)兩個模塊完成。該功能實現(xiàn)的關(guān)鍵是智能化的人機接口。
自動決策優(yōu)化。決策通過模型求解與態(tài)勢預(yù)測的方式進行優(yōu)化,系統(tǒng)從自動化接口的“指揮官助手”進去,然后通過“閃電戰(zhàn)”模塊進行快速并行仿真,再通過“水晶球”模塊實現(xiàn)對戰(zhàn)場態(tài)勢的實時更新、比較、估計,最后將各種決策方案提供指揮員,由指揮員決策選擇。
該功能的實現(xiàn)需要兩個工具支持:即“閃電戰(zhàn)”和“水晶球”。前者是自動決策優(yōu)化工具,實際就是分析引擎,能夠迅速地對指揮官提出的各種決策計劃進行并行模擬仿真,從而生成一系列未來可能的結(jié)果。同時它可以識別出各個決策的分支點,預(yù)測可能的結(jié)果、范圍和可能性,即通過多分辨仿真實現(xiàn)對未來的預(yù)測。后者實際就是決策總控,通過收集各種計劃方案,更新戰(zhàn)場當(dāng)前態(tài)勢,控制快速模擬,向指揮員提供可能的選擇,提醒指揮員決策點的出現(xiàn)。
指揮系統(tǒng)的集成。即將決策輔助功能集成到“未來指揮所”(CPoF, Command Post of Future)系統(tǒng)中。“未來指揮所”是美軍針對未來作戰(zhàn)需要研發(fā)的一個指揮信息系統(tǒng)。“深綠”的項目負責(zé)人蘇杜爾曾說,“深綠”將來就是未來指揮所系統(tǒng)屏幕上的一個圖標(biāo)或工具。通過簡單的點擊操作就可以輔助指揮員進行決策。未來指揮所系統(tǒng)雖然很復(fù)雜,包括了各種傳感器、可視化、空間推理、仿真決策、數(shù)據(jù)庫等要素,但美軍覺得最需要的是智能輔助決策的支持。
“深綠”的無奈——指揮信息系統(tǒng)面臨的智能化難題
“深綠”的理想效果是只要提供己方、友方和敵方的兵力數(shù)據(jù)和可預(yù)期的計劃,系統(tǒng)就可以快速推演出結(jié)果,輔助指揮員快速做出正確決策。如將該系統(tǒng)嵌入到指揮系統(tǒng)中,就可以大大提高指揮效率。但該項目發(fā)展并不順利,“深綠”最后只留下了“草圖到計劃”STP,其它都不見了②。“深綠”是美軍十年前設(shè)想的項目,但為什么沒有做到并達成預(yù)定目標(biāo)呢?這就要回答指揮信息系統(tǒng)面臨哪些智能化難題。實際上我國這幾十年也在做類似工作,但結(jié)果也是一樣,很多都覺得應(yīng)該能夠做到,但到最后都卡在智能化問題環(huán)節(jié)。
戰(zhàn)場態(tài)勢理解。戰(zhàn)場態(tài)勢理解與各種棋類比賽的態(tài)勢理解的特點完全不同。下棋是固定規(guī)則、完全信息,行動全開放,什么都能看見,什么都知道,看的是你的決策。但戰(zhàn)場態(tài)勢理解是不完全信息條件下的態(tài)勢判斷,也就是態(tài)勢信息有真有假,有多有少,指揮員看到的和實際的情況根本不一樣。戰(zhàn)場態(tài)勢理解是指揮決策不可缺少的前提,決策內(nèi)容包括作戰(zhàn)力量、戰(zhàn)場布勢、行動過程、環(huán)境目標(biāo)等多種要素,而且層次越高,對態(tài)勢的認知就越具主觀性,從戰(zhàn)斗、戰(zhàn)術(shù)層,再到戰(zhàn)役、戰(zhàn)略層,態(tài)勢可量化的程度就越低。從這個角度來說,低層次的戰(zhàn)斗戰(zhàn)術(shù)態(tài)勢理解相對容易一些,現(xiàn)在能夠做到的幾乎都在這個層面,比如飛行員看到的雙機對抗態(tài)勢,連排長看到的分隊?wèi)?zhàn)術(shù)態(tài)勢。但就整體而言,計算機對態(tài)勢的理解能力還遠遠達不到人的水平。即使非常復(fù)雜的戰(zhàn)略戰(zhàn)役態(tài)勢,有經(jīng)驗的指揮員一看馬上就知道戰(zhàn)場情況如何,百萬雄兵自在胸中,但計算機還做不到。
態(tài)勢理解的表達。“深綠”將決策的“想法”用筆繪制圖形輸入很容易,畫個草圖就行了,這對于目前的技術(shù)來說幾乎沒有問題。但要把對態(tài)勢判斷的理解表達出來就不容易了,比如作戰(zhàn)決心,采用哪種圖表和符號呢?是畫個箭頭,還是畫個圈圈來表示?表達粗細如何選擇?如何補充其中的細節(jié)?而且,如果要素更多一些,各種情況更復(fù)雜一些,這種決策的表達就會更加復(fù)雜。對人來說,這種表達沒有任何問題,但讓計算機去做就比較困難,因為人機接口還做不到對圖形圖像和自然語言的理解。決策想法的輸入是分析評估的前提,要解決這個問題,智能化人機接口就必不可少。
作戰(zhàn)計劃的描述。這是一個最大難題。因為作戰(zhàn)行動及結(jié)果有不確定性,會導(dǎo)致行動偏離計劃預(yù)想。而且決策選擇還會出現(xiàn)組合爆炸現(xiàn)象,前面計劃的任何變化都會導(dǎo)致后面計劃的無窮變化。所以識別情況變化并能正確應(yīng)對就成為難題。態(tài)勢改變了如何識別和理解?如何知道改變的意思是什么?如何調(diào)整后面的計劃?敵方的決策如何確定?這其實就是“人機對抗問題”的翻版,和AlphaGo人機大戰(zhàn)一樣。不管紅方、藍方,你事先都可以做一個很“圓滿的”作戰(zhàn)計劃,但因為不確定性,只要對抗開始,一切就全都變了,使得你根本無法再按原計劃進行。所以以往進行作戰(zhàn)計劃評估,一般只做單方的,像地地導(dǎo)彈發(fā)射,不管別人怎么辦。在一些低對抗條件、低層次或低復(fù)雜度的行動組合,也可以勉強做到一部分。但對高對抗條件、較高層次的作戰(zhàn)計劃,如果不能實現(xiàn)態(tài)勢認知理解和智能應(yīng)變,就根本無法做到對計劃的真正評估。
對“未來”的仿真。“深綠”的“閃電戰(zhàn)”模塊功能是對未來多種可能情況進行仿真,推演出可能的結(jié)果,供指揮員決策時參考。該模塊的實現(xiàn)需要回答兩個問題:一是“未來”有多遠?對于長程的推演,會由于復(fù)雜性傳遞導(dǎo)致狀態(tài)偏離越來越大,和你原來設(shè)想的不一樣,你將如何處理這種變化?而且越復(fù)雜的行動推演,涉及要素和變化越多,又怎么辦?二是推演中誰來負責(zé)敵方的決策?因為推演即有對抗,指揮信息系統(tǒng)都是我方的,誰來負責(zé)推演中敵方的行動決策?是由指揮員去假定,還是由指揮信息系統(tǒng)自動得出?而且對抗的敵方是不會合作的,如何進行取舍?是不是需要配套合適的仿真系統(tǒng)并與指揮系統(tǒng)互聯(lián)?這些問題的本質(zhì)其實都是智能問題,不解決這些問題就無法對“未來”進行仿真。
數(shù)據(jù)的決定性作用。人們總是認為,系統(tǒng)之所以做不出正確決策,是因為所提供的數(shù)據(jù)不夠或不準(zhǔn)。這是典型的“決定論”觀點,即初始條件足夠,就可以預(yù)測一切。實際上這種理解是片面的,也是不正確的。戰(zhàn)爭是典型的復(fù)雜系統(tǒng),敵人也不是合作者,永遠也不會有“足夠的”數(shù)據(jù)給你,不完全信息條件下決策是作戰(zhàn)指揮的本質(zhì)特點。決策需要根據(jù)情況不斷變化,數(shù)據(jù)的要求也會不斷發(fā)生改變。復(fù)雜性會導(dǎo)致“決策”本身不唯一,也就無法確定哪個“正確”,哪個更好?層次越低,決策越接近簡單系統(tǒng),數(shù)據(jù)可能才越具有決定性作用。比如單機單艦,在戰(zhàn)術(shù)級還勉強可以,但到了高層次就可能不行了,數(shù)據(jù)的多少并不能減少作戰(zhàn)的復(fù)雜性。但無論如何,能否采集到足夠的數(shù)據(jù)是能否正確決策的前提,“深綠”之所以要集成到指揮所系統(tǒng)中,就是要通過指揮系統(tǒng)給它提供采集和感知到的各種數(shù)據(jù)。所以說,“數(shù)據(jù)是否具有決定性”,在不同情況下會有不同的回答。
計算機的決策是不是優(yōu)于人。計算機做出的作戰(zhàn)決策是不是可以優(yōu)于“人”?米勒定律③認為,大多數(shù)人在分析問題的時候,同時只能考慮7至9個因素。但如果計算機能夠同時考慮10個以上因素的話,那么它的分析能力肯定可以超過人。美軍曾做過一個RAID仿真實驗來驗證這個結(jié)論。設(shè)想了一個步兵連與一群叛亂分子的對抗,步兵連分為30~35個小組,由斯特瑞克裝甲車和武裝直升機加強火力。叛亂分子則由30個規(guī)模不一的小組組成。用OneSAF仿真系統(tǒng)仿真實驗36次,最后得出結(jié)論是RAID表現(xiàn)像人類的有16次,也就是你分不出來是人決策還是計算機決策,大約占到44%,也就是一半左右。戰(zhàn)斗取勝的18組中有16組是計算機,就是說有88%超過了人,這說明在這種情況下計算機能力還是很強的。
但這是在戰(zhàn)斗或戰(zhàn)術(shù)層面等比較低的層次。到了高層,比如說旅級指揮所這一層,這個結(jié)論就很難說了。很多研究證明,層次越高藝術(shù)成分越高,越難用計算機輔助,就是因為計算機還不能像人那樣“藝術(shù)地”思考問題,其實這也是智能問題。這種情況下想要計算機去取代人肯定是不現(xiàn)實的,也不明智。決策問題最終要解決的問題,本質(zhì)上就是人與計算機應(yīng)該如何分工的問題。
陸軍平臺問題。“深綠”計劃雖然主要是針對陸軍部隊的,但事實上解決陸軍的自動化指揮決策問題比海空軍更困難,因為陸軍作戰(zhàn)行動中個人更自由,一般的步兵散兵很難定位和規(guī)范,也就是很難數(shù)字化。所以要想使用“深綠”系統(tǒng),就必須先將部隊的行動規(guī)范化,但是這在實際作戰(zhàn)中又做不到。
那么“深綠”更適合用在什么系統(tǒng)里呢?對陸軍來說,更適合的是車載戰(zhàn)術(shù)級作戰(zhàn)指揮輔助系統(tǒng),就是使用車、使用坦克、使用裝甲車的部隊。對海軍、空軍及導(dǎo)彈部隊來說,比較適合的是戰(zhàn)術(shù)級輔助決策以及作戰(zhàn)規(guī)劃等系統(tǒng)。對網(wǎng)絡(luò)作戰(zhàn)來說,可能更適合于“事先規(guī)劃”的方式,就是戰(zhàn)前依托系統(tǒng)輔助制定決策,戰(zhàn)時依托數(shù)據(jù)自動決策的方式來完成。這種智能決策輔助應(yīng)該如何使用,應(yīng)該由它的對象來決定。
以上這七個問題都是在“深綠”研發(fā)中必須要解決的問題,否則就很難被廣泛使用。但就目前的情況來看,“深綠”能做到的和人們期望只值之間,還存在很大的差距。而且還有一個矛盾或悖論:有的事情你能夠做到,但作戰(zhàn)并不太需要;有的事情作戰(zhàn)特別需要,卻很難做到。比如,在戰(zhàn)斗層或分隊層指揮信息系統(tǒng)可以做到智能輔助決策,因為這個層次的智能問題比較易于解決,但在實戰(zhàn)中偏偏在這種情況下指揮員一般一眼就可以看清,并不需要推演計算;但在戰(zhàn)役以上層次,戰(zhàn)場態(tài)勢特別復(fù)雜,一般人往往看不懂或看不清,特別需要智能輔助,但它卻無能為力。
層次越高,作戰(zhàn)決策越復(fù)雜,越難以描述和處理,這不僅僅是因為部隊多了、數(shù)據(jù)多了、運算量大了等問題,而且還有復(fù)雜性帶來的不確定性、指數(shù)爆炸,以及對“對手”意圖的把握等對抗博弈的問題。所以說到底,核心問題還是決策智能輔助問題,也就是智能瓶頸能否突破?如果不能突破智能瓶頸,剛才說的問題就永遠都是問題。
AlphaGo帶來的機遇——指揮信息系統(tǒng)智能技術(shù)的探索
人類智能和機器智能面臨著不同的智能難題。有些事情對計算機非常容易,但對人卻很難,比如說計算、排序、記憶等;也有些事情對人來說很容易,但對計算機卻很難,比如說理解圖像,人一眼就能看出圖片中的各種物體,但是讓計算機去看恐怕就很困難。這就是所謂的“莫拉維克悖論”,說的就是人和機器在智能方面往往非常不同。
一般來說,機器智能主要分為三大類:第一類是計算智能。機器可以在科學(xué)計算、邏輯處理等方面完勝人類。比如超級巨型機“天河”,科學(xué)運算速度可以達到幾千萬億次。但也還有很多事情能做但還做不好,比如說復(fù)雜推理時可能還需要直覺的幫助。IBM的“深藍”和“更深的藍”連續(xù)戰(zhàn)勝國際象棋棋王卡斯帕羅夫,但有很多科學(xué)家卻認為,它的方法本質(zhì)上還只是數(shù)學(xué)方法,并不屬“智能”的范疇。第二類是感知智能,就是智能化的感知接口,這種智能對人很容易但對機器卻很難。這幾年大數(shù)據(jù)和深度學(xué)習(xí)的出現(xiàn),使得機器在這方面有了很大的進步。比如語音識別,即將聽到的語音識別成文字,訊飛、阿里的語音識別就可以完勝速記員④,蘋果Siri、微軟小冰和百度的小度等也都做得非常出色,谷歌的圖片識別標(biāo)注、ImageNet競賽等,都已經(jīng)達到令人驚嘆的水平。在行為感知智能方面,比如“大狗”機器人、行走士兵等。雖然現(xiàn)在進步很大,但還只是初級水平,尚有很多復(fù)雜的事情計算機還做不了。第三類是認知智能。這是最復(fù)雜的智能,以“能理解”“會決策”為基本特征。IBM的問答智能程序“沃森”可以在問答比賽中完勝人類,標(biāo)志著計算機在知識組織上更有效;谷歌無人車需要多種感知和決策方面智能的結(jié)合,標(biāo)志著無人平臺開始融入社會生活;現(xiàn)在還有包括我國在內(nèi)的多個國家都在做一件事情,就是要讓人工智能程序參加高考,甚至要爭取考入一本大學(xué),最好能進清華、北大。這些事情在智能方面未來都有可能做到,但即便如此它們離真正的認知智能還有很遠的距離。要真正做到“能理解”“會決策”還很困難,因為“可識別”不等于“能理解”,你能認出這個東西是什么不等于理解了它,更不等于它“有意識”。AlphaGo和李世石的比賽一結(jié)束,就有媒體制造一些聳人聽聞的標(biāo)題,討論“計算機何時開始統(tǒng)治人類”等問題,而目前計算機能不能具有“自我意識”都還不知道,消滅人類估計是很久以后的事情了。
從三類機器智能來看,指揮信息系統(tǒng)在認知智能方面的差距最大,是明顯的瓶頸。但可以設(shè)想如果一旦突破,帶來的影響也將是極為重大的,這樣戰(zhàn)場態(tài)勢的認知速度就將成為決定作戰(zhàn)勝負的關(guān)鍵因素。因為從工具的角度來看,機器肯定要比人要做得好,所以只要一旦做出來了,它的算法、數(shù)據(jù)及計算能力都是可以重復(fù)的,因而也就可以無限放大它的作用。
表1列出了指揮信息系統(tǒng)在三類智能方面的差距。認知智能、計算智能、感知智能分別對應(yīng)著指揮信息系統(tǒng)的人機接口、基本指揮業(yè)務(wù)和輔助決策等功能。在感知智能方面,人機接口技術(shù)現(xiàn)在已經(jīng)越來越好了,因為近幾年深度學(xué)習(xí)方法取得很大突破,今后應(yīng)該會有很大的突破。但是在輔助決策的認知智能方面,目前還有較大差距,還非常初級,就像“深綠”所做的那樣,雷聲大雨點小,至少目前還沒有很大的進展。
AlphaGo近期掀起了一個很大的高潮,被認為是機器智能在方法進步上的里程碑。有人說這是谷歌會做廣告,但筆者認為不是這樣。為什么別的下棋程序也非常多,也戰(zhàn)勝過一些“名人”,卻知者寥寥?因為它們從智能技術(shù)和方法進步上來看價值不是太大。但AlphaGo卻給了我們很多驚喜,有了很多新的發(fā)現(xiàn),而且還有很多甚至連設(shè)計者事先可能都沒想到的地方,這才是它被大家認可的真正原因。
AlphaGo在這次人機大戰(zhàn)中至少表現(xiàn)出以下幾個方面的突破,或者是表現(xiàn)出了很好的苗頭:一是它是通過深度學(xué)習(xí)自己掌握了圍棋對弈知識,而不是像“深藍”那樣將相關(guān)知識編在程序里;二是它展現(xiàn)出了一種捕捉“棋感直覺”的方法,將人類平衡全局勝負和局部優(yōu)化的能力捕捉下來并用于對抗,這是一個很大創(chuàng)新;三是在對弈中它甚至發(fā)現(xiàn)了人類沒有的圍棋著法,這是從圍棋高手的評論中得知的,說它比人更接近“圍棋之神”。據(jù)說它已經(jīng)達到了職業(yè)十三段,也有說可以讓四子下贏柯潔。這個進展還隱含著另一個結(jié)論,就是機器智能并不是簡單模擬和逼近人的智能,而是可以超過人的智能的。四是這種方法具有一定的“通用性”,可以應(yīng)用在其他地方,而不只是下棋,因而極具參考價值。
從以上這四條可以看出,雖然AlphaGo在認知智能方面還非常簡單也非常初級,但它揭示出了非常重要的趨勢,即在未來幾年以深度學(xué)習(xí)為代表的機器智能技術(shù)將有可能會有很大的突破,有可能產(chǎn)生出爆炸性的影響,我們不能不關(guān)注。
深度學(xué)習(xí)方法的進展
圍棋棋手的棋感和其他很多經(jīng)驗知識是一樣的,決定了他的水平,但只可意會,不可言傳。那么,怎樣讓AlphaGo學(xué)會圍棋高手的著法,并且獲得所謂的“棋感直覺”呢?這是通過深度學(xué)習(xí)方法做到的。
深度學(xué)習(xí)是通過建立神經(jīng)元網(wǎng)絡(luò)達成“理解概念、捕捉感覺”的目的的,即“通過對大量樣本的學(xué)習(xí),形成對事物特征的提取和分類”。這種學(xué)習(xí)可以分為有監(jiān)督訓(xùn)練,也就是有人指導(dǎo),用標(biāo)簽進行分類;無監(jiān)督的訓(xùn)練,沒有人指導(dǎo),自己實現(xiàn)對特征的聚類。但這需要非常大的計算能力,比如AlphaGo就用了1202個CPU、176個GPU,計算能力約為深藍2.5萬倍,才完成了訓(xùn)練。
AlphaGo的神經(jīng)元網(wǎng)絡(luò)是通過學(xué)習(xí)逐步建立起來的,學(xué)習(xí)的過程就是逐步整合神經(jīng)網(wǎng)連接的過程,而逐漸整合就意味著逐步理解。但這個神經(jīng)網(wǎng)絡(luò)本身對外部的人來說仍然是黑箱網(wǎng)絡(luò),我們并不知道十幾億節(jié)點之間怎么連接的,而且這些連接還會發(fā)生什么變化。但這些神經(jīng)網(wǎng)絡(luò)確實表示出了人對圍棋規(guī)律的理解,它是建立在大量訓(xùn)練數(shù)據(jù)和大量計算基礎(chǔ)上的。可以說,深度學(xué)習(xí)就是“大數(shù)據(jù)+高性能計算+神經(jīng)網(wǎng)絡(luò)算法”的一個綜合體。
而且,深度學(xué)習(xí)的學(xué)習(xí)方法是一種非常接近人類認知的形式。一般來說,人類學(xué)習(xí)的知識有兩類,一類是通過抽象化方式學(xué)習(xí)得到的,比如說在小學(xué)中學(xué)學(xué)習(xí)四則運算、牛頓定律和運動方程,這些是用抽象的形式化方法表達的。語文則是用文字方式來表達的,也是形式化的。另一類則是通過反復(fù)訓(xùn)練、積累經(jīng)驗,以直覺的方式學(xué)習(xí)。以人接拋過來的球的過程為例,當(dāng)你伸手去接球時,你的大腦中并沒有任何有關(guān)拋物線方程等形式化的公式,而是根據(jù)多年的經(jīng)驗就能把球接到。當(dāng)我們把飛盤拋給狗的時候,這個狗也可以被慢慢地訓(xùn)練得知道如何去接,形成條件反射。深度學(xué)習(xí)就是這種學(xué)習(xí)方法,而且具有“學(xué)習(xí)需要過程、經(jīng)驗難以言傳、結(jié)果有對有錯”等特點。這也是一種比較符合復(fù)雜系統(tǒng)特點的認知方式,雖然可能暫時找不到對應(yīng)的因果關(guān)系或形式化表達,那就只能依據(jù)“感覺”和“經(jīng)驗”來做。而AlphaGo的深度增強學(xué)習(xí)方法,就為人們提供了捕捉這種經(jīng)驗和感覺的具體方法。其實,高手和低手的差別,其實就在“經(jīng)驗”“感覺”方面。誰都知道圍棋怎么下,但是高手和低手之間的差別就在于經(jīng)驗和棋感的差距。抓住經(jīng)驗的過程實質(zhì)上就是認知的過程。
將這些方法用于作戰(zhàn)指揮信息系統(tǒng),既大有好處也非常自然?,F(xiàn)在許多深度學(xué)習(xí)方面的研究進展,都可以用于指揮信息系統(tǒng)設(shè)計中。
智能人機接口方面的進展。在圖像語音的識別和理解方面,谷歌、微軟等很多公司做得非常好,進展很大。比如對象的識別、圖像的標(biāo)注等,目前都可以做到。如果將這些方法用于衛(wèi)星圖像處理、目標(biāo)識別、作戰(zhàn)文書識別等方面,效果肯定要比過去的那些方法要好很多,比如模式識別,這就可以為指揮信息系統(tǒng)提供更好的智能人機接口手段。
智能認知方面的進展。以AlphaGo為例,它主要使用了四種方法實現(xiàn)圍棋的對弈決策:一是通過策略網(wǎng)絡(luò)(Policy Network)預(yù)測下一步走棋,這個網(wǎng)絡(luò)是通過前人棋譜和新老版本的自我博弈訓(xùn)練出來的;二是通過估值網(wǎng)絡(luò)(Value Network)實現(xiàn)對整個棋局勝負的判定和預(yù)測,這個網(wǎng)絡(luò)是用隨機自我博弈的方式得到的;三是快速走子(Fast rollout),這是一種加快走棋速度的方法,是一種只管局部的著法,類似深藍,雖勝率要低些,但速度可以快1000倍左右;四是通過蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)來探索勝率高的著法,將前三者結(jié)合起來,就像總控一樣來判斷哪種方式更好,并且結(jié)合起來使用。
AlphaGo的這些方法很巧妙地解決了對圍棋這一類復(fù)雜問題的思考、判斷和決策問題。這方面的技術(shù)問題已經(jīng)有很多文章解釋過,本文僅簡單說明。如圖2所示,精確思考可以看作是以深度為主的推演估算,而若要得到對棋局全局的理解,就要在廣度上具有勝負直覺。這兩種方式正好與人類思考過程一致,推演估算是慢思考的方式,是一個精確計算逐步推理的過程,這是用策略網(wǎng)絡(luò)和快速走子完成的。而勝負直覺的思考過程,可以與快思考過程相對應(yīng),是由估值網(wǎng)絡(luò)實現(xiàn)的?,F(xiàn)在科學(xué)已經(jīng)證明,快思考的準(zhǔn)確率可能比慢思考的準(zhǔn)確率反而要高。也就是說,有時候我們一眼看過去得到的直覺答案往往是對的,而仔細推敲得到的答案反而可能是錯的。AlphaGo因為采用了類似的思考方式,所以勝率得以提高。
AlphaGo團隊在論文里提供了一些數(shù)據(jù),這三種走子方式都可以單獨使用,但等級分并不高,也就是個業(yè)余水平;但如果將他們兩兩結(jié)合甚至三個結(jié)合起來,就完全可以超過人類頂尖棋手。這就是智能應(yīng)該有的宏觀微觀整體考慮的感覺,所以結(jié)果就會很不一樣。至于用多少CPU,用分布式還是集中式,其實不是關(guān)鍵,差別也不大,核心問題仍然是算法。
為了實現(xiàn)以上算法,就必須訓(xùn)練得到兩個神經(jīng)網(wǎng)絡(luò)。為做到這一點,他們收集了16萬人類高手的棋譜,拆分為3000萬手盤面,相當(dāng)于3000萬個訓(xùn)練數(shù)據(jù),最后得到13層神經(jīng)網(wǎng)絡(luò)。但是對估值網(wǎng)來說,由于只估算終局勝負,16萬棋譜數(shù)據(jù)就遠遠不夠了。為得到更多數(shù)據(jù),他們再用隨機法生成了自我博弈的3000萬盤面,并且快速下完,得到勝負結(jié)果。有人認為這種方式其實也是一個重大創(chuàng)新,因為找到了產(chǎn)生更多樣本數(shù)據(jù)的途徑。
這些方法也可以用于戰(zhàn)場態(tài)勢認知,通過多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來理解作戰(zhàn)態(tài)勢,并利用歷次作戰(zhàn)、演習(xí)的數(shù)據(jù)進行逐層訓(xùn)練,逐步得到態(tài)勢理解的神經(jīng)網(wǎng)絡(luò)。在理解戰(zhàn)場態(tài)勢的基礎(chǔ)上準(zhǔn)確判斷并合理處置,就可以實現(xiàn)輔助決策或自主決策。這就為解決最復(fù)雜的態(tài)勢認知問題提供了新的途徑。但是下棋和作戰(zhàn)指揮打仗還是很不一樣的,戰(zhàn)場上不可能有那么多得樣本數(shù)據(jù),而且決策方式、對抗過程也不可能讓你反復(fù)試驗,這就需要研究出更多的方法出來,并結(jié)合使用。
學(xué)習(xí)方法的進展。AlphaGo使用的增強深度學(xué)習(xí)方法,是最可能用于戰(zhàn)場態(tài)勢理解的方法。一般的有監(jiān)督學(xué)習(xí)方法,比如AlphaGo最初得到的策略網(wǎng)絡(luò),基本是模仿人類走法的套路,屬于經(jīng)驗招式。它學(xué)來學(xué)去最后也超不過人類高手,為什么?因為它學(xué)習(xí)的都是前人的東西,徒弟不創(chuàng)新怎么能戰(zhàn)勝師傅呢?
但用增強學(xué)習(xí)得到的最終策略網(wǎng)絡(luò)就不一樣了,因為它還要通過自我博弈、調(diào)整參數(shù)等更多的學(xué)習(xí)過程加以完善。這就像師傅帶徒弟打籃球,徒弟老是去加班訓(xùn)練投籃,而且還凈找些新方法,訓(xùn)練的時間長了就有可能超過師傅了。所以,只有“訓(xùn)練超出”“樣本超出”,才有可能做到“能力超出”。要下贏人,光靠模仿人不行,還要找到超過人的方法,自己加強創(chuàng)新訓(xùn)練才行。AlphaGo團隊利用增強學(xué)習(xí)方法訓(xùn)練計算機玩視頻游戲,已經(jīng)基本全部超過人類玩家,而且也是通過看電視進行像素級反復(fù)訓(xùn)練做到的。
增強學(xué)習(xí)方法是一種自我強化的訓(xùn)練方式,但需要更多的樣本。而樣本并不容易找,因此就要有一種用少量樣本產(chǎn)生更多樣本方法,以解決樣本稀缺問題。對作戰(zhàn)態(tài)勢理解來說更是如此。AlphaGo產(chǎn)生訓(xùn)練估值網(wǎng)絡(luò)的3000萬盤面用的是隨機下子然后正推的方式,在圖像識別領(lǐng)域用的則是將圖像旋轉(zhuǎn)等方法。對作戰(zhàn)態(tài)勢理解所需的訓(xùn)練樣本,也可以使用空間劃分、時段分解、隨機復(fù)推等方式。利用兵棋推演得到仿真數(shù)據(jù),也可以看成是一種樣本生成方式。樣本生成是一種“以少代多、無中生有”的方法。
遷移學(xué)習(xí)是一種可以只用少量樣本就可以完成訓(xùn)練的學(xué)習(xí)方法,可以看成是“觸類旁通、舉一反三”的過程。在一些比較相似的領(lǐng)域,可以利用已經(jīng)訓(xùn)練好的模型,這樣只需要一小部分數(shù)據(jù)就可以完成訓(xùn)練,而不需要那么多的數(shù)據(jù)。比如,已經(jīng)認識了“坦克”,再去認識“自行火炮”就容易得多了,就不需要幾千萬樣本再去訓(xùn)練它。
小樣本學(xué)習(xí)可能是一種更有用的方式,可以看成是一種“照貓畫虎”的方式。人類為什么可以只看一眼就可以識別某個對象的特征?比如看這個菠蘿只用一眼就可以找出特征,下次再看到就知道這是菠蘿。通過“例子”抓住特征,一旦抓住我們就能把它和別的東西區(qū)分開。2016年初《科學(xué)》雜志報道了麻省理工學(xué)院的一種小樣本學(xué)習(xí)方法⑤,叫“概率程序計算結(jié)構(gòu)”,其實就是基于案例的貝葉斯程序方法(BPL)。用這個方法生成相似的字符,還通過了圖靈測試,也就是分不出人類與計算機的差別。這就給了我們新的啟示,用小樣本也可以來做作戰(zhàn)態(tài)勢理解,過去在分析過程中就常用貝葉斯方法。
具體對抗類應(yīng)用方面的進展?,F(xiàn)在深度學(xué)習(xí)方法已經(jīng)被DeepMind公司用到了很多地方,比如說用于打德州撲克,這是一種“不完全動態(tài)信息”博弈問題。對抗各方的牌面不完全公開,這就要求對抗各方要在“戰(zhàn)爭迷霧”中進行決策和對抗,讓計算機去理解它就更為復(fù)雜。他們怎么做的呢?也是用“增強學(xué)習(xí)方法+虛擬自我博弈”的方式,通過自己跟自己打來學(xué)習(xí),打久了也就知道怎么打了。目前它打德州撲克已經(jīng)達到了人類專家的水平,也就是和高手去比勝多負少。
DeepMind下一步還準(zhǔn)備攻克“星際爭霸II”。這是一種2010年出品的即時戰(zhàn)略游戲,可以多人對戰(zhàn),在特定的地圖上采集資源,生產(chǎn)兵力,并摧毀對手的所有建筑而取得勝利??梢哉J為它就是一種真實戰(zhàn)場的簡化:不確定條件、不完全信息、多兵種行動、策略間對抗。如果成功,它就將進一步接近對戰(zhàn)爭對抗的認知,而且還很容易遷移到真實的作戰(zhàn)態(tài)勢認知方面,所以我們絕對不能忽視!
指揮信息系統(tǒng)的智能化趨勢
如何把這些方法用于改進指揮信息系統(tǒng)呢?DARPA原以為“深藍”可以自然變?yōu)?ldquo;深綠”,但實際上,“深藍”方法并不是真正的智能,與作戰(zhàn)指揮的本質(zhì)規(guī)律也不太符合,“暴力搜索”方法也不適應(yīng)決策的非線性空間求解,即使是在智能接口實現(xiàn)方面也不太理想。
但AlphaGo的深度學(xué)習(xí)方法更有參考價值,因為它已經(jīng)有了通用化特點,具備了產(chǎn)生突破的可能性,技術(shù)途徑更符合人類智能行為,而且易與指揮活動對接起來。如果把AlphaGo的方法用于“深綠”,可以有很好的對應(yīng)關(guān)系:對于指揮官助手,可以采用深度學(xué)習(xí)方法解決語音理解、草圖輸入等問題;閃電戰(zhàn)部分有點類似AlphaGo的走子網(wǎng)絡(luò)SL+RL+Rollout的結(jié)合;和水晶球部分類似的則是AlphaGo的蒙特卡洛樹搜索MCTS。把它們結(jié)合起來,就可以比過去“深藍”的方法要好得多。所以說,如果“深綠”引入AlphaGo的技術(shù),將會很快取得更大進展,這一點我們可以拭目以待。
最近又爆出一個消息,辛辛那提大學(xué)開發(fā)的“阿爾法AI”機器飛行員,在2016年6月,戰(zhàn)勝了著名的空軍戰(zhàn)術(shù)教官基納·李上校,而且無一敗績。據(jù)說這個上校雖然已經(jīng)退役,但在空戰(zhàn)方面是專家。與機器飛行員的“人機”對抗是通過空戰(zhàn)模擬器進行的,單機對單機,過程比較簡單,屬于“動作及簡單戰(zhàn)術(shù)行為”的智能。它采用的是稱為“遺傳模糊邏輯”的智能技術(shù),空中格斗快速協(xié)調(diào)戰(zhàn)術(shù)計劃的速度比人快250倍。而且所用硬件僅價值500美元,比AlphaGo便宜太多了。據(jù)說在未來這個機器飛行員可充當(dāng)智能對手進行作戰(zhàn)訓(xùn)練,也可以成為智能僚機,幫助人去打仗,或者是用于自主化的無人機。它的出現(xiàn)使人們可以肯定一點,即人工智能將會很快走入實戰(zhàn)領(lǐng)域。這是一件比較可怕的事情,設(shè)想計算機打敗了一個著名資深戰(zhàn)術(shù)教官上校,那它來跟人打仗,至少在速度上已經(jīng)占據(jù)了優(yōu)勢,如果還捕捉了專家的經(jīng)驗,斗爭的結(jié)果將不言而喻。
目前機器智能研究已成熱點。孫正義認為,機器智能就是未來的“智能核彈”。他說,普通人的IQ為100,愛因斯坦為190,達芬奇是人類史上IQ最高的人為200,如果機器達到了10000,那將會是一種什么效果?那時,是不是機器看人類都像是傻子?世界上許多大型IT公司對“深度學(xué)習(xí)”研究也都做了大量的布局,谷歌在2012年只有不到100這個方面的項目,而到了2015年,就超過了2700個。如果其中有十分之一甚至百分之一獲得成功,他也將會大獲成功。AlphaGo已經(jīng)證明了這一點,臉譜、百度、騰訊、阿里巴巴等公司也是一樣。
美國DARPA現(xiàn)在非常重視人工智能的研究,它的第三次抵消戰(zhàn)略實際上就是圍繞人工智能和無人機這個重點來做的。他們認為,智能技術(shù)是改變戰(zhàn)爭規(guī)則的東西,但重點在人、機智能的結(jié)合方面,所以它叫“半人馬”⑥。所以說,即使從這一點看,解決指揮信息系統(tǒng)中的智能瓶頸問題也是刻不容緩的。
目前指揮信息系統(tǒng)智能化方面的趨勢主要有以下一些:
擬人化人機交流。未來在指揮信息系統(tǒng)中擬人化的人機交流方式會越來越普遍,指揮員與系統(tǒng)將通過草圖、口語或手勢進行交流,成為指揮信息系統(tǒng)人機接口的標(biāo)配,而且會普及到所有裝備和人員。
數(shù)據(jù)化快速決策。從數(shù)據(jù)到?jīng)Q策將使決策走向智能化、自動化。“深綠”只能為指揮員“輔助決策”,起作戰(zhàn)伴侶作用,但利用大數(shù)據(jù)及智能輔助可實現(xiàn)“從數(shù)據(jù)到?jīng)Q策”,也就是它可以直接決策,不需要人介入,因而作戰(zhàn)速度會大大加快。不僅行動要快,態(tài)勢理解要快,做出決定更要快!這就意味著認知速度將成為未來作戰(zhàn)勝負的決定性因素,也就是誰理解得快誰就可以打贏,誰理解得慢誰就挨打。
無人平臺的指控。未來需要特別關(guān)注自主化無人智能作戰(zhàn)平臺的指揮控制問題,這在過去根本沒有過,所以如何指揮控制成為問題。無人機與有人機的協(xié)同,尤其是自主無人機協(xié)同,將成為重點。蘭德公司去年出了一個報告,專門研究了無人機和有人機協(xié)同作戰(zhàn)問題,演化出的新戰(zhàn)法完全不同于現(xiàn)在。如果我們還是沿用傳統(tǒng)思維,哪怕是信息化了的傳統(tǒng)思維,恐怕連敵機的面都沒有見到,就與世界拜拜了。這種方式在未來可能成為主要的作戰(zhàn)方式。所以,美國人說了一句話:“散開來的智能武器更令人恐懼”⑦。明明知道它沒有人,但散開來之后極其嚇人,因為你根本不知道它會如何對付你?,F(xiàn)在已經(jīng)出現(xiàn)恐怖分子向美國無人機投降的情形,很值得玩味。
作戰(zhàn)云開始出現(xiàn)。這個概念是前美國空軍第一副參謀長戴維·A·德普圖拉中將提出來的⑧,他也是美國軍事變革的代表性人物。他的意思就是要采用信息時代技術(shù)的情報、監(jiān)視與偵察、打擊、機動和維持的復(fù)合體,以使高度互聯(lián)的分布式作戰(zhàn)行動可行。這類似于云計算和云服務(wù)的概念,通過所有可能得到的數(shù)據(jù),整合各個作戰(zhàn)力量,從而達到增強作戰(zhàn)效能且獲得規(guī)模效益。它特別適于智能化無人平臺、特戰(zhàn)部隊等新型作戰(zhàn)力量的運用。
所有這些都特別需要智能技術(shù)的進步。指揮信息系統(tǒng)未來發(fā)展的關(guān)鍵在于:第一,要充分利用智能技術(shù)進步成果,如深度學(xué)習(xí)等,促進指揮控制技術(shù)和信息系統(tǒng)的升級換代;第二,對不同類型應(yīng)用應(yīng)結(jié)合不同智能技術(shù)和方法,比如人機接口、輔助決策、模擬推演等,都會有不同的側(cè)重點;第三,發(fā)揮人機結(jié)合的優(yōu)勢,未來是“人機智能”的時代,而不是機器取代人。人、機在智能上如何分工如何合作,這才是關(guān)鍵之所在。
“深綠”的發(fā)展及AlphaGo的突破給了我們很多啟示。我們不能急功近利,但也不能坐以待斃,特別注意搞好基礎(chǔ)性研究。有人說,我們過去是“機械化沒趕上,信息化拼命追,智能化不能再落后”。筆者認為,機械化通過裝備更新比較容易趕上,信息化需要時間積淀和規(guī)模效應(yīng),但也可以逐步追上,但智能化就不太一樣,它們之間是有本質(zhì)區(qū)別的,一旦趕不上可能就會永遠趕不上,因為戰(zhàn)爭可能不會給你追趕的時間了,戰(zhàn)爭智能技術(shù)會快速地擴大強者和追趕者之間的鴻溝,放大兩者之間的能力差距,從而導(dǎo)致狂妄的戰(zhàn)爭冒險,讓你追無可追。
注釋
①Kerr,Bob, "DARPA demos Deep Green," Fort Leavenworth Lamp, 7 April 2011. Surdu, John R.,"Deep Green," Defense Advanced Research Projects Agency (8 May 2008). Banks, Stephen, J., "Lifting Off of the Digital Plateau With Military Decision Support Systems, " United States Army Command and General Staff College, 2013.
②Surdu, John R., "The Deep Green Concept," Huntsville Simulation Conference 2007. Huntsville, 2007. Surdu, John R.,"The Deep Green Concept," Spring Simulation Multiconference 2008 (SpringSim'08), Military Modelling and Simulation Symposium (MMS). Ottawa, 2008.
④Geoge A Miller, "The magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information," The Psychological Review, 1956, 63: 81-97.
⑤Yann LeCun, Yoshua Benjio, Geoffrey Hinton, "Deep Learning," Nature, 2015, 521:436-444.
⑥Brenden M. Lake, Ruslan Salakhutdinov, Joshua B.Tenenbaum, Human-level Concept Learning Through Probabilistic Program Induction, Science. 2015, 350:1332-1338.
⑦http://www.cetin.net.cn/gcw/index.php?m=content&c=index&a=show&catid=9&id=17945.
⑧王濤:《美軍打造無人機系統(tǒng)訓(xùn)練戰(zhàn)略》,《現(xiàn)代軍事》,2015年第7期,第99頁。
⑨Lt Gen David A.Deptula, "A New Era for Command and Control of Aerospace Operations" Air & Space Power Journal, July–August 2014.
責(zé) 編/凌肖漢
胡曉峰,國防大學(xué)信息作戰(zhàn)與指揮訓(xùn)練教研部教授,少將軍銜,兵棋工程總師、博導(dǎo),中國系統(tǒng)仿真學(xué)會副理事長。研究方向為智能化戰(zhàn)爭模擬、軍事系統(tǒng)工程。主要著作有《戰(zhàn)爭模擬引論》、《戰(zhàn)爭復(fù)雜系統(tǒng)建模與仿真》、《戰(zhàn)爭復(fù)雜系統(tǒng)仿真分析與實驗》、《戰(zhàn)爭工程論》等。
Machine Intelligence in Military Command Information System: Current Situation and Trend
Hu Xiaofeng
Abstract: The military command information system has made outstanding achievements, but it also faces great challenges, the biggest one comes from intelligent technology. How to understand the role and function of intelligent technology in the future war and help to make a breakthrough in the research on the key intelligent technology are the problems that must be faced in the construction of the Chinese command information system. Taking the development process of the American "Deep Green" project as an example, this article analyses the intelligence-related problems existing in the development of the current command information system, and by referring to intelligent technology breakthroughs like AlphaGo, explores the development direction of the command information system as well as the way to make it intelligent.
Keywords: command information system, artificial intelligence, depth learning, situation understanding