人民網
人民網

AI組團打游戲擊敗人類 難道真有了“人的意識”?

2018年07月19日09:14 | 來源:揚子晚報
小字號

兩年前谷歌旗下人工智能部門DeepMind開發的人工智能擊敗了世界圍棋冠軍而一舉成名。現在,DeepMind的另一個項目已經學會了如何玩多人游戲《雷神之錘》。而就在上月底,由馬斯克聯合創立的人工智能非營利研究機構OpenAI宣布,其開發的AI(人工智能)組隊在5對5對戰中戰勝了游戲Dota2的頂尖業余玩家。這被認為是繼阿爾法狗大戰柯潔之后的又一裡程碑事件。

組隊贏了Dota 2

6月25日,著名非營利機構OpenAI宣布:其研究的OpenAI Five能像人類一樣“組隊”,首次在5對5對戰中戰勝Dota 2人類玩家,平均天梯分數超4200分(超過近90%玩家)。比爾·蓋茨評價說:“這是一個了不起的成就,因為它們的勝利需要團隊合作和協作,這是人工智能前進道路上的一大裡程碑。”

會玩《雷神之錘》

7月3日,DeepMind表示開發了創新和強化學習技術,使AI系統能在《雷神之錘III競技場》的游戲中達到人類的游戲水平。研究者們舉行了競賽,參賽隊伍有3種形式:人類玩家組隊、機器人組隊、機器人和人類玩家組隊。最終全員為機器人的小隊勝率達到74%(老手玩家勝率約為52%,普通玩家為43%)。

怎麼贏的?AI一日,人間180年

學得迅速

設計者讓OpenAI Five通過自我對抗的方式從隨機權重開始學習,隨著訓練的進行,英雄從漫無目的地閑逛到出現戰斗的“意識”。幾天之后,AI的策略就非常接近人類了。據報道,AI的訓練量級非常大,每天都能完成人類玩家180年的練習量。

算得飛快

OpenAI Five使用在256個GPU和128000個CPU內核上運行的擴展版近端策略優化進行訓練。OpenAI每4幀評估一次局勢,並產生2萬個決策,這樣的循環每場游戲平均會進行2萬次。OpenAI平均每分鐘可進行150-170次操作,平均反應時間為80毫秒。

獨特風格

在游戲玩法上,OpenAI Five還形成了一些“風格”和獨特策略,比如經常來犧牲自己的優勢路以壓制敵人的優勢路,迫使戰斗轉移到對手更難防御的一邊﹔AI英雄還會自我犧牲,把人類玩家引誘出高地,確保團隊其他成員能推塔成功。

團隊精神

OpenAI Five的英雄之間並沒有具體的通信渠道,它們通過被研究人員稱為“團隊精神”的超參數控制團隊合作。設計者表示:“我們能夠從比賽中感受到,AI算法間的協作意圖似乎是一種非常自然的本能表現。當用一位人類玩家替換掉5位AI玩家中的一位,人類玩家也表示能夠體會到AI隊友對他的支援。”

為什麼要讓AI打游戲?

自從AI征服了圍棋之后,就有人工智能公司表示,要讓人工智能在即時戰略游戲中戰勝頂級人類玩家。在棋類游戲中形勢的變化是很容易被量化的,即使是復雜的圍棋也只是在19×19的棋盤中進行的。像《星際爭霸》這樣的即時戰略游戲,每個單位可能佔據的位置遠比這個數字多得多。相比較而言,棋類游戲更加清晰和有跳躍性,而即時戰略游戲更加混亂並有連續性,顯然后者更接近於真實的世界。如果將游戲之中多個AI之間的合作延伸到AI技術商業化應用場景,這類多種AI算法將可以應用於在線交易、廣告競價排名、生產線上多樣化制造等場景。此外,具有團隊合作的AI與人類也可進行合作。 宗合

AI是怎麼學會“團結協作”的?

和AI的對陣,人類又敗下陣來。這一次,AI不僅在智商上贏過了人類,而且還有了團結協作的能力。這個巨大進步讓人不寒而栗:AI難道有了“人的意識”?被AI全面取代的日子,真的又近了一步?

AI們學會的“協作”,其實是“強化學習”算法

記者就這一問題採訪了南京航空航天大學人工智能學院陳鬆燦教授。陳鬆燦認為,這一比賽結果的確說明AI玩游戲的“水准”又提高了,但我們也沒必要過分恐慌,因為AI的“協作”能力從本質上說依然是“算法”在支撐,因此,“人的意識”說顯然是不存在的。

DOTA游戲裡,AI是怎麼實現“協作”的?陳鬆燦介紹,這其中起主要作用的是一種名為“強化學習”的算法。“玩游戲的人都有這樣的經歷,一個人玩時,想的是‘怎麼讓自己贏’,而幾個好朋友組成‘戰隊’團隊玩游戲時,肯定會想著‘協作’,讓團隊獲得游戲的勝利。AI的世界裡,也有這樣的‘獲勝’規則。”陳鬆燦說,AI之間的“協作”,是一種強化學習算法,它可以達到“策略最優”的目的。單人游戲的時候,AI隻要關心策略實施后自己獲得的獎賞。多人協作游戲中,每個AI需要關心策略實施后自己獲得的獎賞,以及整個團隊獲得的獎賞。“如果某個操作會給自己帶來很大的獎賞,但是會導致團隊損失,那麼這個操作會被盡量避免。”

AI這麼高的“智商”是哪兒來的?

很多人好奇,AI為什麼能這麼聰明?陳鬆燦教授解釋,人工智能有很強的學習能力,“有了高性能計算設備和大量的數據資源,我們設計的先進算法就能從數據中學習出有用的知識。機器相對於人類來說,可以不知疲倦地24個小時自我學習,自我博弈,遠遠高於人類自我學習的時間。”

其實,AI的勤勉也是人類賦予的,陳鬆燦介紹,類似“協作”,“聰明”也是人類為AI設計的一種算法,“研究人員通過歷史數據、設計算法等方式教給它們知識,可以這麼說,人工智能中人才是幕后英雄。”

因此,陳鬆燦否認了“人工智能取代人”的說法,“比起取代,我更認為人和人工智能相互協作是趨勢。為什麼人與人能相互協作,人與機器就不行呢?”

這些“通了電的腦袋”有了新的協作小伙伴

別小瞧“協作”,AI實現的每一項新技能,其實背后都是人類大量的人力和技術投入。在我們身邊,專業的人工智能學院也逐漸興起。陳鬆燦教授介紹,江蘇眾多高校,如南京大學、南京航空航天大學都設立了人工智能學院及相關專業方向。“計算機視覺、機器學習、自然語言處理,這些人工智能范疇的技術扮演著越來越重要的角色,因此人工智能專業人才的需求越來越大。”

在南航人工智能研究院,科研人員正在努力將人工智能技術應用到無人機中,“通了電的腦袋”有了新的“協作”小伙伴。陳鬆燦透露,無人機研究原本就是南航的特色,南航人工智能研究院目前正在進行的這項研究,意在讓人工智能加持下的無人機“視力”更加出眾,能夠在飛行中更加靈活地躲過障礙,更好地執行任務。 實習生 馬騰躍

(楊甜子)

(責編:覃博雅、董菁)

分享讓更多人看到

返回頂部