> > > > Искусственный интеллект DeepMind научился играть в захват флага

Искусственный интеллект DeepMind научился играть в захват флага

Опубликовано:

deepmindДочерняя компания Google под названием DeepMind стремится укоренить машинное обучение (ML) во многих сферах. Уже в течение некоторого вермени проводится работа по обучению ML-сетей тактике в играх. Данные алгоритмы являются следующим шагом после победы над сильнейшими игроками в шахматы и настольную игру го.

Для стратегий Starcraft II и Dota 2 такие алгоритмы существуют уже давно, и теперь пришло время шутеров. Однако речь не о том, чтобы начить нейронную сеть стрелять точнее или реагировать на события быстрее человека - с этим программы успешно справляются уже довольно давно. Оснавная зада - научить ИИ тактическому мышлению, например, в играх с захватом флага. DeepMind представила успехи в игре Quake III Arena Capture the Flag и написала статью о том, как обучается и как функционирует соответствующая нейронная сеть.

Правила игры с захватом флага довольно просты: две команды борются между собой в попытке подобрать флаг противника и принести его на свою базу. Команды могут состоять из разного количества игроков, но главное - это то, что игроки должны действовать сообща. Команда должна не только защитить свой флаг, но и организовать грамотно выстроенную атаку. При этом тактика меняется в зависимости от карты, на которой происходит игра. Особенности карт заставляют изменять поведение ИИ.

 

DeepMind использовала во время тренировок следующие идеи:

  • Вместо тренировки отдельных интеллектов так называемые агенты тренировались вместе
  • Тем не менее, каждый агент получал собственные задания с собственной оценки успешности действий
  • Тренировка проходила исключительно на основании выводов ИИ. Ни одна деталь поведения не была запрограммирована.
  • Во второй части тренировки агенты обучались игре против человека. Кроме того, человек мог играть и на стороне ИИ.

После 150.000 матчей агент уже показывал результаты лучше, чем профессиональный геймер. Однако ученые искусственно добавили агентам неточности и задержки реакции, чтобы их хоть как-то можно было честно сравнить с людьми.

Во время тренировки с людьми исследователи выяснили, что агенты легко перенимают поведение людей - например, они научились защите своей базы, осаде базы противника, а также следованию за другими членами команды. Поведение ИИ менялось в зависимости от карты, поведения членов своей команды или действий противника.

Выведение популяции агентов For The Win (FTW) в Quake III Arena Capture the Flag является еще одним шагом к тому, что системы ML становятся не просто библиотекам различных действий. ИИ учится понимать правила игры, работать с другими интеллектами и анализировать действия оппонентов и союзников. Здесь мы видим фундаментальные различия между поведением ИИ в Starcraft II, Dota 2 или упомянутых настольных играх.