Ученые описали принцип работы системы искус­ственного интел­лекта, выигравшей у профес­си­о­налов 1,7 млн долларов в покер

Ученые описали принцип работы системы искусственного интеллекта, выигравшей у профессионалов 1,7 млн долларов в покер | CityTraffic

В январе 2017 года система искус­ственного интел­лекта Libratus победила в турнире по техас­скому холдему.

Во время турнира, который длился 20 дней, алгоритм заработал более 1,7 миллиона долларов в фишках. В новой статье, опубли­ко­ванной в журнале Science Ноэм Браун (Noam Brown) и Туомас Сандхолм (Tuomas Sandholm), разра­ботчики Libratus, описали, как работает алгоритм, сообщает nplus1.

Libratus состоит из трех основных частей. Для первых кругов покера исполь­зуется модуль, который рассмат­ривает игру как абстракцию. Вместо того, чтобы учитывать все точки принятия решений, число которых достигает 10161, он упрощает игру. Так, Libratus округляет ставки и не делает различий между похожими карточными комби­на­циями, например флэшем с королем во главе и флэшем, где старшая карта — дама. После создания абстракции, компьютер разра­ба­тывает плановую стратегию поведения для первых кругов, а также очень прибли­зи­тельную стратегию для следующих этапов.

Чтобы научиться делать это, Libratus играл против самого себя, используя измененную версию алгоритма Monte Carlo Counter-factual Regret Minimization (MCCFR). С его помощью для каждого действия вычис­лялось значение сожаления — то, насколько игрок сожалеет о том, что он не сделал опреде­ленный шаг в прошлом. В класси­ческом варианте компьютер обычно исследует все гипоте­ти­ческие действия, чтобы выяснить размер награды за них; здесь же он пропускал “неинте­ресные” ходы, которые имели низкое значение сожаления, что позволило быстрее усовер­шен­ствовать его работу.

Для следующих этапов игры исполь­зо­вался второй модуль Libratus. Он создавал детальную стратегию для конкретного этапа игры, руковод­ствуясь при этом плановой стратегией, разра­бо­танной в начале. Каждый раз, когда противник совершал не преду­смот­ренное системой ИИ действие, она разыг­рывала “мини-игру”, где учиты­вался ход соперника. Это позволяло коррек­ти­ровать стратегию в режиме реального времени.

Третья часть Libratus улучшала исходную стратегию алгоритма. Обычно для этого строится модель поведения противника, которая учитывает его возможные ошибки. Однако в этом случае компьютер следил, какие ставки чаще всего делают другие игроки, а ночью вычислял возможные варианты развития событий с учетом этих данных.

Авторы статьи считают, что у систем, подобных Libratus, большое будущее в самых разных сферах, где прихо­дится иметь дело с неполной инфор­мацией. Они могут быть исполь­зованы в сфере инфор­ма­ци­онной безопас­ности, в военном деле, аукционах, перего­ворах и даже при распре­де­лении медика­ментов.
 

Поделиться:

Следующая Новость

В борьбу за бюджет Тольятти включилась прокуратура Самарской области

Ср Дек 20 , 2017
Надзорное ведомство поручило провести проверку соблю­дения законо­да­тельства руковод­ством города и пришло к выводу, что решение об отмене аукциона, который мог бы принести муници­па­литету 20 млн рублей, принято в отсут­ствие оснований для этого. Как сообщал ранее “СитиТрафик”, впервые в истории Тольятти торги, в результате которых город мог получить 20 млн рублей, были сорваны самими членами комиссии по […]
В борьбу за бюджет Тольятти включилась прокуратура Самарской области | CityTraffic

Рубрики