Программа «сидела» с игроками за одним столом и более чем за десять тысяч раздач обыграла всех лучших игроков в техасский холдем.
Среди лучших были 5 разных чемпионов по покеру. Каждый из них в прошлом выиграл более миллиона долларов.
Это достижение искусственного интеллекта стало возможным благодаря программе Pluribus, а точнее, ее создателям. Именно они в 2017 году разработали ее предшественницу — Libratus, которая обыграла четырех профессиональных игроков в покер и выиграла 2 млн долларов.
Усовершенствованная версия «села» за стол с пятью чемпионами по техасскому холдему и обыграла их.
Разработчики из Университета Карнеги-Меллона в Питтсбурге (США) считают, что приемы, которые применяла программа, могут в дальнейшем повлиять на игру профессионалов по покеру.
Речь идет об «абстрактном действии» и «абстрактной информации» — при помощи этих инноваций ИИ смог отбросить лишние варианты дальнейших ходов и оставить лишь те, которые потребуются для принятия решения.
Программа (конечно же, самообучаемая) также использовала систему «минимизации сожалений», то есть максимально сокращала разницу между уже принятым решением и оптимальной стратегией, тренируясь с 5 своими копиями. Поначалу ее игра шла наугад, но затем благодаря способности к самообучению ИИ научился анализировать ходы и понял, какие действия и с какой вероятностью ведут к победе в игре.
Эксперимент продолжался 12 дней. Во время него один ИИ играл против 5 чемпионов, либо один чемпион — против 5 программ.
Более чем за десять тысяч раздач Pluribus обыграла всех, заработав полмиллиона долларов.
Главным плюсом программы один из обыгранных ею рекордсемнов по покеру Даррен Элиас назвал способность совмещать разные стратегии.
— Это то, к чему идут профессиональные игроки в покер. Мало у кого получается менять тактику случайным образом и оставаться в плюсе. Почти все люди не справляются с такой задачей, — цитирует чемпиона naked-science.