В картах нужно знать, когда разыгрывать руку, а когда сбрасывать. Что касается превосходства людей в покере, возможно, пора пасовать.
Исследователи Carnegie Mellon University выложили карты на стол, опубликовав статью в журнале Science. В работе ученые объяснили, как они научили программу Libratus AI побеждать профессиональных игроков в безлимитный холдем. Похоже, еще одна костяшка домино упала в серии экспериментов «человек против машины» - вначале это были шашки и шахматы, затем древняя игра в го.
Покер отличается от этих игр. Здесь участник не знает точно, какие карты имеются у его соперников. Поэтому появляется лазейка в виде блефа. Довольно долго бытовало мнение, что игра, основанная на неполной информации, будет очень сложной для машинного обучения. Профессор Туомас Сэндхольм (Tuomas Sandholm) и кандидат на доктора Ноам Браун (Noam Brown) показали, как это можно сделать.
Libratus победила в конце 20-дневного соревнования с четырьмя покерными профи, которое проводилось в Rivers Casino (Питтсбург). Программа победила каждого игрока один на один в Head’s-Up, No-Limit Texas Hold’em и собрала более чем 1.8 млн USD в фишках, сыграв 120 000 рук. Ученые сказали:
«Технология Libratus не использует экспертные знания или человеческие данные, и не заточена под покер. Программа применима для большого спектра игр с неполной информацией».
И не только для игр. Принятие решений на основе неполной информации – ключевой навык для бизнеса, финансов, кибер-безопасности и разработки военной стратегии с тактикой.
Как же исследователи добились успеха? С помощью трехступенчатого подхода. Вначале они разработали алгоритм, который упростил 1021 решений, применяемых в типичной покерной игре. Алгоритм выдал шаблон для игры, детализированный для первых раундов, но более общий для последующих.
Браун сказал:
«Интуитивно понятно, что нет большой разницы между флэшем с королем и флэшем с дамой. Если толковать эти две руки как идентичные, это снижает сложность игры и делает расчеты легче».
По мере продвижения партии к кульминации, включается второй модуль, совершенствующий шаблон. Он определяет стратегию в реальном времени. Если противник делает неожиданный шаг, то стратегия перерабатывается, чтобы учесть решение противника.
Третий модуль анализирует, как много ставит противник Libratus, и тем самым пытается обнаружить бреши в его стратегии. Таким образом, программа получает больше информации для выбора.
Libratus победила аналогичные программы, вроде Baby Tartanian8, и затем вчистую выиграла у Джейсона Леса (Jason Les), Дон Кима (Dong Kim), Daniel McCauley (Дэниэл МакКоули) и Джимми Чу (Jimmy Chou). Последний прокомментировал событие:
«Самое удивительное, что программа умеет приспособляться. Она постоянно учится и совершенствуется. Она испытывала нас, чтобы найти слабости. Вы должны радоваться каждому чипу, вырванному из рук Libratus».
Главный инженер Actian Алекс Хэншоу (Alex Hanshaw) пошутил в Твиттере:
«Не стоит бояться ядерной войны, организованной ИИ. Машины просто выиграют у нас все деньги в покер».
Однако, сам профессор Сэндхольм считает последствия более серьезными. По его мнению, драматические последствия повлечет то, что лучшие программы AI способны превзойти людей в стратегическом мышлении на основе неполной информации.