Ещё недавно компьютеры были мощны, но тупы. В шахматы, например, их учили играть, выдавая подробнейшие инструкции на каждый возможный случай. Вначале загружали большой справочник дебютов, чтобы компьютер залезал в него и находил там лучший ход. Потом заставляли машину бездумно перебирать ходы, выбирая тот, который приводит в итоге к лучшей позиции.
В общем, компьютер не думал — он выполнял заложенные программистами инструкции. Это были довольно сложные инструкции, разумеется, но всё же они были изначально жёстко заданы людьми. По этой причине ещё несколько лет назад я предполагал, что обыграть человека в го компьютер не сможет никогда — вариантов там больше, чем в шахматах, и механическим перебором в го ничего не добиться.
В 2016 году однако программа AlphaGo выиграла со счётом 4:1 у Ли Седоля, профессионала 9 дана, которого можно грубо сравнить с Гарри Каспаровым в шахматах. Создатели AlphaGo не вшивали в программу жёсткие инструкции, а обучали её на партиях профессионалов. Программе скормили большое количество записанных партий, и нейросети робота на них поняли, какие ходы лучше, а какие хуже.
Представьте себе умного человека, изучившего кучу материалов по го. Когда он играет, он не перебирает механически все возможные ходы один за другим — он напрягает мозг, и мозг подсказывает ему, куда стоит поставить камень. Игрок навряд ли сможет вспомнить, что похожую позицию он видел в партии Фань Хуэя с Чэнь Яое: у игрока просто появится смутное ощущение, что камень нужно поставить именно вот сюда.
Примерно так работала AlphaGo в прошлом году. Сейчас программа сделала ещё один шаг вперёд. Программисты научили программу правилам игры и… посадили играть саму с собой. Через месяц самообучения программа превзошла ту свою версию, которая одолела в прошлом году Ли Седоля, причём выиграла у неё со счётом 100:0.
Это уже нечеловеческий уровень игры. Ходят слухи, что новая версия программы может дать чемпионам невероятную фору в 4 камня, что можно сравнить с игрой против чемпиона мира по шахматам без ладьи.
Вообразите себе умного ребёнка, которого посадили играть в го со своим братом. Детей не учат правильно играть, они просто играют с утра до вечера друг с другом, и становятся постепенно всё сильнее и сильнее. Через несколько миллионов сыгранных партий они становятся невероятно опытными и сильными игроками.
Именно так обучалась новая версия программы, AlphaGo Zero. Сильнее же лучших игроков она стала по очень простой причине: для того, чтобы сыграть миллион партий, человеку нужно играть на протяжении примерно 100 лет, отвлекаясь только на сон и на еду. Для того, чтобы сыграть 10 миллионов партий, человеческой жизни уже не хватит даже теоретически. Программа же может сыграть сама с собой 10 миллионов партий за месяц-другой.
Профессионалы отмечают, что новая версия программы стала играть гораздо более человечнее. Они даже начали учиться у программы, пытаясь скопировать её стиль игры и некоторые её ходы. Перед нами программа, которая выигрывает не грубой силой, а умением, мозгами.
Обратите внимание, между первым выигрышем у чемпиона и появлением программы, которая играет принципиально лучше человека, прошло всего лишь полтора года. Мы вступаем в эру умных компьютеров, которые уже скоро обучатся всем простым человеческим навыкам, оставив тем самым без работы водителей, переводчиков, секретарей, менеджеров по закупкам и огромное количество других строящих сейчас длинные карьерные планы профессионалов.
Кстати, одним из следствий появления таких алгоритмов станет появление по-настоящему хороших разговорных ботов. Будет очень интересно наблюдать за прогрессом Алисы от «Яндекса». Если разработчики справятся с обучением нейросетей, уже через несколько месяцев с Алисой можно будет общаться как с живым человеком, не раздражаясь после каждого ответа от её непроходимой непонятливости.
Источник: https://fritzmorgen.livejournal.com/1144738.html