OpenAI Universe. Открытая платформа для тренировки сильного ИИ

⚑ 05 Дек 2016г. Категория: Без рубрики | ❤ 384 | Отзывы: 0

Набор задач для обучения с подкреплением сильного ИИ в рамках универсальной платформы OpenAI

Основанная Илоном Маском и соратниками некоммерческая организация OpenAI, которая ставит целью создание безопасного (то есть общедоступного и открытого) искусственного интеллекта, сделала очередной шаг для осуществления своих планов. OpenAI представила ^[1] связующее программное обеспечение Universe ^[2] для тренировки и обучения сильного ИИ. Теоретически, обучение может происходить на всей информации человечества, доступной через интернет. Это игры, веб-сайты и прочие приложения.

Всего девять строчек кода — и вашему ИИ доступны тысячи окружений для тренировки.

С помощью программной платформы Universe интеллектуальный агент будет использовать компьютер в точности так же, как это делает человек: он будет смотреть на пиксели компьютерного экрана и взаимодействовать при помощи клавиатуры и мыши (пока виртуальных).

Искусственный интеллект познает мир через интерфейс программы VNC для удалённого доступа к рабочему столу

Предполагается тренировать интеллектуального агента на полном наборе задач. Платформа Universe открывает для ИИ любые задания, которые человек способен решать за компьютером.

Открытие всеобщей универсальной платформы — продолжение планомерных действий OpenAI по созданию всемирного открытого универсального ИИ. В апреле текущего года организация выпустила публичную бета-версию инструментария OpenAI Gym для разработки и сравнения алгоритмов обучения с подкреплением. «Спортзал» OpenAI Gym состоит из большого количества окружений (от симулятора гуманоидного робота до игр Atari). Есть сайт для сравнения и воспроизведения результатов.

OpenAI Gym совместим с алгоритмами, написанными в любом фреймворке, в том числе Tensorflow ^[9] и Theano ^[10]. Изначально окружения создаются на Питоне, но в будущем разработчики планируют сделать возможность реализовать их на любом языке программирования.

OpenAI считает, что обучение с подкреплением — важный способ машинного обучения, который позволит в значительной степени усовершенствовать ИИ. В процессе обучения таким методом испытуемая система (агент) обучается, взаимодействуя с некоторой средой. В отличие от традиционного обучения с учителем, откликом на принятые решения ИИ являются сигналы подкрепления, при этом некоторые правила подкрепления формируются динамически и труднодоступны пониманию человека, то есть базируются на одновременной активности формальных нейронов.

Сигнал подкрепления распознаётся модулем оптического распознавания текста на скорости 60 fps: видео ^[11]

Представленная сегодня Universe — это связующее программное обеспечение, которое полностью поддерживает среду набор инструментов и среду выполнения окружений OpenAI Gym. Благодаря этому связующему ПО планируется кардинально увеличить количество окружений для тренировки ИИ.

Если раньше крупнейший каталог приложений для обучения с подкреплением включал в себя только 55 игр Atari (Atari Learning Environment), то на платформе Universe ожидается появление игр от многих других разработчиков, в том числе Valve, EA и Microsoft.

С самого начала через «миддлварь» Universe доступны тысячи игр (флэш-игры, многопользовательские змейки Slither ^[12], Starcraft, GTA V ми другие), разнообразные браузерные задачи (вроде заполнения форм) и приложения (такие как головоломки fold.it ^[13]). Практически любую игру можно свободно запустить с помощью питоновской библиотеки universe ^[14], которая опубликована в открытом доступе на Github.

import gym
import universe # register Universe environments into Gym

env = gym.make('flashgames.DuskDrive-v0') # any Universe environment ID here
observation_n = env.reset()

while True:
  # agent which presses the Up arrow 60 times per second
  action_n = [[('KeyEvent', 'ArrowUp', True)] for _ in observation_n]
  observation_n, reward_n, done_n, info = env.step(action_n)
  env.render()

Вышеприведённый код запускает агента искусственного интеллекта играть в игру Dusk Drive.

Игра Dusk Drive

«Наша конечная цель ^[16] состоит в разработке единого интеллектуального ангета, который способен гибко применять опыт, накопленный в Universe, для решения новых задач и быстрого получения нового опыта, что станет важным шагом на пути к сильному ИИ», — сказано в заявлении OpenAI.

Программные окружения Universe устанавливаются в контейнерах Docker. Как уже было сказано, они общаются с интеллектуальным агентом посредством визуального интерфейса — через «экран», «клавиатуру» и «мышь», как с человеком. Интерфейс реализован с помощью программы VNC для удалённого доступа к рабочему столу.

По идее, постоянное повышение мастерства ИИ с накоплением опыта в различных мелких задачах поможет ему всё быстрее осваивать каждую новую задачу, применяя уже имеющиеся знания. Платформа и набор окружений Universe может стать для интеллектуальных агентов такой же стандартной единой площадкой для тренировки и обучения с подкреплением, какой является набор данных ImageNet ^[17] — база изображений для обучения классификаторов нейросетей при обучении с учителем.

Обучение с подкреплением действительно может быть весьма эффективным. Например, интеллектуальный агент Universe примерно шесть суток тренировался играть в многопользовательскую веб-игру Slither. После шести дней ИИ набирает в игровых сессиях в среднем 1000 очков с максимальным результатом 1400 очков. Для сравнения, сотрудник из организации OpenAI с пятичасовым опытом игры набирает в среднем 1400 очков с максимальным результатом 7050.

В данный момент агентам через связующее программное обеспечение Universe доступны следующие игры и приложения от партнёров OpenAI: Portal ^[18], Fable Anniversary ^[19], World of Goo ^[20], RimWorld ^[21], Slime Rancher ^[22], Shovel Knight ^[23], SpaceChem ^[24], Wing Commander III ^[25], Command & Conquer: Red Alert 2 ^[26], Syndicate ^[27], Magic Carpet ^[28], Mirror’s Edge ^[29], Sid Meier’s Alpha Centauri ^[30] и Wolfram Mathematica ^[31]. Список будет увеличиваться.