Статья “Применение метода Q-обучения для логических игр”
Автор (ы)
Аффилиация
Пензенский государственный университет,
Научный руководитель
Аннотация
Машинное обучение — активно развивающаяся наука, которая изучает методы поиска скрытых зависимостей в массивах данных. Эти методы всё активнее используются как в различных областях науки, так и во многих индустриальных областях. Для построения таких методов используются средства математической статистики, численных методов, математического анализа, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме [1].
Существует три подхода к машинному обучению: статическое обучение (static learning), динамическое обучение (dynamic learning) и обучение с подкреплением (reinforcement learning).
Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. Существует множество алгоритмов обучения с подкреплением. Один из них – табличное Q-обучение. Актуальность выбора именно алгоритма табличного Q-обучения заключается в том, что он используется в огромном количестве других более сложных алгоритмах, и для их успешного понимания необходимо его полное представление.
Целью данной работы является применение метода Q-обучения для логических игр, а в качестве задач исследования можно выделить оценку влияния различных управляющих параметров на быстроту сходимости алгоритма.
Результаты:
- В данной работе был использован подход обучения с подкреплением, рассмотрено уравнение Беллмана, даны точные определения понятиям Q-функции и Q-таблицы. Был выбран язык python для программирования и были изучены необходимые библиотеки для разработки: numpy, gym, pandas, matplotlib, с использованием которых были реализованы алгоритмы минимаксной стратегии и табличного Q-обучения. При написании кода на языке python использовалось руководство PEP8, а в качестве сервиса для экспериментальных исследований был выбран Google Colaboratory.
- В экспериментальной части было изучено и описано влияние различных управляющих параметров на скорость и качество сходимости табличного Q-обучения, найдены некоторые оптимальные и нежелательные параметры. Для оценки качества обучения между различными алгоритмами проигрывалось множество эпизодов.
- Для наглядной визуализации процесса Q-обучения был также построен график зависимости процента побед и поражений от числа эпизодов обучения.
Содержание работы
Автор предпочел не показывать работу на сайте
Конкурс, в котором автор работы принял участие:
I Международный конкурс лучших практик образования “PROобучение”, 2022
Отрасль наук
Форма представления работы
Дата публикации работы: 04.02.2022
Добавить комментарий