Главная страница » Конкурсные работы участников » Педагогические науки » Статья “Применение метода Q-обучения для логических игр”

Статья “Применение метода Q-обучения для логических игр”

Автор (ы)

Тимошкин Максим Олегович

Аффилиация

Пензенский государственный университет,

Научный руководитель

Романова Елена Геннадьевна

Аннотация

Машинное обучение — активно развивающаяся наука, которая изучает методы поиска скрытых зависимостей в массивах данных. Эти методы всё активнее используются как в различных областях науки, так и во многих индустриальных областях. Для построения таких методов используются средства математической статистики, численных методов, математического анализа, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме [1].

Существует три подхода к машинному обучению: статическое обучение (static learning), динамическое обучение (dynamic learning) и обучение с подкреплением (reinforcement learning).

Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. Существует множество алгоритмов обучения с подкреплением. Один из них – табличное Q-обучение. Актуальность выбора именно алгоритма табличного Q-обучения заключается в том, что он используется в огромном количестве других более сложных алгоритмах, и для их успешного понимания необходимо его полное представление.

Целью данной работы является применение метода Q-обучения для логических игр, а в качестве задач исследования можно выделить оценку влияния различных управляющих параметров на быстроту сходимости алгоритма.

Результаты:

  1. В данной работе был использован подход обучения с подкреплением, рассмотрено уравнение Беллмана, даны точные определения понятиям Q-функции и Q-таблицы. Был выбран язык python для программирования и были изучены необходимые библиотеки для разработки: numpy, gym, pandas, matplotlib, с использованием которых были реализованы алгоритмы минимаксной стратегии и табличного Q-обучения. При написании кода на языке python использовалось руководство PEP8, а в качестве сервиса для экспериментальных исследований был выбран Google Colaboratory.
  2. В экспериментальной части было изучено и описано влияние различных управляющих параметров на скорость и качество сходимости табличного Q-обучения, найдены некоторые оптимальные и нежелательные параметры. Для оценки качества обучения между различными алгоритмами проигрывалось множество эпизодов.
  3. Для наглядной визуализации процесса Q-обучения был также построен график зависимости процента побед и поражений от числа эпизодов обучения.

Содержание работы

Автор предпочел не показывать работу на сайте

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Конкурс, в котором автор работы принял участие:

Международный конкурс лучших практик образования “PROобучение 2022”

Отрасль наук

Форма представления работы

Дата публикации работы: 04.02.2022

Смотреть похожие работы

Статья “Развития функциональной готовности к школе детей 6-7 лет с задержкой психического развития”

Саранова Елизавета Сергеевна
Пермский гуманитарно-педагогический университет
Актуальность исследования: в современном мире родители пытаются как можно раньше отправить детей учиться, не подозревая или не зная, что ребенок еще функционально не готов к школе. Данное исследование поможет выяснить,...

Статья “Система обучения наставников для воспитанников организаций для детей-сирот и детей, оставшихся без попечения родителей”

Некрасов Павел Борисович
ФБГОУ ВО Росийский государственный педагогический университет имени А.И. Герцена, г. Санкт-Петербург
Актуальность сопровождения воспитанников и выпускников организаций для детей-сирот обусловлена наличием ряда социальных, бытовых и иных проблем, возникающих у них в процессе самостоятельного проживания, для решения проблем можно прибегать к средствам...