Главная страница » Конкурсные работы участников » Педагогические науки » Статья “Применение метода Q-обучения для логических игр”

Статья “Применение метода Q-обучения для логических игр”

Автор (ы)

Тимошкин Максим Олегович

Аффилиация

Пензенский государственный университет,

Научный руководитель

Романова Елена Геннадьевна

Аннотация

Машинное обучение — активно развивающаяся наука, которая изучает методы поиска скрытых зависимостей в массивах данных. Эти методы всё активнее используются как в различных областях науки, так и во многих индустриальных областях. Для построения таких методов используются средства математической статистики, численных методов, математического анализа, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме [1].

Существует три подхода к машинному обучению: статическое обучение (static learning), динамическое обучение (dynamic learning) и обучение с подкреплением (reinforcement learning).

Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. Существует множество алгоритмов обучения с подкреплением. Один из них – табличное Q-обучение. Актуальность выбора именно алгоритма табличного Q-обучения заключается в том, что он используется в огромном количестве других более сложных алгоритмах, и для их успешного понимания необходимо его полное представление.

Целью данной работы является применение метода Q-обучения для логических игр, а в качестве задач исследования можно выделить оценку влияния различных управляющих параметров на быстроту сходимости алгоритма.

Результаты:

  1. В данной работе был использован подход обучения с подкреплением, рассмотрено уравнение Беллмана, даны точные определения понятиям Q-функции и Q-таблицы. Был выбран язык python для программирования и были изучены необходимые библиотеки для разработки: numpy, gym, pandas, matplotlib, с использованием которых были реализованы алгоритмы минимаксной стратегии и табличного Q-обучения. При написании кода на языке python использовалось руководство PEP8, а в качестве сервиса для экспериментальных исследований был выбран Google Colaboratory.
  2. В экспериментальной части было изучено и описано влияние различных управляющих параметров на скорость и качество сходимости табличного Q-обучения, найдены некоторые оптимальные и нежелательные параметры. Для оценки качества обучения между различными алгоритмами проигрывалось множество эпизодов.
  3. Для наглядной визуализации процесса Q-обучения был также построен график зависимости процента побед и поражений от числа эпизодов обучения.

Содержание работы

Автор предпочел не показывать работу на сайте

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Конкурс, в котором автор работы принял участие:

I Международный конкурс лучших практик образования “PROобучение”, 2022

Отрасль наук

Форма представления работы

Дата публикации работы: 04.02.2022

Смотреть похожие работы

Статья “Лидерство: ключ к успеху”

Шаповалова Т.В.,Кошевая Е.Е.
ГБОУ ЛНР "Успенская средняя школа №2"
Статья знакомит со сложившимися в образовательной организации разнообразными формами работы по формированию и развитию лидерских качеств воспитанников в рамках экспериментальной деятельности "Педагогические условия формирования личностных качеств обучающихся в образовательном пространстве...

Статья “Новая методика развития познавательных и творческих навыков студентов”

Лёвина Валерия Максимовна
Воронежская государственная академия спорта
Прогресс не стоит на месте, вся наша жизнь претерпевает определенные изменения. Педагог, идущий в ногу со временем, старается развиваться вместе со всем миром. Поэтому процесс обучения неизбежно модернизируется и совершенствуется....