Главная страница » Конкурсные работы участников » Педагогические науки » Статья “Применение метода Q-обучения для логических игр”

Статья “Применение метода Q-обучения для логических игр”

Автор (ы)

Тимошкин Максим Олегович

Аффилиация

Пензенский государственный университет,

Научный руководитель

Романова Елена Геннадьевна

Аннотация

Машинное обучение — активно развивающаяся наука, которая изучает методы поиска скрытых зависимостей в массивах данных. Эти методы всё активнее используются как в различных областях науки, так и во многих индустриальных областях. Для построения таких методов используются средства математической статистики, численных методов, математического анализа, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме [1].

Существует три подхода к машинному обучению: статическое обучение (static learning), динамическое обучение (dynamic learning) и обучение с подкреплением (reinforcement learning).

Обучение с подкреплением (англ. reinforcement learning) — один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. Существует множество алгоритмов обучения с подкреплением. Один из них – табличное Q-обучение. Актуальность выбора именно алгоритма табличного Q-обучения заключается в том, что он используется в огромном количестве других более сложных алгоритмах, и для их успешного понимания необходимо его полное представление.

Целью данной работы является применение метода Q-обучения для логических игр, а в качестве задач исследования можно выделить оценку влияния различных управляющих параметров на быстроту сходимости алгоритма.

Результаты:

  1. В данной работе был использован подход обучения с подкреплением, рассмотрено уравнение Беллмана, даны точные определения понятиям Q-функции и Q-таблицы. Был выбран язык python для программирования и были изучены необходимые библиотеки для разработки: numpy, gym, pandas, matplotlib, с использованием которых были реализованы алгоритмы минимаксной стратегии и табличного Q-обучения. При написании кода на языке python использовалось руководство PEP8, а в качестве сервиса для экспериментальных исследований был выбран Google Colaboratory.
  2. В экспериментальной части было изучено и описано влияние различных управляющих параметров на скорость и качество сходимости табличного Q-обучения, найдены некоторые оптимальные и нежелательные параметры. Для оценки качества обучения между различными алгоритмами проигрывалось множество эпизодов.
  3. Для наглядной визуализации процесса Q-обучения был также построен график зависимости процента побед и поражений от числа эпизодов обучения.

Содержание работы

Автор предпочел не показывать работу на сайте

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Конкурс, в котором автор работы принял участие:

I Международный конкурс лучших практик образования “PROобучение”, 2022

Отрасль наук

Форма представления работы

Дата публикации работы: 04.02.2022

Смотреть похожие работы

Статья “Влияние новых технологий на структуру и содержание знаний”

Вершинин Константин Федорович
ФГБОУ ВО «Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых»
Аннотация: В статье рассматривается влияние современных технологий, таких как интернет, искусственный интеллект (ИИ), большие данные и виртуальная реальность (VR), на структуру и содержание знаний. Технологии трансформируют доступ к информации, делая...

Статья “Реализация МАОУ “Гимназия №3 в Академгородке”(РИП) концепции управления качеством образования в школе”

Алексеева Т.А., Рекичинская Е.А.
МАОУ "Гимназия №3 в Академгородке", г. Новосибирск
Качественные образовательные результаты являются одним из ключевых показателей успешной деятельности школы. Для того чтобы обеспечить высокое качество образования, необходимо постоянно работать над его улучшением. В статье мы представим опыт работы...