Главная страница » Работы на конкурс » Технические науки » Статья “Обзор и усовершенствование алгоритма DBScan с помощью сетки для автоматизации подбора оптимальных параметров кластеризации данных”

Статья “Обзор и усовершенствование алгоритма DBScan с помощью сетки для автоматизации подбора оптимальных параметров кластеризации данных”

Автор (ы)

Фасхутдинова Диляра Альбертовна

Аффилиация

Ульяновский государственный технический университет

Научный руководитель

Афанасьева Татьяна Васильевна

Аннотация

В данной статье описаны результаты работы по дисциплине «Интеллектуальный анализ данных и процессов». Приведен обзор различных методов кластеризации. Подробно описан алгоритм DBScan, а так же предложена его доработка  в виде автоматизированного подбора оптимальных параметров с помощью сетки. Представлены результаты работы алгоритма для кластеризации данных по 19 признакам.

Введение

Кластеризация (сегментация) – это разделение множества объектов на группы, обладающих схожими характеристиками. Методы кластеризации относятся к методам Data Mining – это автоматизированный процесс поддержки принятия решений, основанный̆ на поиске в данных скрытых закономерностей̆, то есть извлечения информации, которая может быть охарактеризована как знания.  Исходными данными для кластеризации являются числовые данные, представленные в табличной (матричной) форме.

Необходимо:

  1. Сформировать структуру данных для анализа объекта исследования и заполнить ее.
  2. Разработать методику  и  программу  для  сегментации  объекта исследования.
  3. Провести сегментацию  объекта  исследования  по  количественным признакам  на  основе  выбранного  метода  кластеризации  внутри каждого кластера.
  4. Провести пространственную (по  странам,  регионам,  городам,  предметным  областям,  корпорациям…)  сегментацию  объекта исследования.
  5. Провести временную  сегментацию  на  основе  тенденций «рост»,  «падение», «стабильность».
  6. Сформулировать выводы и объяснить результаты.

Программа должна обеспечивать ввод исходных данных, выполнение кластеризации  выбранным  методом,  кластеризации  модифицированным методом,  вывода  результатов  кластеризации,  то  есть  полученных кластеров в табличной форме, строки – наименование кластеров, столбцы – математические  характеристики.  Для  каждого  кластера – мощность (количество объектов), центр, среднее внутрикластерное расстояние.

Выводы

В рамках выполнения работы был проведен анализ различных методов кластеризации и выбор оптимального метода для текущих данных. Была произведена доработка метода путем автоматизации подбора оптимальных параметров для метода путем перебора по сетке. В качестве меры качества использован метод силуэта. Была разработана лингвистическая шкала для лингвистического описания количества элементов в кластерах.

Наиболее оптимальные параметры:

  • Максимальное внутрикластерное расстояние – 1,
  • Минимальное количество элементов в кластере – 2.

В результате работы программы было получено 11 кластеров. Шум – 18%.

Содержание работы

Автор предпочел не показывать работу на сайте

Конкурс, в котором автор работы принял участие:

High Goals – 2019: открытый международный конкурс инициативных научно-исследовательских проектов

Отрасль наук

Форма представления работы

Дата публикации работы: 03.12.2019

Смотреть похожие работы

Статья “Способы выполнения процессов художественного проектирования изделий из дерева”

Расширить технологические возможности изготовления художественных изделий из древесины позволяют дополнительные устройства. Разнообразные конструкции устройств для фрезерования, главным образом, художественных орнаментов, были предложены М.С. Гликиным, …

Статья “Математическая реконструкция подъёма Александровской колонны”

Актуальность. Восхищение многими архитектурными сооружениями XVIII…XIX веков вызывает вопрос, а как это можно было сделать, в то время отсутствия силы пара и электричества. Построенное после середины XIX века таких вопросов не вызывает – уже существова …

Статья “Способы выполнения процессов художественного проектирования изделий из металла”

Технология художественной ковки известна человечеству с древних времен. Количество и разнообразие объектов, созданных по этой технологии, чрезвычайно велико и ограничивается лишь фантазией авторов и свойством материала. С помощью этой технологии стало …

Статья “Проблемы энергосбережения в России и пути их решения”

В статье обосновывается необходимость повышения эффективности использования энергии в России. Рассматриваются имеющиеся проблемы, поставленные задачи и предлагаются возможные пути их решения. Ключевые слова: энергосбережение, энергосберегающие технолог …