Статья “Обзор и усовершенствование алгоритма DBScan с помощью сетки для автоматизации подбора оптимальных параметров кластеризации данных”
Автор (ы)
Аффилиация
Ульяновский государственный технический университет,
Научный руководитель
Аннотация
В данной статье описаны результаты работы по дисциплине «Интеллектуальный анализ данных и процессов». Приведен обзор различных методов кластеризации. Подробно описан алгоритм DBScan, а так же предложена его доработка в виде автоматизированного подбора оптимальных параметров с помощью сетки. Представлены результаты работы алгоритма для кластеризации данных по 19 признакам.
Введение
Кластеризация (сегментация) – это разделение множества объектов на группы, обладающих схожими характеристиками. Методы кластеризации относятся к методам Data Mining – это автоматизированный процесс поддержки принятия решений, основанный̆ на поиске в данных скрытых закономерностей̆, то есть извлечения информации, которая может быть охарактеризована как знания. Исходными данными для кластеризации являются числовые данные, представленные в табличной (матричной) форме.
Необходимо:
- Сформировать структуру данных для анализа объекта исследования и заполнить ее.
- Разработать методику и программу для сегментации объекта исследования.
- Провести сегментацию объекта исследования по количественным признакам на основе выбранного метода кластеризации внутри каждого кластера.
- Провести пространственную (по странам, регионам, городам, предметным областям, корпорациям…) сегментацию объекта исследования.
- Провести временную сегментацию на основе тенденций «рост», «падение», «стабильность».
- Сформулировать выводы и объяснить результаты.
Программа должна обеспечивать ввод исходных данных, выполнение кластеризации выбранным методом, кластеризации модифицированным методом, вывода результатов кластеризации, то есть полученных кластеров в табличной форме, строки – наименование кластеров, столбцы – математические характеристики. Для каждого кластера – мощность (количество объектов), центр, среднее внутрикластерное расстояние.
Выводы
В рамках выполнения работы был проведен анализ различных методов кластеризации и выбор оптимального метода для текущих данных. Была произведена доработка метода путем автоматизации подбора оптимальных параметров для метода путем перебора по сетке. В качестве меры качества использован метод силуэта. Была разработана лингвистическая шкала для лингвистического описания количества элементов в кластерах.
Наиболее оптимальные параметры:
- Максимальное внутрикластерное расстояние – 1,
- Минимальное количество элементов в кластере – 2.
В результате работы программы было получено 11 кластеров. Шум – 18%.
Содержание работы
Автор предпочел не показывать работу на сайте
Конкурс, в котором автор работы принял участие:
I Международный конкурс инициативных научно-исследовательских проектов “High Goals”, 2018/2019
Отрасль наук
Форма представления работы
Дата публикации работы: 03.12.2019
Добавить комментарий