Курс «Математика для Data Science. Методы оптимизации и алгоритмы анализа данных» посвящён углублённому изучению математических методов, которые лежат в основе современных подходов к анализу данных. Участники освоят ключевые алгоритмы оптимизации и анализа данных, которые используются в задачах машинного обучения, статистики и бизнес-аналитики, но без прямого применения нейросетей. Программа сочетает теоретические лекции, практические занятия и кейс-стади, включая актуальные примеры 2025 года, такие как оптимизация логистических процессов, анализ больших данных в реальном времени и построение рекомендательных систем. Участники также познакомятся с современными инструментами, такими как автоматический подбор гиперпараметров и методы работы с большими данными.
Предварительные требования
• Базовые знания Python.
• Понимание линейной алгебры, математического анализа и статистики.
• Навыки работы с библиотеками pandas, NumPy, SciPy и основы программирования.
• Желательно знакомство с базовыми алгоритмами машинного обучения (например, линейная регрессия, k-means).
По окончании курса слушатели смогут:
• Применять методы оптимизации (градиентный спуск, методы второго порядка, стохастические методы) для решения задач анализа данных.
• Использовать алгоритмы кластеризации, классификации и снижения размерности для обработки больших данных.
• Оптимизировать гиперпараметры моделей с помощью современных инструментов (например, Bayesian Optimization).
• Анализировать и интерпретировать результаты, используя математические подходы.
• Разрабатывать и внедрять аналитические решения в реальные бизнес-сценарии через Python.
Формат обучения:
Обучение проводится дистанционно по будням с 10 до 14 часов по Мск.
Цель курса:
• Освоить ключевые методы оптимизации, используемые в анализе данных.
• Изучить алгоритмы анализа данных для решения задач кластеризации, классификации и прогнозирования.
• Научиться применять математические методы для оптимизации бизнес-процессов и работы с большими данными.
• Разработать и внедрить собственный проект, связанный с анализом данных, без использования нейросетей.
Аудитория курса:
Курс предназначен для специалистов по анализу данных, аналитиков, исследователей и IT-менеджеров, которые хотят углубить свои знания в области математических методов для Data Science. Программа подойдёт тем, кто уже имеет базовые знания математики (линейная алгебра, статистика, основы анализа) и навыки работы с Python, а также стремится освоить продвинутые методы оптимизации и анализа данных.
Модуль 1: Введение в методы оптимизации для Data Science (8 часов)
• Обзор современных задач Data Science, решаемых с помощью оптимизации (по состоянию на 2025 год).
• Основы оптимизации: выпуклые и невыпуклые функции, ограничения, целевые функции.
• Градиентный спуск и его вариации: стохастический градиентный спуск (SGD), Adam, RMSprop.
• Инструменты для оптимизации в Python: SciPy, NumPy, scikit-optimize.
• Практическое занятие: Реализация градиентного спуска для задачи минимизации функции (например, линейной регрессии) на синтетическом датасете.
Модуль 2: Продвинутые методы оптимизации (10 часов)
• Методы второго порядка: метод Ньютона, квази-ньютоновские методы (BFGS, L-BFGS).
• Стохастические и байесовские методы оптимизации: Bayesian Optimization для подбора гиперпараметров.
• Оптимизация с ограничениями: метод множителей Лагранжа, линейное программирование.
• Практическое занятие: Применение Bayesian Optimization для подбора гиперпараметров модели (например, для SVM) на датасете (например, Iris или синтетическом).
Модуль 3: Алгоритмы анализа данных: кластеризация и снижение размерности (8 часов)
• Кластеризация: k-means, DBSCAN, иерархическая кластеризация.
• Снижение размерности: PCA, t-SNE, UMAP для визуализации и анализа данных.
• Оценка качества кластеризации: метрики (Silhouette Score, Davies-Bouldin Index).
• Практическое занятие: Реализация кластеризации и снижения размерности на реальном датасете (например, датасет клиентов для сегментации).
Модуль 4: Алгоритмы классификации и прогнозирования (6 часов)
• Классификация: логистическая регрессия, SVM, деревья решений (без ансамблей).
• Прогнозирование: временные ряды, ARIMA, экспоненциальное сглаживание.
• Работа с большими данными: использование Dask для параллельных вычислений.
• Практическое занятие: Построение модели классификации (например, на датасете Titanic) и прогнозирование временного ряда (например, продажи).
Модуль 5: Интерпретация, внедрение и итоговый проект (8 часов)
• Интерпретация результатов: анализ важности признаков, визуализация (SHAP без нейросетей, коэффициенты регрессии).
• Автоматизация анализа данных: создание пайплайнов с scikit-learn и MLflow.
• Внедрение решений: создание REST API с FastAPI для аналитической модели.
• Практическое занятие: Итоговый проект — разработка и внедрение аналитического решения (например, сегментация клиентов или прогнозирование спроса) с последующим созданием API.