Анализ данных — один из важнейших разделов математической статистики и информатики, представляющий собой комплекс методов и средств, позволяющих получить из организованных данных информацию для принятия решений. Основной принцип, лежащий в основе данной дисциплины, состоит в повышении уровня фундаментальной математической и статистической подготовки слушателей с усилением её прикладной направленности.
Занятия проходят в дистанционном формате в вечернее время по понедельникам, средам и четвергам с 16.00 до 20.00
Необходимая предварительная подготовка:
базовые понятия теории вероятности и математической статистики (дискретная случайная величина, непрерывная случайная величина, вариационный ряд и др.);
основные принципы работы в табличном процессоре MS Excel (понятие абсолютной и относительной адресации ячейки, формулы Excel, встроенной функции Excel и пр.);
построить вариационный ряд;
найти коэффициенты линейного уравнения;
создать и отформатировать таблицу в MS Excel;
записать формулу Excel, в том числе с использованием встроенных функций Excel;
построить и отформатировать диаграмму в MS Excel;
выполнить сортировку данных в таблице MS Excel и т.п.
В результате освоения курса слушатель должен:
Знать:
основные понятия анализа данных, математической статистики и теории вероятности (эксцесс, статистическая гипотеза, доверительный интервал, вариационный ряд и т.д.);
сущность базовых вероятностных и статистических методов (выборочный метод, корреляционный анализ, элементы регрессионного анализа).
Уметь:
ставить и решать задачи на основе статистической информации;
применять вероятностные и статистические методы к решению прикладных (в том числе экономических) задач;
грамотно применять современные компьютерные технологии для исследования объектов профессиональной деятельности;
использовать математические инструментальные средства для обработки, анализа и систематизации информации по теме исследования;
применять математические методы и инструментальные средства для исследования объектов профессиональной деятельности.
Владеть:
навыками обработки, обобщения и анализа информации для оценки состояния и выявления тенденций, закономерностей и конкретных особенностей развития социально-экономических процессов;
методами статистического анализа и прогнозирования случайных процессов;
методами поиска, хранения и обработки информации;
основами математического моделирования прикладных задач, решаемых аналитическими методами;
способностью критически оценивать свои достоинства и недостатки, намечать пути и выбирать средства развития достоинств и устранения недостатков;
способностью к ответственному и целеустремленному решению поставленных задач во взаимодействии с обществом, коллективом, партнерами;
способностью к саморазвитию, повышению своей квалификации и мастерства.
Необходимая предварительная подготовка:
Преподаватель курса -
Никифоров Дмитрий
Цель курса:
заложить базу для освоения теоретических основ и методов анализа данных, применяемых при решении прикладных задач;
сформировать навыки обработки, обобщения и анализа информации для оценки состояния и выявления тенденций, закономерностей и конкретных особенностей развития социально-экономических и бизнес-процессов;
создать основу для освоения компьютерных технологий, применяемых в анализе данных;
обеспечить овладение современными методиками статистического моделирования при решении задач.
Тема 1. Введение в анализ данных. Случайные выборки и их представления.
Виды данных – количественные, порядковые и номинальные. Задачи анализа данных: классификация, группировка, прогнозирование, нахождение ассоциаций и зависимостей, визуализация. Основные разделы, на которых базируется анализ данных: статистика, базы данных и знаний, распознавание образов, искусственный интеллект. Сферы применения анализа данных: финансы и банковское дело, маркетинг, медицина, генетика, биоинформатика, интернет. Генеральная совокупность и случайная выборка. Понятие репрезентативной выборки. Выборочный метод. Дискретные и непрерывные признаки. Вариационные ряды. Таблицы частот. Группировка данных (формула Старжессона). Графическое представление выборки. Диаграммы частот. Полигоны, гистограммы и огивы.
Тема 2. Числовые характеристики и выборки.
Характеристики положения: среднее арифметическое (по выборке, по частотной таблице для дискретного распределения, по сгруппированным данным для непрерывного распределения), мода (по выборке, по частотной таблице для дискретного распределения, по сгруппированным данным для непрерывного распределения), медиана (по выборке, по частотной таблице для дискретного распределения, по сгруппированным данным для непрерывного распределения).
Характеристики разброса: дисперсия (по выборке, по частотной таблице для дискретного распределения, по сгруппированным данным для непрерывного распределения), стандартное отклонение, дисперсия несмещенная (по выборке, по частотной таблице для дискретного распределения, по сгруппированным данным для непрерывного распределения), стандартное отклонение несмещенное, размах, квартили и интерквартильный размах. Характеристики формы: коэффициенты асимметрии (Спирмэна, Пирсона), эксцесс.
Тема 3. Статистическое оценивание.
Точечные оценки. Несмещенность, состоятельность и эффективность точечных оценок. Определение точечных оценок математических ожиданий случайных величин в условиях применения равноточных и неравноточных измерений. Определение точечных оценок дисперсии (среднего квадратического отклонения), момента связи, коэффициента корреляции и вероятности наступления случайного события. Наиболее важные законы распределения, их свойства. Законы распределения: равномерное, нормальное (гауссово), Стьюдента, «хи-квадрат», Фишера. Интервальные оценки. Доверительный интервал для оценки генеральной доли признака и генерального среднего. Определение интервальной оценки математического ожидания случайной величины в условиях известной и неизвестной дисперсии результатов наблюдений. Определение интервальных оценок для среднего квадратического отклонения случайной величины и вероятности наступления случайного события.
Тема 4. Проверка статистических гипотез.
Понятие статистической гипотезы. Простые и сложные гипотезы. Нулевая гипотеза и альтернативы. Понятие статистического критерия. Ошибки первого и второго рода. Уровень значимости и мощность критерия. Описание гипотез и критерии их проверки. Классический подход к проверке гипотез. Гипотезы о параметрах распределений. Критерий согласия Пирсона. Гипотеза о среднем нормальной выборки с известной дисперсией. Гипотеза о верности успеха в испытаниях Бернулли. Гипотеза о среднем нормальной выборки с неизвестной дисперсией. Гипотеза о равенстве средних двух нормальных выборок. Гипотеза о равенстве вероятностей успеха в двух сериях Бернулли. Гипотеза о дисперсии нормальной выборки. Р-подход к проверке гипотез. Классическая α-методика. Современная р-методика.
Тема 5. Элементы корреляционного анализа.
Коварация и корреляция случайных величин. Свойства коварации. Свойства корреляции. Выборочная коварация и корреляция. Проверка гипотезы об отсутствии корреляции. Основные задачи теории корреляции: определение формы и оценка тесноты связи. Виды корреляционной связи (парная и множественная, линейная и нелинейная). Ранговая корреляция, коэффициенты Спирмена и Кендалла.
Тема 6. Анализ временных рядов.
Понятие временного ряда. Виды временных рядов. Основные показатели изменения уровней временных рядов (уровень ряда, абсолютный прирост, темп роста, темп прироста). Компоненты временных рядов (тренд, сезонная компонента, циклическая компонента, случайная составляющая). Основные этапы анализа временных рядов. Анализ тренда. Анализ сезонности. Вычисление случайной компоненты.