Информация для студентов 2020 года набора
Максимальное количество студентов: 150
Ограничения по программе: запрещено для направления Прикладная математика и информатика
Язык: русский
Дополнительная информация о формате проведения занятий: для всех кампусов дисциплины майнора будут проходить полностью в онлайн-формате (на платформе zoom)
Дисциплины:
1. Введение в прикладную аналитику
2. Введение в аналитическое программирование
Темы дисциплин майнора
1. Введение в прикладную аналитику
Тема 1: Где, зачем и как собирать данные?
Первое занятие будет посвящено данным: где, как и какие данные можно собрать, какие типы данных существуют, для каких целей данные нам необходимы, что можно сделать с полученными данными
Тема 2: Графики, диаграммы и таблицы – описание ваших данных
В данной теме будут рассмотрены различные графики, диаграммы и таблицы для каждого типа данных и поставленной задачи, будет выявлен наилучший метод визуализации и объяснение почему именно этот метод подходит для конкретной задачи
Тема 3: Описание данных с помощью цифровых мер
В данной теме помимо визуализации рассматриваю меры центральной тенденции и меры изменчивости, рассматривается применимость к различным типам данных, формулы расчетов
Тема 4: Использование вероятности и вероятностных распределений
На этом занятии будут рассмотрены базовые понятия теории вероятностей, знакомство с формулами Баейса и полной вероятности, будет выработан навык решения элементарных задач теории вероятностей. Также будет знакомство с дискретными и непрерывными распределениями и их видами, плотностью распределения и базовым задачам, связанным с распределениями
Тема 5: Дискретные распределения вероятностей
В данной темы мы углубим знания о дискретных распределениях, рассмотрим их виды, научимся решать различные задачи, связанные с дискретными распределениями
Тема 6: Непрерывные распределения вероятностей
В данной темы мы углубим знания о непрерывных распределениях, рассмотрим их виды, научимся решать различные задачи, связанные с непрерывными распределениями
Тема 7: Введение в выборочные распределения
На этом занятии мы отойдем от понятия генеральной совокупности и начнем рассматривать выборки, распределение значений выборочных статистик, рассчитанных для каждой возможной выборки, которую можно получить из генеральной совокупности
Тема 8: Оценка параметров для одной выборки
В данной теме мы познакомимся с параметрами, которые мы рассчитываем для генеральной совокупности, доверительными интервалами для рассчитанных значений, научимся использовать z- и t- статистики
Тема 9: Введение в тестирование гипотез
На этом занятии мы поговорим о гипотезах, какие гипотезы существуют (нулевые, альтернативные, правостороннее, левосторонние, двусторонние), рассмотрим как правильно формулировать гипотезы и научимся их тестировать
Тема 10: Тестирование гипотез и оценка параметра среднего для двух выборок
В данной темы мы рассмотрим, как рассчитываются параметры для двух выборок, рассмотрим гипотезы о равенстве средних двух выборок, научимся делать вывод о наличии или отсутствии статистических различий между параметрами двух выборок
Тема 11: Тестирование гипотез и оценка параметра дисперсии для двух выборок
В данной темы мы рассмотрим, как рассчитываются параметры для двух выборок, рассмотрим гипотезы о равенстве дисперсий двух выборок, научимся делать вывод о наличии или отсутствии статистических различий между параметрами двух выборок
Тема 12: ANOVA
В данной темы мы познакомимся с дисперсионным анализом — метод, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, который мы изучали ранее, этот метод позволяет сравнивать средние значения трёх и более групп
Тема 13: Анализ таблиц сопряженности
Таблица сопряжённости, или таблица контингентности, факторная таблица в статистике — средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними - именно с этим методом анализа мы познакомимся на этом занятии. Таблица сопряжённости является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения
Тема 14: Введение в линейную регрессии и корреляционный анализ
На этом занятии мы познакомимся с разными способоми посчитть корреляцию для разного типа данных, познакомимся с базовой парной линейной регрессией и проследим взаимосвять коэффициента детерминации и коэффициента корреляции Пирсона
Тема 15: Множественная регрессия
На этом занятии мы продолжим знакомиться с регрессионным анализом, перейдем в множественной регрессии, научимся строить и интерпретировать модели
2. Введение в аналитическое программирование
Тема 1: Введение в R, базовый синтаксис и базовые типы данных
В этой теме будут рассмотрены основы языка R и основы работы в среде RStudio. Будет сделан фокус на основные синтаксические конструкции языка R (условия, циклы, создание и работа с функциями) и также на основные типы данных, с которыми будет необходимо работать в будущем: целые и действительные числа, символы, строки, векторы.
Тема 2: Оператор трубы в R, матрицы и списки, начало работы с данными
В этой теме будет рассмотрен один из способов композиции функций в R - оператор трубы, а также новые типы данных в R - матрицы и списки, и основные способы работы с ними. Дополнительно, будут рассмотрены способы загрузки в R данных из файлов различных форматов (CSV, TSV, XML, Excel, JSON) и их сохранения.
Тема 3: Обработка данных в R с применением пакета data.table
В этой теме будут рассмотрены основные приемы работы с данными (работа с пропущенными данными, сабсеттинг по строкам и колонкам, объединение нескольких наборов данных в один, группировка данных по признакам, создание новых переменных в данных). Работа с данными будет вестись средствами пакета data.table.
Тема 4: Обработка данных в R с применением набора пакетов Tidyverse
В этой теме будут рассмотрены основные приемы работы с данными (работа с пропущенными данными, сабсеттинг по строкам и колонкам, объединение нескольких наборов данных в один, группировка данных по признакам, создание новых переменных в данных). Работа с данными будет вестись средствами набора пакетов Tidyverse.
Тема 5: Функциональное программирование в R, использование R для построения графиков и создания отчетов
В этой теме будут рассмотрены способы построения графиков и других графических представлений данных в R с использованием как стандартной библиотеки языка, так и сторонних пакетов ggplot2 и Plotly. Также, будут рассмотрены пакеты для подготовки исследовательских отчетов (такие как stargazer). Дополнительно будет сделан фокус на инструменты функционального программирования в R и приемов их использования для анализа данных.
Тема 6: Введение в Python, базовый синтаксис и типы данных
В этой теме будут рассмотрены основы языка Python и основы работы в среде Jupyter Notebook. Будет сделан фокус на основные синтаксические конструкции языка Python (условия, циклы, создание и работа с функциями) и также на основные типы данных, с которыми будет необходимо работать в будущем: целые и действительные числа, символы, строки, а также работу с вводом-выводом.
Тема 7: Работа с коллекциями в Python: списки, кортежи, словари, множества
В этой теме будут рассмотрены типы коллекций, входящие в стандартную библиотеку языка Python, области их применения и основные приемы работы с ними. Будут рассмотрены списки (и их отличия от массивов), кортежи (и их отличия от списков), словари и множества. Будет введено понятие неизменяемых типов данных. Дополнительно, будут рассмотрены функции стандартной библиотеки Python для работы с коллекциями.
Тема 8: Работа с данными в Python с использованием пакетов Pandas и Numpy
В этой теме будут рассмотрены способы загрузки в Python данных из файлов различных форматов (CSV, TSV, XML, Excel, JSON) и их сохранения. Также, будут рассмотрены основные приемы работы с данными (работа с пропущенными данными, сабсеттинг по строкам и колонкам, объединение нескольких наборов данных в один, группировка данных по признакам, создание новых переменных в данных). Работа с данными будет вестись средствами библиотеки Pandas. Дополнительно, будет сделан фокус на работу с числовыми данными с применением библиотек Numpy и SciPy.
Тема 9: Автоматизированный сбор данных из онлайн-источников с применением библиотек Selenium и Requests
В этой теме будут рассмотрены основы выгрузки данных из онлайн-источников, таких как интернет-сайты и социальные сети. Будут рассмотрены основные принципы работы с публичными API различных сервисов, а также основные приемы реверс-инжиниринга сайтов, у которых нет публично доступных API с целью выгрузки данных из них. Для выгрузки данных будут применяться библиотеки Requests и Selenium.
Тема 10: Простые статистические модели в R и Python
В этой темы будет рассмотрено построение простых статистических моделей и описательных статистик (оценка моментов распределений, поиск корреляций, построение моделей линейной и логистической регрессий с регуляризацией и без, построение деревьев решений, кластеризации). Тема будет изучаться сразу на двух языках (R и Python), чтобы у студентов была возможность сравнить их.
Тема 11: Начало работы с текстовыми данными в R и Python
В этой теме будут рассмотрены базовые понятия работы с текстовыми данными, такие как токенизация, лемматизация, различные приемы векторизация текстов. Будут рассмотрены различные подходы к задачам классификации и кластеризации текстов. Тема будет изучаться сразу на двух языках (R и Python), чтобы у студентов была возможность сравнить их.
Тема 12: Начало работы с графами и сетевыми данными в R и Python
В этой теме будут рассмотрены основные подходы с к получению и предобработке сетевых данных. Будет сделан фокус на структуре и форматах хранения сетевых данных. Будут рассмотрены способы построения сетевых данных на основе текстов. В рамках подготовки к последующим курсам, будут рассмотрены способы загрузки сетевых данных в специализированные программы для их анализа. Тема будет изучаться сразу на двух языках (R и Python), чтобы у студентов была возможность сравнить их.
Тема 13: Сочетание программ на нескольких языках программированиях в одном проекте, библиотеки для обмена сообщениями между программами
В этой теме будут рассмотрены способы передачи данных между программами на разных языках программирования, а также между программами, работающими на разных компьютерах. Будут рассмотрены основы работы с библиотекой ZeroMQ в R и Python, а также другие способы организации взаимодействия между программами и компьютерами. Будет сделан дополнительный фокус на понятии сериализации и десериализации данных.
3. Введение в сетевую аналитику
Тема 1: Введение в сетевой анализ
Введение в сетевой анализ. Междисциплинарный интерес сетевой аналитики. Примеры сетей. Сетевые теории и теории графов. Социальный капитал. Сила слабых связей. Социальные сети и технологии. Девиантное поведение, преступность и социальные сети.
Тема 2: Базовые понятия сетевого анализа
Ключевые сетевые понятия: сеть, структура, узлы, связи, социограмма, степени, структурные и композиционные переменные и т. д. Типы сетевых данных.
Тема 3: От сбора данных до базовой интерпретации сети
Выборка и сбор данных в сетевом анализе. Инструменты исследования для сбора сетевых данных. Сбор сетевых данных и этические вопросы. Основные меры сетевых характеристик. Графическое представление сетевых отношений. Выборка и сбор данных в сетевом анализе.
Тема 4: Измерение структуры сети
Сетевые меры для диад и триад. Запретная триада. Кластеризация. Выявление тесно связанных групп и подгрупп в социальных сетях. Феномен маленького мира. Гемофилия.
Тема 5: Измерение характеристик узлов сети
Центральность и влияние. Меры центральности. Двухрежимные сети: преобразование, графическое представление и анализ. Центральность и двухрежимные сети в исследованиях власти и влияния.
Тема 6: Анализ и визуализация сетей с помощью программного обеспечения
Анализ и визуализация сети в R, Gephi, Visone. Шаблоны сетей.
Тема 7: Ассоциативные (2-модальные) данные и анализ
Двумодальные сети: трансформация, графическое представление и анализ. Центральность. Визуализация двумодальных данных.
Тема 8: Определения сообществ в сети
Сетевые сообщества. Разбиение графа. Грань промежуточности. Модульность кластеризации
Тема 9: Сети и текст - применение сетевых методов к анализу неструктурированных данных
Основы поиска текстовых данные. Анализ текстовых данных. Анализ новостей. Представление и визуализация текстовых сетей.
Тема 10: Сети и интернет - применение сетевых методов к онлайн-исследованиям
Анализ социальных медиа. Примеры сетей Twitter и Vkontakte. Обзор задач анализа социальных сетей в Интернете.
Тема 11: Сети и наука - применение сетевых методов для решения наукометрических задач
Методология библиометрического сетевого анализа. Цитируемость авторов, публикации, журналов, ключевых слов. Визуализация в Pajek научных полей и дисциплин, их тематической структуры и научных коллективов.
Тема 12: Сети и эффективность - применение сетевых методов для несетевых данных
Социальные сети и принятие решений. Понятие эффективности. Оболочный анализ. Представление сетей несетевыми данными.
4. Продвинутая сетевая аналитика и моделирование
Тема 1: Моделирование процессов с помощью подхода Монте-Карло
История появления методов Монте-Карло. Использование методов Монте-Карло для решения задач классической статистики. Использование методов Монте-Карло для решения задач сетевой аналитики.
Тема 2: Модели построения социальных сетей
Понятие модели графа и их применение. Сетевая эволюция. Модель графа Эрдоша-Реньи. Конфигурационная модель. Модели “маленького мира”. Безмастабные графы и способы их определения.
Тема 3: Кластеризация сети и блокмоделинг
Блочное моделирование и кластеризация. Кластерный анализ в сетях. Анализ главных компонент. Ядро и периферия.
Тема 4: Модели социального влияния
В этой теме будут рассмотрены модели, которые позволяют проверять гипотезы о связи сетевых характеристик узлов с несетевыми. Будет сделан фокус на использовании линейных моделей для анализа социальных сетей. Дополнительно, будут рассмотрены типичные ошибки и проблемы при построении моделей такого рода и способы их решения.
Тема 5: Продвинутые способы изучения сетевой структуры
Подграф и другие связанные с ним понятия. Понятие сетевого мотива. Графлеты и паттерны. Меры сходства и различия между сетями.
Тема 6: Продвинутые способы обнаружения сообществ в социальных сетях
Проблемы классических алгоритмов определения сообществ в социальных сетях. Определение сообществ в двумодальных сетях. Алгоритм Spinglass. Алгоритмы обнаружения пересекающихся сообществ.
Тема 7: Продвинутые сетевые статистики
Понятие сетевой автокорреляции. Проблемы применения методов классической статистики к сетевому анализу и способы из решения. Процедуры проверки статистических гипотез на сетевых данных.
Тема 8: Работа с направленными сетями
Понятие ациклического графа. Способы построения ациклического графа из циклического. Способы взвешивания ациклических графов. Анализ главных путей и ключевых маршрутов. Bow-tie composition.
Тема 9: Работа с разными типами сетевых данных
Понятия мультиплекс-сети, многоуровневой сети, многомодальной сети с более чем 2 модами. Понятие эго-сети. Способы сбора таких данных. Способы применения основных методов сетевого анализа к данным такого рода.
Тема 10: Модели социального выбора I - ERGM
В этой теме будут рассмотрены модели социального влияния, которые позволяют проверять гипотезы о связи структуры сети и положения в ней узлов с их атрибутами. Будет сделан фокус на модель Exponential Random Graph Model, алгоритме ее построения, интерпретации и способах проверки соответствия полученных моделей данным. Дополнительно, будут рассмотрены типичные ошибки и проблемы при построении моделей такого рода и способы их решения.
Тема 11: Модели социального выбора II - Многоуровневый ERGM, Ego-ERGM
В этой теме будут рассмотрены расширения модели ERGM, позволяющие использовать их для исследования более сложных сетей. Будет изучаться модель многоуровневого ERGM, которая позволяет проверять гипотезы о структуре многомодальных и многоуровневых сетей. Также, будет изучаться модель Ego-ERGM, которая позволяет использовать ERGM в исследованиях, строящихся на эго-сетевой методологии.