Коли: 16-17 квітня 2016 р., Київ
“Вступ до Data Science” — це дводенний практикум, який спрямовано на розвиток базових навичок роботи з даними українських дослідників та спеціалістів із різних галузей, які дозволять їм безболісно отримувати знання з даних. Практикум буде основано на персональному досвіді лектора, а також навчальних матеріалах з серії успішних воркшопів з аналізу даних, що проводить Data Carpentry.
Що ми хочемо?
Навчити вас застосовувати базові методи аналізу даних, користуючись мовою програмування R, для вирішення реальних задач на відкритих даних.
Чи варто вам брати в цьому участь?
Цей практикум переважно розраховано на людей, котрі ще нічого або майже нічого не знають про аналіз даних, але хотіли б цьому навчитися, щоб почати застосовувати в своїх дослідженнях, у роботі або на заняттях в університеті.
Швидше за все цей практикум не буде цікавий людям, котрі вже займаються аналізом даних або пройшли базові онлайн-курси з цієї теми, наприклад, такі як “Getting and Cleaning Data”, “Exploratory Data Analysis” від Johns Hopkins University та інші.
На який рівень знань в програмуванні розрахований цей воркшоп?
Програму занять розраховано на учасників без навичок програмування. Оскільки основною метою нашого практикуму є отримання практичного досвіду та навичок аналізу даних, усі учасники повинні мати власні ноутбуки, бажано із заздалегідь встановленими R та RStudio. Див. нижче інструкцію з установки.
Чому R і RStudio?
R – це одна з найпопулярніших мов програмування, що застосовується в аналізі даних (на рівні з Python), опанування якої не вимагає глибоких знань в програмуванні. Крім того, для полегшення роботи з R, було створено дуже зручний графічний інтерфейс – RStudio, який дозволяє інтерактивно працювати з даними, спостерігаючи результат роботи програми крок за кроком.
Чи можна все-таки дізнатися детальніше, про що саме буде йти мова?
Практикум почнеться з короткого обговорення того, що таке аналіз даних, де він застосовується і навіщо він потрібен. Також у вступній частині ми поговоримо про задачу відтворюваності досліджень, яка є однією з основних проблем в сучасній науці. Після цього перейдемо до розгляду базового синтаксису R та принципів роботи в RStudio. Після цього ми розглянемо і застосуємо існуючі способи завантаження даних з різних джерел, їх очистки та зберігання. Ви дізнаєтеся про те, як правильно маніпулювати даними в R: фільтрувати за певною ознакою, підраховувати описові статистики й, нарешті, – візуалізуватирезультати аналізу за допомогою бібліотеки ggplot2.
Ми плануємо використовувати в якості прикладів відкриті дані з різних галузей науки, щоб дати найбільш повну картину щодо можливих проблем які можуть виникнути при аналізі різнорідних даних.
Практикум буде проходити два дні з 10:00 до 17:00 з двома короткими кава-паузами та перервою на обід.
Більше – за посиланням.