Инжиниринг в R с Павлом Левчуком: работа в R Notebook

Время чтения: 5 минут
logo
Title
logo

Рассказываем, как организовать работу в R Notebook — инструменте, в котором удобнее всего писать код на языке R. Данной статьей мы начинаем серию материалов об эффективной работе с этим языком.

Чтобы решить какие-то сложные задачи, возникающие в процессе работы, аналитики часто прибегают к языкам программирования — Python, SQL, Java... Однако существуют новые, не менее удобные, а иногда и гораздо более функциональные подходы на базе языка R. С их помощью вы можете писать код в удобном интерфейсе, подключаться к различным базам данных и легко переключаться между ними, работать с большими, а иногда и огромными объемами данных, разворачивая их на серверах Google или Amazon.

О том, как организовать эффективную работу на языке R, мы поговорили с Павлом Левчуком — директором по аналитике и росту.

Почему я выбираю R Notebook

R Notebook базируется на технологии markdown. В чем преимущества данной технологии? В ней есть чанки (кусочки) кода и чанки результатов, что помогает эффективно кодировать и сразу видеть результат.

Как это выглядит:

Рассмотрим преимущества R Notebook подробнее.

1. Чанки кода, позволяющие хорошо структурировать код

Аналитики часто пишут код быстро и при этом очень неструктурированно. Если же использовать R Notebook, код будет обладать некой структурой и впоследствии читаться хорошо.

Пишите короткие названия в заголовке каждого чанка. Также возьмите за правило делать чанки не больше чем на пол-экрана, при необходимости разбивая их на компоненты.

Источник: http://uc-r.github.io/r_notebook

2. Возможность работать с разными языками

Обычно каждый новый чанк кода, который мы создаем в R Notebook, имеет тип R {r }. Но вы также можете в чанке подключать интерпретаторы других языков (например, SQL или Python).

https://db.rstudio.com/getting-started/database-queries/#query-using-an-r-notebooks

3. Сохранение результатов исследования в разных форматах

Написав код в R Notebook и получив какие-то результаты, вы можете сохранить их в необходимом вам формате, например в Word, HTML или даже в презентации Power Point.

Более того, можно создать целую цепочку документов в R Notebook Markdown, которые будут связаны между собой: один документ что-то делает, сохраняет результаты, запускается второй документ, который берет результаты первого, и так далее.

Это промышленный подход, который уже активно используется крупными компаниями. Например, Netflix уже смог сделать целую экосистему обработки на базе Jupyter Notebook (аналог markdown-технологии для Python).

4. Возможность параметризировать код с помощью YAML

Секция YAML — это секция параметров вашего кода. В ней можно задать нужное количество настроек для того, чтобы изменить поведение кода, и с учетом этих параметров по-разному обрабатывать данные.

На скриншоте мы видим пример YAML для инструмента проверки A/B-тестов. Там есть параметр split_id. Мы можем вызывать наш код из командной строки, указав другое значение id-теста, и тут же получать анализ по другому A/B-тесту.

Резюме: основная задача аналитика — отвечать на вопросы. Если писать правильно код (подходящий стек, параметризация), то можно создать один мощный инструмент, который ответит на десятки вопросов.





В данной статье мы рассмотрели R Notebook, который позволяет:

  • писать код и сразу видеть результаты,
  • работать с разными языками программирования,
  • сохранять исследования в нужном формате,
  • параметризировать код для создания нужных инструментов.

Все это позволяет лучше понимать, что вы делаете, значительно облегчает разработку нужных отчетов и решение задач.

В следующем материале мы продолжим знакомиться с возможностями языка R и рассмотрим обработку данных с помощью DPLYR.



(4)
2/5
Оцените статью
Поделитесь с друзьями
Содержание: