R c H2O на Spark в HDInsight

Автор: admin от 7-08-2017, 14:15, посмотрело: 294

R c H2O на Spark в HDInsightH2O – библиотека машинного обучения, предназначенная как для локальных вычислений, так и с использованием кластеров, создаваемых непосредственно средствами H2O или же работая на кластере Spark. Интеграция H2O в кластеры Spark, создаваемые в Azure HDInsight, была добавлена недавно и в этой публикации (являющейся дополнением моей прошлой статьи: R и Spark) рассмотрим построение моделей машинного обучения используя H2O на таком кластере и сравним (время, метрика) его с моделями предоставляемых sparklyr, действительно ли H2O киллер-приложение для Spark?

да, но это не точно

Категория: Компании / Microsoft

 

Выбор алгоритма вычисления квантилей для распределённой системы

Автор: admin от 7-07-2017, 16:05, посмотрело: 440

Выбор алгоритма вычисления квантилей для распределённой системы

Всем привет!



Меня зовут Александр, я руковожу отделом Data Team в Badoo. Сегодня я расскажу вам о том, как мы выбирали оптимальный алгоритм для вычисления квантилей в нашей распределённой системе обработки событий.

->

Категория: Программирование

 

Про аналитику и серебряные пули или «При чем здесь Рамблер/топ-100?»

Автор: admin от 5-07-2017, 14:30, посмотрело: 498

Про аналитику и серебряные пули или «При чем здесь Рамблер/топ-100?»


Всем привет! Я тимлид проекта Рамблер/топ-100. Это лонгрид о том, как мы проектировали архитектуру обновлённого сервиса веб-аналитики, с какими сложностями столкнулись по пути и как с ними боролись. Если вам интересны такие базворды как Clickhouse, Aerospike, Spark, добро пожаловать под кат. ->

Категория: Программирование / Веб-разработка

 

Курсы Computer Science клуба, весна 2017

Автор: admin от 10-04-2017, 15:55, посмотрело: 300

Курсы Computer Science клуба, весна 2017

Computer Science клуб вот уже 10 лет проводит открытые курсы по компьютерным наукам. Большинство этих лекций стараниями Лекториума записаны на видео и лежат в открытом доступе. В этом семестре выложены уже три новых курса, которые до этого не читались в клубе: «Программирование с зависимыми типами на языке Idris», «Вычисления на GPU. Основные подходы, архитектура, оптимизации», «Методы и системы обработки больших данных».

Категория: Программирование

 

Облачное решение для совместной работы Cisco Spark: обзор и настройка

Автор: admin от 22-02-2017, 14:40, посмотрело: 893

Сервисы видеоконференций давно пользуются популярностью в крупных компаниях и даже в некоторых мелких фирмах. Для их проведения используются разные технологии, в самом простом варианте это может быть, например, конференция в Skype. Но есть и системы, которые предлагают куда более широкие возможности, фактически «все в одном». Одна из них — облачное решение для совместной работы Cisco Spark.

Облачное решение для совместной работы Cisco Spark: обзор и настройка

Категория: Админитстрирование / Сетевые технологии

 

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

Автор: admin от 15-02-2017, 11:55, посмотрело: 347

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере


Привет, Хабр!


Меня зовут Александр Крашенинников, я руковожу DataTeam в Badoo. Сегодня я поделюсь с вами простой и элегантной утилитой для распределённого выполнения команд в стиле xargs, а заодно расскажу историю её возникновения.


Наш отдел BI работает с объёмами данных, для обработки которых требуются ресурсы более чем одной машины. В наших процессах ETL в ход идут привычные миру Big Data распределённые системы Hadoop и Spark в связке с OLAP-базой Exasol. Использование этих инструментов позволяет нам горизонтально масштабироваться как по дисковому пространству, так и по CPU/ RAM.


Безусловно, в наших процессах ETL существуют не только тяжеловесные задачи на кластере, но и машинерия попроще. Широкий пласт задач решается одиночными PHP/ Python-скриптами без привлечения гигабайтов оперативной памяти и дюжины жёстких дисков. Но в один прекрасный день нам потребовалось адаптировать одну CPU-bound задачу для выполнения в 250 параллельных инстансов. Настала пора маленькому Python-скрипту покинуть пределы родного хоста и устремиться в большой кластер!

Категория: Программирование

 

Kerio Connect 9.2 упрощает общение и повышает качество совместной работы

Автор: admin от 31-10-2016, 09:25, посмотрело: 537

Kerio Connect 9.2 упрощает общение и повышает качество совместной работы

В крайнем выпуске популярного решения для обмена сообщениями и совместной работы мы включили важные нововведения централизованного управления, новые клиенты для настольных ПК и Мак, интегрировали решение Kerio Connect с продвинутым почтовым клиентом Spark, хотите узнать больше, милости просим под кат…

Категория: Android / iOS

 

Видеозапись вебинара «Инструменты для работы Data Scientist»

Автор: admin от 29-09-2016, 14:25, посмотрело: 351

Видеозапись вебинара «Инструменты для работы Data Scientist»

Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.
Смотреть видеозапись и презентацию

Категория: Программирование / Веб-разработка

 

Вебинар: Инструменты для работы Data Scientist

Автор: admin от 19-09-2016, 19:00, посмотрело: 404

Вебинар: Инструменты для работы Data Scientist

Команда FlyElephant приглашает всех 28 сентября в 16.00 на вебинар «Инструменты для работы Data Scientist». В его рамках мы рассмотрим, кто такой data scientist и какими инструментами он пользуется. Поговорим о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.

Содержание вебинара:

  • Data Science

  • Data Scientist vs Data Engineer

  • How it works?

  • Notebook / IDE

  • Methods & Algorithms

  • Software

  • Deep Learning Tools

  • Programming Languages

  • Cloud Services

  • Computing power

  • Competitions

  • FlyElephant


Зарегистрироваться на вебинар можно здесь. https://habrahabr.ru/post/309992/?utm_source=habrahabr&utm_medium=rss&utm_campaign=interesting#habracut

Категория: Программирование / Веб-разработка

 

R и Spark

Автор: admin от 25-08-2016, 17:55, посмотрело: 431

R и SparkSpark – проект Apache, предназначенный для кластерных вычислений, представляет собой быструю и универсальную среду для обработки данных, в том числе и для машинного обучения. Spark также имеет API и для R(пакет SparkR), который входит в сам дистрибутив Spark. Но, помимо работы с данным API, имеется еще два альтернативных способа работы со Spark в R. Итого, мы имеем три различных способа взаимодействия с кластером Spark. В данном посте приводиться обзор основных возможностей каждого из способов, а также, используя один из вариантов, построим простейшую модель машинного обучения на небольшом объеме текстовых файлов (3,5 ГБ, 14 млн. строк) на кластере Spark развернутого в Azure HDInsight.

Категория: Компании / Microsoft

 
Назад Вперед