Лекция о двух библиотеках Яндекса для работы с большими данными и логами

Автор: admin от 10-07-2017, 16:15, посмотрело: 282

Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.





Под катом — расшифровка и часть слайдов.


->

Категория: Программирование / Яндекс

 

Есть ли будущее у InfiniBand на Hadoop?

Автор: admin от 14-11-2016, 12:20, посмотрело: 290

Есть ли будущее у InfiniBand на Hadoop?


Hadoop был создан для запуска на чипах компьютеров широкого употребления с сетевым подключением с низкой скоростью. Но Hadoop кластеры стали больше и организации превысили лимит мощности. Для решения проблемы были найдены специализированные решения такие как твердотельные накопители и сети InfiniBand, у которых есть запас роста.

InfiniBand был представлен миру в 2000 году как сетевой протокол, который был быстрее чем TCP/IP — первоначальный сетевой протокол в сетях Ethernet. Благодаря использованию прямого удаленного доступа к памяти (Remote Direct Memory Access (RDMA) InfiniBand позволяет напрямую записывать/копировать данные из памяти удаленного компьютера, обходя операционную систему и возможные задержки.

Категория: Программирование / Системное администрирование / Сетевые технологии

 

Видеозапись вебинара «Инструменты для работы Data Scientist»

Автор: admin от 29-09-2016, 14:25, посмотрело: 351

Видеозапись вебинара «Инструменты для работы Data Scientist»

Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.
Смотреть видеозапись и презентацию

Категория: Программирование / Веб-разработка

 

Вебинар: Инструменты для работы Data Scientist

Автор: admin от 19-09-2016, 19:00, посмотрело: 404

Вебинар: Инструменты для работы Data Scientist

Команда FlyElephant приглашает всех 28 сентября в 16.00 на вебинар «Инструменты для работы Data Scientist». В его рамках мы рассмотрим, кто такой data scientist и какими инструментами он пользуется. Поговорим о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.

Содержание вебинара:

  • Data Science

  • Data Scientist vs Data Engineer

  • How it works?

  • Notebook / IDE

  • Methods & Algorithms

  • Software

  • Deep Learning Tools

  • Programming Languages

  • Cloud Services

  • Computing power

  • Competitions

  • FlyElephant


Зарегистрироваться на вебинар можно здесь. https://habrahabr.ru/post/309992/?utm_source=habrahabr&utm_medium=rss&utm_campaign=interesting#habracut

Категория: Программирование / Веб-разработка

 

Strata + Hadoop 2016 review

Автор: admin от 24-07-2016, 12:40, посмотрело: 295

Strata + Hadoop 2016 review

В последний год в Badoo стали очень активно использовать связку Hadoop + Spark и построили свою систему сбора и обработки десятков миллионов метрик при помощи Spark Streaming.
Для того чтобы расширить наши знания и познакомиться с последними новинками в этой сфере, в конце мая этого года разработчики отдела BI (Business Intelligence) отправились в Лондон, где проходила очередная конференция серии Hadoop + Strata, посвященная широкому спектру вопросов в области машинного обучения, обработки и анализа больших данных.

Категория: Программирование

 

Flume — управляем потоками данных. Часть 2

Автор: admin от 21-04-2016, 12:20, посмотрело: 457

Привет, Хабр! Мы продолжаем цикл статей, посвященный Apache Flume. В предыдущей части мы поверхностно рассмотрели этот инструмент, разобрались с тем, как его настраивать и запускать. В этот раз статья будет посвящена ключевым компонентам Flume, с помощью которых не страшно манипулировать уже настоящими данными.

Flume — управляем потоками данных. Часть 2

Категория: Программирование / Веб-разработка

 

Flume — управляем потоками данных. Часть 1

Автор: admin от 29-03-2016, 18:44, посмотрело: 567

Привет, Хабр! В этом цикле статей я планирую рассказать о том, как можно организовать сбор и передачу данных с помощью одного из инструментов Hadoop — Apache Flume.

Flume — управляем потоками данных. Часть 1

Категория: Программирование / Веб-разработка

 

BDRA – современная архитектура для аналитики больших данных

Автор: admin от 14-03-2016, 17:30, посмотрело: 486

Под большими данными обычно понимают серию подходов, инструментов и методов обработки структурированных и неструктурированных данных, которые отличают огромные объёмы и значительное многообразие. Цель такой обработки — получение воспринимаемых человеком результатов.

BDRA – современная архитектура для аналитики больших данных

Поток данных может поступать из разных источников, эти данные гетерогенны и передаются в различных форматах: текст, документы, изображения, видео и многое другое. Для извлечения из таких данных полезной информации определяющее значение имеет программно-аппаратная платформа.

Категория: Админитстрирование / Сетевые технологии

 

Как устроен Relap.io — сервис, который выдает 30 миллиардов рекомендаций в месяц

Автор: admin от 19-02-2016, 14:56, посмотрело: 342


Мы давно ничего не писали в наш блог и возвращаемся с рассказом о нашем новом проекте: Relap.io (relevant pages).

Мы запустили рекомендательный B2B-сервис Relap.io полтора года назад. Он облегчает жизнь редакции и читателям СМИ. В будние дни Relap.io обслуживает 15 млн уников и выдаёт 30 миллиардов рекомендаций в месяц.

Сейчас Relap.io крупнейшая рекомендательная платформа в Европе и Азии.

Как устроен Relap.io — сервис, который выдает 30 миллиардов рекомендаций в месяц

Категория: Программирование / Веб-разработка

 

MongoDB как средство мониторинга LOG-файлов

Автор: admin от 8-12-2015, 16:40, посмотрело: 620

В этой статье я расскажу об использовании нереляционной базы MongoDB для мониторинга журнальных файлов. Для мониторинга log-файлов существует множество инструментов, от мониторинга shell-скриптами, завязанными на cron, до кластера apache hadoop.

MongoDB как средство мониторинга LOG-файлов


Подход с мониторингом скриптами текстовых файлов удобен только в простейших случаях, когда, например, проблемы выявляются наличием в журнальном файле строк «ERROR», «FAILURE», «SEVERE» и т.п. Для мониторинга больших файлов удобно использовать систему Zabbix, где Zabbix Agent (active) будет считывать только новые данные и с определённой периодичностью отправлять их на сервер.

Категория: Админитстрирование / Системное администрирование

 
Назад Вперед