Актуальные инструменты контроля версий данных в 2020 году

Автор: admin от 13-11-2020, 08:06, посмотрело: 112

Все мы знаем и любим Git. И, конечно же, были придуманы его аналоги для управления версиями данных, чтобы эксперименты с данными были воспроизводимыми, а действия команд — согласованными. Сегодня, в преддверии старта нового потока курса по Data Science, делимся с вами материалом о сравнении нескольких систем контроля версий. Подробности сравнения — как обычно, под катом.



Актуальные инструменты контроля версий данных в 2020 году
Приятного чтения!

Категория: Компании / Microsoft

 

Как Big Data и «Интернет вещей» влияют на дата-центры. Энергопотребление. Часть 1

Автор: admin от 31-08-2017, 17:31, посмотрело: 811

Как Big Data и «Интернет вещей» влияют на дата-центры. Энергопотребление. Часть 1

Big Data, «большие данные» продолжают расширяться и увеличиваться в объеме. По данным Science Daily, в 2013 году около 90% всех данных в мире были созданы в предыдущие два года. Информации становится все больше, тем более, что и количество интернет-пользователей продолжает увеличиваться взрывными темпами. В настоящий момент в мире насчитывается около 2,5 миллиарда интернет-пользователей.

Кроме того, увеличивается и количество устройств, гаджетов, подключенных к Сети. Все это устройства, включая фитнес-трекеры, камеры телефонов и даже умные кофеварки, генерируют данные, которые требуется где-то хранить. С увеличением количества данных в мире увеличивается и потребность в увеличении вычислительных мощностей и свободном объеме для хранения информации.

Категория: Админитстрирование / Сетевые технологии

 

R c H2O на Spark в HDInsight

Автор: admin от 7-08-2017, 14:15, посмотрело: 294

R c H2O на Spark в HDInsightH2O – библиотека машинного обучения, предназначенная как для локальных вычислений, так и с использованием кластеров, создаваемых непосредственно средствами H2O или же работая на кластере Spark. Интеграция H2O в кластеры Spark, создаваемые в Azure HDInsight, была добавлена недавно и в этой публикации (являющейся дополнением моей прошлой статьи: R и Spark) рассмотрим построение моделей машинного обучения используя H2O на таком кластере и сравним (время, метрика) его с моделями предоставляемых sparklyr, действительно ли H2O киллер-приложение для Spark?

да, но это не точно

Категория: Компании / Microsoft

 

Отчет с Science Slam Digital 7 июля

Автор: admin от 21-07-2017, 16:50, посмотрело: 305

Отчет с Science Slam Digital 7 июля



7 июля Science Slam Digital собрал в нашем офисе более 600 зрителей, а число просмотров трансляции в соцсетях Одноклассники и ВКонтакте превысило 420 тысяч. Формат Science Slam зародился в Германии семь лет назад для популяризации научных достижений среди простых обывателей. Он состоит из серии научных лекций, которые читают молодые ученые. Доклад участника должен быть коротким (10 минут), доступным и информативным. Победителя слема определяют с помощью определения громкости аплодисментов зрителей шумометром.



Нам очень понравился этот формат, и мы захотели провести свой Science Slam, только цифровой, чтобы рассказать о технологиях просто и понятно. О том, что происходит внутри компании и чем занимаются сотрудники. Шесть разработчиков рассказали гостям и зрителям трансляции, что можно определить по почте, не открывая самих писем; как выяснить возраст человека в социальных сетях, даже если он не указан; какие тренды в медиапотреблении можно выделить уже сейчас и как они влияют на восприятие информации; как модифицировать социальную сеть, которой пользуются 100 миллионов человек, чтобы у них ничего не сломалось. Как это у нас получилось, вы можете посмотреть по нашим докладам.

->

Категория: Программирование

 

Как тысячи игроков Eve Online помогают в расшифровке человеческого тела

Автор: admin от 17-07-2017, 18:30, посмотрело: 246

От переводчика
Представляю вашему вниманию перевод статьи Мэта Камена (Matt Kamen) от 28 апреля 2016 года.
В статье рассказывается о том, какие возможности могут предоставить и предоставляют многопользовательские игры в решении важных проблем для всего человечества, связанных с необходимостью привлечения большого количества человеческих ресурсов.

Как тысячи игроков Eve Online помогают в расшифровке человеческого тела

Credit CCP Games

Категория: Программирование / Веб-разработка

 

Машинное обучение и поиск темной материи: соревнование от ЦЕРНа и Яндекса

Автор: admin от 17-07-2017, 14:55, посмотрело: 408

Яндекс уже несколько лет сотрудничает с ЦЕРНом. Он сделал для учёных-физиков поиск по событиям в БАК, предоставил свои вычислительные ресурсы и технологии обработки данных — в том числе Матрикснет и ClickHouse. В 2014 году Яндекс стал ассоциированным членом CERN openlab.



Школа анализа данных Яндекса тоже принимает участие в экспериментах ЦЕРНа. Машинное обучение в наши дни становится «микроскопом» для современных учёных, которым необходимо изучать большие объемы данных и находить в них различные закономерности. В этом году ШАД совместно с лабораторией Методов анализа больших данных Вышки и Имперским колледжем Лондона организует в Великобритании международную школу, которая посвящена способам применения современных технологий в научных исследованиях.



Машинное обучение и поиск темной материи: соревнование от ЦЕРНа и Яндекса

Эксперимент OPERA — из Швейцарии в Италию (картинка взята с сайта коллаборации OPERA)



Сегодня в рамках школы начинается открытое соревнование, участники которого будут ни много ни мало искать нейтрино. Принять участие в поисках мы приглашаем всех желающих. Им предстоит обрабатывать данные с международного эксперимента OPERA. Для этого будут предоставлены исходные данные — результаты сканирования слоев фотопленок одного «кирпича» эксперимента OPERA. Соревнование состоит из двух этапов. На первом этапе участники будут искать отдельный ливень в «кирпиче», первая вершина которого известна, на втором — несколько ливней, рассредоточенных по объему «кирпича» без дополнительной информации. Победители смогут рассказать о своих решениях ученым, работающим в ЦЕРНе.

->

Категория: Программирование / Яндекс

 

Лекция о двух библиотеках Яндекса для работы с большими данными и логами

Автор: admin от 10-07-2017, 16:15, посмотрело: 282

Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.





Под катом — расшифровка и часть слайдов.


->

Категория: Программирование / Яндекс

 

Выбор алгоритма вычисления квантилей для распределённой системы

Автор: admin от 7-07-2017, 16:05, посмотрело: 440

Выбор алгоритма вычисления квантилей для распределённой системы

Всем привет!



Меня зовут Александр, я руковожу отделом Data Team в Badoo. Сегодня я расскажу вам о том, как мы выбирали оптимальный алгоритм для вычисления квантилей в нашей распределённой системе обработки событий.

->

Категория: Программирование

 

Про аналитику и серебряные пули или «При чем здесь Рамблер/топ-100?»

Автор: admin от 5-07-2017, 14:30, посмотрело: 498

Про аналитику и серебряные пули или «При чем здесь Рамблер/топ-100?»


Всем привет! Я тимлид проекта Рамблер/топ-100. Это лонгрид о том, как мы проектировали архитектуру обновлённого сервиса веб-аналитики, с какими сложностями столкнулись по пути и как с ними боролись. Если вам интересны такие базворды как Clickhouse, Aerospike, Spark, добро пожаловать под кат. ->

Категория: Программирование / Веб-разработка

 

Построение систем управления приложениями в распределенной кластерной инфраструктуре на базе технологии MESOS

Автор: admin от 28-06-2017, 10:20, посмотрело: 383

В наше время термин “BIG DATA” у всех на слуху. После появления в сети и в прессе многочисленных публикаций, связанных с обработкой «больших данных», интерес к этой теме постоянно растет. Все более широким спросом пользуются системы управления базами данных с
использованием технологии NoSQL. Всем понятно, что для построения систем “BIG DATA” необходимо располагать внушительными аппаратными ресурсами. Еще более важно уметь оптимально использовать вычислительные ресурсы системы и эффективно их масштабировать. Это неизбежно меняет подходы к построению систем обработки данных.

Категория: Системное администрирование / Linux

 
Назад Вперед