Топливо для ИИ: подборка открытых датасетов для машинного обучения

Автор: admin от 6-10-2017, 21:40, посмотрело: 49

Топливо для ИИ: подборка открытых датасетов для машинного обучения
Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье



Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.



Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.



Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Категория: Программирование » Веб-разработка

 

Смена потребительских предпочтений: в поисках идеального накопителя с поддержкой протокола NVMe

Автор: admin от 6-10-2017, 21:40, посмотрело: 42

В 2011 году была представлена альтернатива протоколу AHCI (Advanced Host Controller Interface) — протокол NVM Express. Почему контроллер с архитектурой NVMe (Non-Volatile Memory Express)?



Смена потребительских предпочтений: в поисках идеального накопителя с поддержкой протокола NVMe


Немного теории: грубо говоря, SSD это способ хранения данных на чипах памяти, упоминая же «жесткий диск» подразумеваем, что данные хранятся на круглых магнитных пластинах. Теперь понятие форм-фактора: подразумевает, как устройство выглядит и как подключается. Например 2,5-дюймовые SATA SSD подключаются с помощью SATA коннектора. Форм-фактор M.2 — это голые платы, на которых размещены чипы, соответственно используется разъем для подключения М.2. Для полноценной работы накопителя с хост системой нужен физический и программный интерфейсы, самые обычные 2,5-дюймовые SATA SSD используют протокол AHCI, но контроллер AHCI был создан для механических HDD, дабы оптимизировать взаимодействие жесткого диска с самой системой: минимизировать перемещение магнитных головок, синхронизировать процессы чтения и записи. Соответственно, в твердотельных накопителях, где совсем другой принцип хранения данных, AHCI не в состоянии раскрыть весь потенциал SSD, работающего на высоких скоростях. Хотя никто не отменял тот факт, что SATA SSD больше ограничены самим фактором SATA подключения, с его помощью можно передать данные со скоростью не больше 550-600 МБ/с, не то чтобы это было слишком мало, но! SSD накопители могут гораздо больше. Для того, чтобы обойти эти скоростные ограничения были придуманы PCI Express и М.2 накопители, правда они все также либо используют, либо эмулируют программный интерфейс AHCI, главным недостатком которого является количество команд, которые он может одновременно передать, это всего 32 очереди.

Категория: Программирование » Веб-разработка

 

Распознавание дорожных знаков с помощью CNN: Spatial Transformer Networks

Автор: admin от 6-10-2017, 21:40, посмотрело: 41

Привет, Хабр! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks).



В прошлом посте мы начали разговор о подготовке данных для обучения сверточной сети. Сейчас же настало время использовать полученные данные и попробовать построить на них нейросетевой классификатор дорожных знаков. Именно этим мы и займемся в этой статье, добавив дополнительно к сети-классификатору любопытный модуль — STN. Датасет мы используем тот же, что и раньше.



Spatial Transformer Network (STN) — один из примеров дифференцируемых LEGO-модулей, на основе которых можно строить и улучшать свою нейросеть. STN, применяя обучаемое аффинное преобразование с последующей интерполяцией, лишает изображения пространственной инвариантности. Грубо говоря, задача STN состоит в том, чтобы так повернуть или уменьшить-увеличить исходное изображение, чтобы основная сеть-классификатор смогла проще определить нужный объект. Блок STN может быть помещен в сверточную нейронную сеть (CNN), работая в ней по большей части самостоятельно, обучаясь на градиентах, приходящих от основной сети.



Весь исходный код проекта доступен на GitHub по ссылке. Оригинал этой статьи можно посмотреть на Medium.



Чтобы иметь базовое представление о работе STN, взгляните на 2 примера ниже:

Распознавание дорожных знаков с помощью CNN: Spatial Transformer NetworksСлева: исходное изображение. Справа: то же изображение, преобразованное STN. Spatial transformers распознают наиболее важную часть изображения и затем масштабируют или вращают его, чтобы сфокусироваться на этой части.

Категория: Программирование » Веб-разработка

 

Победа в номинации «лучший стартап с перспективой выхода на американский рынок», Spb Startup Day 2017 и мысли про питчи

Автор: admin от 6-10-2017, 21:40, посмотрело: 42

Победа в номинации «лучший стартап с перспективой выхода на американский рынок», Spb Startup Day 2017 и мысли про питчи


В начале сентября в Петербурге прошёл Spb Startup Day 2017. Событие интересное как минимум для всех, кто связан с тематикой стартапов или хотя бы думает, что связан. В этой статье я расскажу про свои впечатления от мероприятия, а заодно поделюсь успехами нашего стартапа JEvents — победой в номинации «лучший стартап с перспективой выхода на американский рынок» с призом в виде поездки в Нью-Йорк и не только…

Категория: Программирование » Веб-разработка

 

Кому нужны флексы

Автор: admin от 6-10-2017, 21:40, посмотрело: 39

Кому нужны флексы

Кому нужны флексы, если на них не делают сайты?

Делают, 12% сайтов уже используют флексы. А нужны они всем нам, чтобы было удобнее верстать.

Давайте разберёмся.

Категория: Программирование » Веб-разработка

 

Необразованная молодежь: да, еще один пост с точки зрения школьника

Автор: admin от 6-10-2017, 18:10, посмотрело: 52

Воззап



Тема для меня очень актуальная. Я школьник, учусь в 11 классе, занимаюсь программированием большую часть своего свободного времени. Сначала предыстория, чтобы обозначить мое положение в мире IT, обучения, работы и по списку.

Категория: Программирование

 

Мобильный DevOps. Интервью с Jing Li

Автор: admin от 6-10-2017, 18:10, посмотрело: 53

Мобильный DevOps. Интервью с Jing Li

Так получилось, что инструменты DevOps обычно иллюстрируются на примере CI/CD какого-то масштабного веб-сервиса. Отчасти так получилось по историческим причинам, отчасти свою роль сыграли замечательные книги типа Google SRE Book.



К черту, давайте посмотрим на что-нибудь действительно новое. На Mobius 2017 к нам приезжает Jing Li из Viacom, с докладом «Android meets Docker».



Накануне конференции удалось найти несколько минут в его плотном графике и задать пару вопросов. В этом интервью Jing рассказывает о DevOps в мобильной разработке, приводит примеры задач и дает конкретные рекомендации по улучшению вашего DevOps процесса.

Категория: Программирование

 

Единый репозиторий для управления Enterprise Architecture

Автор: admin от 6-10-2017, 18:10, посмотрело: 51

Моя история не для всех. В том смысле, что тема не хайповая. Но тем, кто в теме, надеюсь, будет интересно. Она (история) основана на реальном опыте последних лет. Я расскажу об одном из вариантов — с моей точки зрения, эффективном, — управления сложным архитектурным ландшафтом.



Что я подразумеваю под «сложным»: это несколько сотен бизнес-приложений с довольно внушительной дисперсией атрибутов — технологии, разнородность функциональности, связанность с другим приложениями, критичность, возраст, размер и так далее. Добавьте сюда динамику, поскольку ландшафт неустанно меняют несколько десятков внутренних и внешних команд. Иными словами — самый отпетый, или, на устойчивом жаргоне, «кровавый» энтерпрайз.

Категория: Программирование

 

Геометрия данных 2. Ди- и би-координаты точек и векторов

Автор: admin от 6-10-2017, 18:10, посмотрело: 44

Статья является продолжением серии о системах координат на точечном базисе. Базис представляет собой вершины симплекса или графа с известными значениями двух взаимных метрических тензоров — дистанционного (ДМТ) и лапласовского (ЛМТ). В первой статье описаны свойства данных тензоров. Здесь покажем, что представляют собой координаты точек.



Геометрия данных 2. Ди- и би-координаты точек и векторов


Дистанционные координаты



Для лапласовского метрического тензора (ЛМТ) координатами, описывающими точку в пространстве, являются дистанционные координаты. Данные координаты представляют собой объединение скалярной единицы и значений отрицательных полудистанций от точки до реперов — вершин базисного симплекса или графа. Для краткости будем именовать их ди-координатами.

Категория: Программирование

 

Вести с полей больших и умных данных: программа конференции SmartData 2017 Piter

Автор: admin от 6-10-2017, 18:10, посмотрело: 68

В 2016/2017 годах мы обнаружили, что на каждой из наших конференций есть 1-3 доклада о Big Data, нейросетях, искусственном интеллекте или машинном обучении. Стало понятно, что под эту тему можно собрать хорошую конференцию, о чём я сегодня вам и расскажу.



Вкусно: мы решили собрать под одной крышей учёных, инженеров-практиков, архитекторов и сделать упор на технологии — казалось бы, обычное дело, но нет.



Сложно: копнув глубже, можно увидеть, что отдельными вопросами все занимаются не сообща, а врозь.



Учёные строят нейросети в теории, архитекторы делают распределённые системы для корпораций с целью обработки огромных потоков данных в реальном времени, без конечной цели унифицировать к ним доступ, инженеры-практики пишут под это всё софт для сугубо узких задач, которые потом нереально перенести на что-то другое. В общем, каждый копает свою грядку и не лезет к соседу… Так? Да нет же!



На деле: Все занимаются частью общего. Как сама Smart Data (а «умные данные» — это очень узкий перевод) по природе своей, так и те, кто с ней работает, по сути, делают распределённую сеть различных наработок, которые могут создавать порой неожиданные сочетания. Это и формирует фундамент Умных данных в своей красоте и практической значимости.



Итак, что это за кусочки паззла и кто их создает, можно будет посмотреть и даже обсудить с создателями на конференции SmartData 2017 Piter 21 октября 2017. Подробности под катом.



Вести с полей больших и умных данных: программа конференции SmartData 2017 Piter




Дальше будет много букв, мы же за большие и умные данные, хотя исторически анонс подразумевает быстрый и ёмкий текст, краткий и точный, как выстрел снайпера в ясную летнюю ночь.

Категория: Программирование

 
Назад Вперед