Перевод книги Эндрю Ына «Страсть к машинному обучению» Главы 20 — 22

Автор: admin от 19-08-2018, 21:50, посмотрело: 107

предыдущие главы



20 Систематические и случайные: Два основных источника ошибок



Предположим, ваша тренировочная, валидационная и тестовая выборки имеют одно и то же распределение. Тогда нужно брать больше данных для обучения, это только улучшит качество работы алгоритма, верно ли это?



Несмотря на то, что получение большего количества данных не может повредить работе, к сожалению, новые данные не всегда помогают настолько, насколько можно ожидать. В некоторых случаях работа по получению дополнительных данных может оказаться пустой тратой усилий. Как принять решение — в каких случаях добавлять данные, а когда не стоит об этом беспокоиться.



В машинном обучении присутствуют два главных источника ошибок: систематические и случайные (Variance) (дисперсионные). Понимание того, что они из себя представляют поможет вам решить — нужно ли добавлять еще данные, так же поможет выбрать тактику по улучшению качества работы классификатора.



замечание переводчика Variance переводится, как дисперсия или отклонение. Но я буду использовать не «дисперсию» или «дисперсионную ошибку», а более свойственное русскоязычной технической литературе определение «случайной ошибки». К тому же дисперсия в теории вероятностей и статистике имеет очень конкретный математический смысл и формальное выражение, которое еще дальше от значения, вкладываемого в это понятие автором.



Предположим, вы надеетесь построить кошачий распознователь, имеющий 5% ошибок. На текущий момент ошибка вашего классификатора на тренировочной выборке 15%, на валидационной выборке 16%. В таком случае добавление тренировочных данных вряд ли поможет существенно увеличить качество. Вы должны сконцентрироваться на других изменениях системы. В действительности, добавление большего количества примеров в вашу тренировочную выборку только усложнит для вашего алгоритма получение хорошего результата на этой выборке (почему так получается будет объяснено в следующих главах).

Категория: Game Development

 

Построение рекомендаций для сайта вакансий. Лекция в Яндексе

Автор: admin от 14-08-2017, 11:45, посмотрело: 442

В последнее время мы много пишем о конкурсах по машинному обучению, в основном рассматривая их с точки зрения участников. Но организовать и правильно провести соревнование — тоже сложная задача. Компании учатся на своих ошибках и в следующие разы меняют структуру конкурсов. Например, RecSys Challenge 2017 с учётом опыта прошлых лет провели в два последовательных этапа. Андрей Остапец из компании Avito рассказывает об этих этапах, о различных признаках, основанных на истории поведения пользователей, и о том, всегда ли нужно использовать сложные модели для решения задачи. Команда Андрея заняла в RecSys Challenge седьмое место.




->

Категория: Программирование, Яндекс

 

Pygest #15. Релизы, статьи, интересные проекты из мира Python [01 августа 2017 — 14 августа 2017]

Автор: admin от 14-08-2017, 10:25, посмотрело: 330

Pygest #15. Релизы, статьи, интересные проекты из мира Python [01 августа 2017 — 14 августа 2017] Всем привет! Это уже пятнадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.



В сегодняшнем выпуске вы найдёте интересные материалы, касающиеся Django, машинного обучения, алгоритмов, внутреннего устройства Python и многого другого. Присылайте свои актуальные материалы, а также любые замечания и предложения, которые будут добавлены в ближайший дайджест.



А теперь к делу!
Перейти к дайджесту

Категория: Программирование, Веб-разработка

 

Метод оптимизации Trust-Region DOGLEG. Пример реализации на Python

Автор: admin от 13-08-2017, 08:25, посмотрело: 653

Метод оптимизации Trust-Region DOGLEG. Пример реализации на Python


Trust-region метод (TRM) является одним из самых важных численных методов оптимизации в решении проблем нелинейного программирования (nonlinear programming problems). Метод базируется на определении региона вокруг лучшего решения, в котором квадратичная модель аппроксимирует целевую функцию.



Методы линейного поиска (line search) и методы trust-region генерируют шаги с помощью аппроксимации целевой функции квадратичной моделью, но использую они эту модель по-разному. Линейный поиск использует её для получения направления поиска и дальнейшего нахождения оптимального шага вдоль направления. Trust-region метод определяет область (регион) вокруг текущей итерации, в котором модель достаточно аппроксимирует целевую функцию. В целях повышения эффективности направление и длина шага выбираются одновременно.



Trust-region методы надежны и устойчивы, могут быть применены к плохо обусловленным задачам и имеют очень хорошие свойства сходимости. Хорошая сходимость обусловлена тем, что размер области TR (обычно определяется модулем радиус-вектора) на каждой итерации зависит от улучшений сделанных на предыдущих итерациях.
->

Категория: Программирование

 

Как угодить кинозрителю и не потерять деньги: составляем план закупок при помощи ML

Автор: admin от 11-08-2017, 09:35, посмотрело: 167

Как угодить кинозрителю и не потерять деньги: составляем план закупок при помощи ML



Еще одна статья от лица участника школы о проекте, реализованном в рамках очередной выезда:



«Я – Дмитрий Пасечнюк, и я хочу поделиться своим исследованием, сделанном на каникулах в рамках выездной весенней смены Школы GoTo под руководством Александра Петрова, asash, технического директора компании E-Contenta.



Как нам известно, онлайн-кинотеатры достаточно распространены и способны приносить неплохой доход. Но, как и в любом бизнесе, это не происходит само по себе. Одним из важных условий успешности онлайн-кинотеатра является грамотное составление предложений для просморта.

В каждом кинотеатре, будь то онлайн или реальный кинотеатр, есть сотрудник, занимающийся репертуарным планированием. Именно он определяет, какие фильмы будут показывать на экранах. Кинопрокатный процесс имеет свои подводные камни. Для того, чтобы выбрать удачный фильм, требуется учесть не только стоимость покупки прав, но и тысячу других нюансов. Системы отбора фильмов, как таковой не существует и зачастую фильмы выбираются, опираясь на собственное «чутье», рейтинг ожидания и экспертное мнение.



Принятие ответственного решения – тяжелое моральное бремя для человека, с одной стороны, с другой — всегда существуют риски излишнего влияния личностных и ситуационных факторов на принимаемое решение.



Современные технологии призваны облегчить труд людей, и в данном случае ожидания оправданы.



В своем исследовании я попробовал переложить задачу ранжирования фильмов в соответствии с ожиданиями целевой аудитории онлайн-кинотеатра с человека на машину. Безусловно, в общей постановке эта задача более сложная, и данное решение является только первым шагом. В дальнейшем я планирую продолжить исследования в этом направлении.



Обо всем по порядку под катом.
->

Категория: Программирование

 

Как искусственный интеллект может спасти email

Автор: admin от 10-08-2017, 16:10, посмотрело: 230

Как искусственный интеллект может спасти email

Электронная почта с одной стороны остается популярным средством коммуникации, с другой — именно при работе с email очень остро встает вопрос информационной перегрузки. Люди получают десятки и сотни писем, архивы переписки состоят из тысяч бесед. Часто разобраться во всем этом многообразии нет никаких сил, а значительная часть приходящей корреспонденции — это мусор, который никто не хочет получать и на который никогда не последует ответа.



Это приводит к тому, что некоторые пользователи — особенно молодежь — все меньше пользуются электронной почтой. Кажется, что будущее email под угрозой из-за развития чат-ботов и мессенджеров, но возможно, у этой технологии еще есть шанс решить свои проблемы. И помочь в этом может искусственный интеллект (AI). ->

Категория: Программирование » Веб-разработка

 

Сколько стоит перевести Хабр?

Автор: admin от 10-08-2017, 15:10, посмотрело: 259

Привет, Хабр! Мы с ребятами из Smartcat решили сойти с ума и попробовать перевести на английский все посты, которые были опубликованы здесь до 19 июля 2017 года, а потом оценить, сколько это будет стоить в среднем, если будет переводить Человек VS Машина. Под катом вы узнаете, что у нас из этого получилось.



Сколько стоит перевести Хабр? ->

Категория: Компании » Microsoft

 

Ускорьте ваш сайт с помощью машинного обучения

Автор: admin от 8-08-2017, 10:15, посмотрело: 250

Ускорьте ваш сайт с помощью машинного обучения



Многие из нас постоянно думают о производительности веб-приложений: добиваются 60 FPS на медленных телефонах, загружают свои ассеты в идеальном порядке, кэшируют всё что можно, и много чего ещё.



Но не является ли такое представление о производительности веб-приложений слишком ограниченным? С позиции пользователя все эти действия — лишь крошечный кусок большого пирога производительности.



В этой статье мы пройдёмся по всем этапам использования сайта, как если бы это делал обычный человек, измерив длительность каждого из них. И особое внимание уделим конкретному шагу на одном конкретном сайте, который может быть ещё больше оптимизирован. Хочется верить, что решение (которым будет машинное обучение) может быть использовано во многих различных случаях на разных сайтах.
->

Категория: Программирование » Веб-разработка

 

R c H2O на Spark в HDInsight

Автор: admin от 7-08-2017, 14:15, посмотрело: 219

R c H2O на Spark в HDInsightH2O – библиотека машинного обучения, предназначенная как для локальных вычислений, так и с использованием кластеров, создаваемых непосредственно средствами H2O или же работая на кластере Spark. Интеграция H2O в кластеры Spark, создаваемые в Azure HDInsight, была добавлена недавно и в этой публикации (являющейся дополнением моей прошлой статьи: R и Spark) рассмотрим построение моделей машинного обучения используя H2O на таком кластере и сравним (время, метрика) его с моделями предоставляемых sparklyr, действительно ли H2O киллер-приложение для Spark?

да, но это не точно

Категория: Компании » Microsoft

 

Истинная реализация нейросети с нуля на языке программирования C#

Автор: admin от 7-08-2017, 12:45, посмотрело: 309

Истинная реализация нейросети с нуля на языке программирования C#


Здравствуй, Хабр! Данная статья предназначена для тех, кто приблизительно шарит в математических принципах работы нейронных сетей и в их сути вообще, поэтому советую ознакомиться с этим перед прочтением. Хоть как-то понять, что происходит можно сначала здесь, потом тут.


Недавно мне пришлось сделать нейросеть для распознавания рукописных цифр(сегодня будет не совсем её код) в рамках школьного проекта, и, естественно, я начал разбираться в этой белиберде теме. Посмотрев приблизительно достаточно об этом в интернете, я понял чуть более, чем ничего. Но неожиданно(как это обычно бывает) получилось наткнуться на книгу Саймона Хайкина(не знаю почему раньше не загуглил). И тогда началось потное вкуривание матчасти нейросетей, состоящее из одного матана.

Категория: Программирование

 
Назад Вперед