Не защищайте сайт от скрапинга: сопротивление бесполезно

Автор: admin от 12-04-2018, 15:30, посмотрело: 27

За последнее десятилетие я реализовал много проектов, связанных с агрегацией и анализом контента. Часто агрегация включает в себя снятие данных со сторонних сайтов, то есть скрапинг. Хотя я стараюсь избегать этого термина. Он превратился в некий ярлык, с которым связано много заблуждений. Основное заблуждение в том, что веб-скрапинг можно заблокировать с помощью X, Y, Z.



tl; dr; Нельзя.



С точки зрения бизнеса



На прошлой неделе я встретился с высокопоставленным руководителем из отрасли, в которой развиваю свой бизнес GO2CINEMA. Без сомнения, это один из самых умных и знающих людей в киноиндустрии.



Бизнес-модель GO2CINEMA основана на агрегировании из разных источников информации о расписании сеансов, свободных местах и стоимости билетов, а также выполнении запросов на покупку билетов на этих веб-сайтах от имени пользователя.



Я посоветовался с этим человеком насчёт поиска инвестиций. Он предложил свою помощь и попросил подготовить анализ всех способов блокировки моего текущего бизнеса, включая скрапинг контента (с технической и юридической точек зрения). Я подготовил необходимые документы и поделился с ним перед нашей встречей. Его реакция была примерно такой:



Да, тщательное исследование. Но всё-таки есть способы, чтобы тебя заблокировать. *ухмыляется*


Нет, парень, нет таких способов.

Категория: Программирование » Веб-разработка

 

Стартап дня (январь-март 2018-го)

Автор: admin от 12-04-2018, 11:10, посмотрело: 18

Стартап дня (январь-март 2018-го)

Продолжая серию дайджестов «Стартап дня», сегодня я представляю самые интересные проекты за ноябрь. Если хотите ознакомиться с остальными, то прошу в мой блог. Записи доступны в VK, Facebook, ICQ и Телеграм.

Категория: Программирование » Веб-разработка

 

Почта Mail.Ru проведет первый ML-хакатон SmartMail Hack 2018

Автор: admin от 12-04-2018, 11:10, посмотрело: 20

Почта Mail.Ru проведет первый ML-хакатон SmartMail Hack 2018

Почта Mail.Ru анонсирует свой первый официальный хакатон SmartMail Hack 2018 по машинному обучению. Мероприятие для студентов IT-специальностей пройдет с 20 по 22 апреля в московском офисе Mail.Ru Group.

Категория: Программирование » Веб-разработка

 

Последняя версия обновлений для наших суперспособностей. Рецензия на книгу Дэна Роэма «Рисуй, чтобы победить»

Автор: admin от 12-04-2018, 11:10, посмотрело: 22

Зрение — ваша суперспособность. Вы уже обладаете всеми необходимыми инструментами, устройство у вас с рождения, а программное обеспечение включилось, как только вы впервые разомкнули веки. Теперь нужно установить обновления.
Так заканчивается новая книга Дэна Роэма "Рисуй, чтобы победить: проверенный способ руководить, продавать, изобретать и обучать". Её идея в том, что современное общение преимущественно визуально. И для того, чтобы общаться эффективно, нужно знать и использовать законы визуального мышления.



Из названия ясно, что книга будет полезна всем, кто руководит, продает, обучает. Хотя её можно адресовать вообще всем, кто мыслит и делится идеями с другими людьми: доступно описан процесс человеческого мышления и способы опоры на него в любой коммуникации.



Последняя версия обновлений для наших суперспособностей. Рецензия на книгу Дэна Роэма «Рисуй, чтобы победить»

Перестаньте думать о рисовании как о художественном процессе. Это мыслительный процесс. Если вы хотите четче воспринять идею, нарисуйте её.

Категория: Программирование » Веб-разработка

 

Управляем копированием атрибутов Active Directory при дублировании пользовательских аккаунтов

Автор: admin от 12-04-2018, 11:10, посмотрело: 21

Управляем копированием атрибутов Active Directory при дублировании пользовательских аккаунтов

Во многих компаниях используются дополнительные атрибуты Active Directory, которые копируются вместе с дублированием учетной записи пользователя. Но есть масса примеров, когда это неудобно. Поэтому в этой статье я расскажу, как избежать такого поведения или изменить его под свои нужды.

Категория: Программирование » Веб-разработка

 

Обзор библиотеки react-testing-library

Автор: admin от 12-04-2018, 11:10, посмотрело: 21

В материале, перевод которого мы публикуем сегодня, Кент Доддс рассказывает о библиотеке собственной разработки для тестирования React-приложений, react-testing-library, в которой он видит простой инструмент, способный заменить enzyme и способствующий написанию качественных тестов с применением передовых наработок в этой области.



Обзор библиотеки react-testing-library



Автор материала говорит, что давно размышлял о чём-то подобном, и в итоге, примерно в середине прошлого месяца, решил
заняться разработкой библиотеки для тестирования, которая его устраивала бы. В частности, в enzyme ему не нравилось то, что большинство возможностей этой библиотеки склоняют разработчика к не самым лучшим методам подготовки тестов, которые способны навредить проекту. В результате у него получился простой, но самодостаточный набор инструментов для тестирования React DOM.

Категория: Программирование » Веб-разработка

 

Разработка AI для пошаговой игры на Node.js (часть 2)

Автор: admin от 12-04-2018, 03:25, посмотрело: 32

И снова здравствуйте, друзья!



Не так давно я поделился с вами своим опытом применения нейронной сети для для решения задачи выбора действия ботом. Чтобы подробнее узнать о сути задачи, пожалуйста, ознакомьтесь с первой частью статьи.



А я перейду к рассказу о следующем этапе работы!

Категория: Программирование » Веб-разработка

 

Обнаружена уязвимость в панели управления хостингом Vesta CP

Автор: admin от 11-04-2018, 21:20, посмотрело: 31

В некоторых своих предыдущих статьях мы уже рассказывали о бесплатной панели управления Vesta CP. Сегодня утром мы получили тревожную информацию — в панели есть критическая уязвимость, позволяющая злоумышленникам получить доступ к серверу и производить с него DDoS атаки либо рассылать спам, что часто приводит к перерасходу трафика. Известные на текущий момент подробности, а также советы по защите чистого и очистке взломанного сервера, под катом.



Обнаружена уязвимость в панели управления хостингом Vesta CP

Категория: Программирование » Веб-разработка

 

Приложения, достигшие самосознания: автоматизированная диагностика в продакшне

Автор: admin от 11-04-2018, 16:40, посмотрело: 20

Путь к постижению Дзена начинается с разработки приложений, которые могут мониторить сами себя — это позволяет проще и дешевле чинить проблемы на продакшне. В этой статье мы увидим, как современные Windows-приложения могут делать самомониторинг, самодиагностику, и возможно — даже самовосстановление, и всё это — без необходимости иметь внешний агент или тупо перезапускать приложение. Обуздав мощь ETW для точного низкоуровневого мониторинга, счетчики производительности Windows для получения бесплатной по ресурсам статистики и библиотеку CLRMD для анализа собственных потоков, объектов в куче и локов, можно продвинуться по пути достижения самосознания. Всё это будет продемонстрировано на серии демок: автоматический профайлинг CPU, исследование загруженных тредов и стеков, автоматический мониторинг GC (включая выделения объектов), автоматический анализ кучи в целях поиска утечек памяти и многое другое. Дочитав статью до конца, вы получите набор инструментов и техник для реализации самомониторинга в своих собственных приложениях.



Основой статьи является доклад Дины Гольдштейн «Self-aware applications: automatic production monitoring» на DotNext 2017 Moscow. Слайды можно скачать по ссылке.



Категория: Программирование

 

Proof-of-Proof-of-Work на пальцах. На пути к разумному блокчейну

Автор: admin от 11-04-2018, 16:40, посмотрело: 22

Блокчейн-протоколы должны обеспечивать консенсус среди нод децентрализованной системы. Пожалуй, самым известным алгоритмом консенсуса можно считать «тормозунутый, но надежный, потому что тормознутый» алгоритм Proof-of-Work: каждая нода, имея набор новых транзакций перебирает некоторое число nonce, являющееся полем блока. Блок считается валидным, если валидны все транзакции внутри него и хэш-функция от заголовка блока имеет некоторую общепринятую особенность (например, количество нулей в начале, как в Bitcoin):



code_0

Как известно, блокчейн — это цепочка блоков. Цепочкой он является потому, что внутри каждого блока записан id (как правило хэш от заголовка) предыдущего блока. Для последующих рассуждений блокчейн в упрощенном виде можно представить так:



Proof-of-Proof-of-Work на пальцах. На пути к разумному блокчейну

Категория: Программирование