Анализ файлов robots.txt крупнейших сайтов

Автор: admin от 6-11-2017, 21:25, посмотрело: 44

Robots.txt указывает веб-краулерам мира, какие файлы можно или нельзя скачивать с сервера. Он как первый сторож в интернете — не блокирует запросы, а просит не делать их. Интересно, что файлы robots.txt проявляют предположения веб-мастеров, как автоматизированным процессам следует работать с сайтом. Хотя бот легко может их игнорировать, но они указывают идеализированное поведение, как следует действовать краулеру.



По существу, это довольно важные файлы. Так что я решил скачать файл robots.txt с каждого из 1 миллиона самых посещаемых сайтов на планете и посмотреть, какие шаблоны удастся обнаружить.



Я взял список 1 млн крупнейших сайтов от Alexa и написал маленькую программу для скачивания файла robots.txt с каждого домена. После скачивания всех данных я пропустил каждый файл через питоновский пакет urllib.robotparser и начал изучать результаты.



Анализ файлов robots.txt крупнейших сайтов
Найдено в yangteacher.ru/robots.txt

Категория: Компании » Яндекс

 

Создаём собственный физический 2D-движок

Автор: admin от 6-11-2017, 18:05, посмотрело: 41

Создаём собственный физический 2D-движок




Часть 2: ядро движка



В этой части статьи мы добавим к разрешению импульсов силы другие функции. В частности, мы рассмотрим интегрирование, метки времени, использование в коде модульной архитектуры и распознавание коллизий в широкой фазе.





Введение



В предыдущем посте я рассмотрел тему разрешения импульсов силы. Прочитайте сначала его, если вы ещё это не сделали!



Давайте углубимся в темы, рассмотренные в этой статье. Все эти темы необходимы для любого более-менее достойного физического движка, поэтому настало время для создания новых функций поверх основы, заложенной в предыдущем посте.

Категория: Программирование

 

Попробуем оценить Kubernetes

Автор: admin от 6-11-2017, 18:05, посмотрело: 54

Привет, Хабр!



Попробуем оценить Kubernetes Некоторое время мы присматриваемся к книгам по Kubernetes, благо, они уже выходят и в Manning, и в O'Reilly. Можно согласиться, что Kubernetes в наших краях пока интересен скорее с ознакомительной и инженерной, нежели с практической точки зрения. Однако, мы все-таки поставим здесь обложку с книги о Kubernetes и перевод статьи Дэниэла Морсинга, который сделал у себя в блоге интересный тизер об этой системе.



Приятного чтения!

Категория: Программирование

 

Как я научился перезагружаться в нужную ОС через UEFI

Автор: admin от 6-11-2017, 17:15, посмотрело: 39

Добрый вечер, Habrahabr,

Сегодня мы научимся перезагружаться из Linux прямиком в Windows и обратно всего за один (двойной) клик.

Как я научился перезагружаться в нужную ОС через UEFI

Категория: Windows, Linux

 

За что я люблю именно Mithril (он же MithrilJS)

Автор: admin от 6-11-2017, 16:30, посмотрело: 36

Здравствуйте, дорогие читатели. Если вы открыли этот пост, значит, паутинная разработка переднего края (то есть, веб фронтэнд девелопмент, я хотел сказать) трогает вас за живое. И прежде, чем вы начнете кидать помидоры благодарить рассказчика, прошу дочитать… хотя бы до середины.



На написание статьи меня подтолкнули простые причины: идет война за сердца и умы разработчиков, и многие уважаемые софтверные гиганты считают своей обязанностью облегчить участь девелопера (что хорошо, кстати). При этом не стесняясь сломать ему мозг и нервную систему (а вот это не очень). Так сказать, во имя счастья будущих поколений. Может быть, я ошибаюсь, но хочу поделиться с вами информацией об инструменте, который достаточно давно открыл для себя и с тех пор не ем кактусы, как те мыши: Mithril (MithrilJS).

Категория: Программирование

 

Видео на электронной книжке. Попытка использовать е-ink reader в качестве второго монитора в linux

Автор: admin от 6-11-2017, 16:30, посмотрело: 39

Данное сочинение навеяно вот этой публикацией за 2012 год, в которой изложен отличный способ избежать покупки пока единственного существующего в мире usb-монитора на жидких чернилах очень высокой стоимости. Марку, модель и цену озвучивать не буду, да и времени добавление звукового файла к статье много отнимет. Если читать историю ночных экспериментов желания нет, то в конце страницы есть видео с результатом.



Видео на электронной книжке. Попытка использовать е-ink reader в качестве второго монитора в linux

Категория: Программирование

 

ScadaPy — использование OPC UA

Автор: admin от 6-11-2017, 16:30, посмотрело: 57

В предыдущих нескольких статьях, мною были описаны возможности применения протокола modbus для создания собственной Scada системы на базе python. В этот раз хочется поделиться опытом построения системы опроса подчиненных устройств с использованием ОРС технологии.

Недостатки OPC серверов в том, что их можно использовать только в операционных системах семейства Microsoft Windows (как правило они платные), а об устройствах использующих ОС Linux можно было забыть.



Но со временем была создана спецификация OPC Unified Architecture (англ. Унифицированная архитектура OPC), что дало возможность использовать данную технологию передачи данных на иных операционных системах отличных от Windows. Это касается и встраиваемых систем, где может быть запущен полноценный Linux.



Подробнее можно прочитать здесь.

Категория: Программирование

 

IBM применили вычисления в памяти для машинного обучения

Автор: admin от 6-11-2017, 16:30, посмотрело: 33

Исследователи из IBM Research продемонстрировали успешную работу алгоритма машинного обучения без учителя, запущенного на PCM-устройствах (phase-change memory). Этот метод оказался в 200 раз быстрее и энергоэффективнее, чем традиционные вычисления по модели фон Неймана. Согласно заявлению IBM, технология подходит для создания высокоплотных массово-параллельных систем с низким энергопотреблением для использования в области ИИ.



IBM применили вычисления в памяти для машинного обучения

Категория: Программирование

 

DotNext + SpbDotNet + MskDotNet

Автор: admin от 6-11-2017, 16:30, посмотрело: 33

DotNext + SpbDotNet + MskDotNet



DotNet-коммьюнити снова на связи. Спешу сообщить, что коммьюнити .NET по-прежнему живут и развиваются! Поскольку все уже и так знают про наши .NET сообщества, не будем растекаться мыслью по древу, а перейдём сразу к делу!



Преждем чем проанонсировать новые меропириятия MskDotNET и SpbDotNet, хотелось бы сказать несколько слов о связи старшего брата — DotNext и локальных коммьюнити. Поехали!

Категория: Программирование

 

Как я нашел уязвимости в системе баг-трекинга Google и получил $15,600

Автор: admin от 6-11-2017, 13:05, посмотрело: 37

Вы когда-нибудь слышали о Google Issue Tracker? Наверное, нет, если вы не являетесь сотрудником Google или разработчиком, который недавно сообщил о проблемах в инструментах Google. И я тоже не знал, пока не заметил, что мои сообщения об уязвимостях теперь обрабатываются, путем открытия нового обсуждения, помимо обычных уведомлений по электронной почте.



Поэтому я сразу начал пытаться взломать его.



Как я нашел уязвимости в системе баг-трекинга Google и получил $15,600



Так что же это за сайт? Согласно документации, Tracker Issue (также называемая Buganizer System) — это инструмент, используемый компанией Google для отслеживания ошибок и запросов о добавление новых фич во время разработки продукта. Он доступен за пределами Google для использования общественностью и пользователями-партнерами, которым необходимо сотрудничать с командой Google по конкретным проектам.



Другими словами, когда у кого-то проблема (issue) с продуктом Google, он идет в баг-трекер. Имеет смысл, не так ли? Мы, как внешние пользователи, видим только верхушку айсберга: небольшой набор предварительно одобренных категорий и проблем, связанной с добавлением сотрудником Google внешней учетной записи, например, сообщения об уязвимостях. Но сколько информации лежит под поверхностью?



Как я нашел уязвимости в системе баг-трекинга Google и получил $15,600


Наблюдая за ID, назначенных на последние опубликованные баги, мы можем легко оценить, сколько применения этот инструмент получает изнутри. В рабочие часы в Mountain View открывается около 2000-3000 проблем за час. Похоже, утечка данных из этой системы будет иметь большую ценность. Давайте взломаем ее!

Категория: Компании » Google

 
Назад Вперед