Анализ статей Хабрахабр и Geektimes

Автор: admin от 5-02-2017, 22:30, посмотрело: 788

Анализ статей Хабрахабр и Geektimes

Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github.

Результаты обработки данных


Анализ хабов


Распределение количества хабов, в которых размещена статья:

Анализ статей Хабрахабр и Geektimes


Самые большие хабы по количеству статей:

Анализ статей Хабрахабр и Geektimes


Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Анализ статей Хабрахабр и Geektimes


Граф связей не делала, т.к. не собирала список хабов отдельно.

Количество статей в зависимости от времени


В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.

Количество постов за месяц:

Анализ статей Хабрахабр и Geektimes


За год:

Анализ статей Хабрахабр и Geektimes


В хабе «Математика»:

Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Хаб «Космонавтика»:

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes


Хаб «Хабрахабр»:

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes


Количество изображений (видео), используемых в постах в зависимости от времени


Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes


И в отдельных хабах:

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes


Облака ключевых слов и отдельных хабов


Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes


Хаб «Математика»:

Анализ статей Хабрахабр и Geektimes


Хаб «Программирование»:

Анализ статей Хабрахабр и Geektimes


Хаб «Java»:

Анализ статей Хабрахабр и Geektimes


Хаб «Open source»:

Анализ статей Хабрахабр и Geektimes


Хаб «Машинное обучение»:

Анализ статей Хабрахабр и Geektimes


Сайты, на которые ссылаются в статьях


Анализ статей Хабрахабр и Geektimes


Убираем Хабрахабр как источник ссылок:

Анализ статей Хабрахабр и Geektimes


В хабе «Математика» (без Хабрахабра как источника ссылок):

Анализ статей Хабрахабр и Geektimes


Хаб «Разработка под iOS»:

Анализ статей Хабрахабр и Geektimes


Хаб ".NET":

Анализ статей Хабрахабр и Geektimes


Коды, которые приводят в статьях


Без SomeCode (если не указан язык программирования):

Анализ статей Хабрахабр и Geektimes


В хабе «Алгоритмы»:

Анализ статей Хабрахабр и Geektimes


В хабе «Программирование»:

Анализ статей Хабрахабр и Geektimes


В хабе «Настройка Linux»:

Анализ статей Хабрахабр и Geektimes


В хабе «Машинное обучение»:

Анализ статей Хабрахабр и Geektimes


Частота встречаемости слов


Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes


В хабе «Разработка под iOS»

Анализ статей Хабрахабр и Geektimes


В хабе «Разработка под Android»:

Анализ статей Хабрахабр и Geektimes


Частота употребления названий операционных систем в хабе «Open source»:

Анализ статей Хабрахабр и Geektimes


И на Хабрахабре/Geektimes:

Анализ статей Хабрахабр и Geektimes


Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений



Анализ статей Хабрахабр и Geektimes
Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes
Анализ статей Хабрахабр и Geektimes


Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.

Математическое ожидание: {25.6067, 13487.2}

Среднеквадратическое отклонение: {35.9361, 28783.9}

Вероятность, того, что пост наберет определенный рейтинг:

Анализ статей Хабрахабр и Geektimes


Вероятность, того, что пост наберет определенное число просмотров:

Анализ статей Хабрахабр и Geektimes


Зависимость рейтинга и числа просмотров поста от времени публикации


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Анализ статей Хабрахабр и Geektimes


Зависимость рейтинга поста от его объема


Анализ статей Хабрахабр и Geektimes
Анализ статей Хабрахабр и Geektimes

Анализ статей Хабрахабр и Geektimes
Анализ статей Хабрахабр и Geektimes


Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.

Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:

Анализ статей Хабрахабр и Geektimes


Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:

Анализ статей Хабрахабр и Geektimes


Посты с максимальным количеством


Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
Комментариев: "Как раздавать инвайты на Google+"
Рейтингом: "Делаем приватный монитор из старого LCD монитора"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
Просмотрами: "Взломать Wi-Fi за… 3 секунды"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
Текста: "Создаем клон Flappy Bird — Zombie Bird"

Источник: Хабрахабр

Категория: Программирование

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Добавление комментария

Имя:*
E-Mail:
Комментарий:
  • bowtiesmilelaughingblushsmileyrelaxedsmirk
    heart_eyeskissing_heartkissing_closed_eyesflushedrelievedsatisfiedgrin
    winkstuck_out_tongue_winking_eyestuck_out_tongue_closed_eyesgrinningkissingstuck_out_tonguesleeping
    worriedfrowninganguishedopen_mouthgrimacingconfusedhushed
    expressionlessunamusedsweat_smilesweatdisappointed_relievedwearypensive
    disappointedconfoundedfearfulcold_sweatperseverecrysob
    joyastonishedscreamtired_faceangryragetriumph
    sleepyyummasksunglassesdizzy_faceimpsmiling_imp
    neutral_faceno_mouthinnocent