Но недавно я наткнулся сразу на целую кучу спамных сайтов, которые собирают миллионы посетителей из Яндекса, легко побеждают качественные и авторитетные проекты даже в белых нишах.

кеше на самой странице указано, что статья опубликована 4 ноября 2017. В текущей версии дата публикации — 9 ноября 2017. Сайт явно многократно переопубликовывал статью для манипуляции выдачей Яндекса.
Следующий сайт — ladiesvenue .ru/chebureki-s-myasom-recept-krymskij-ochen-udachnoe-xrustkoe-testo/. В кеше Яндекса есть этот же текст на этом же сайте, но опубликованный 4 дня назад, на это указывает url в кеше ladiesvenue .ru/05-11-2017-sochnye-chebureki-recept-klassicheskij-samyj-vkusnyj-s-foto/. Причем эта страница тоже есть в выдаче по запросу «домашние чебуреки». Почему-то Яндекс не может определить дубликат даже внутри одного сайта. По закавыченному куску текста находятся еще сразу несколько аналогичных сайтов.
Следующий — poleznue-soveti .ru/chebureki-s-myasom-udacshnoe-testo.html. По закавыченному куску текста Google находит полную копию этой статьи, но на другом сайте, проиндексированную 11 дней назад. Яндекс тоже проиндексировал эту страницу, но все равно считает, что свежий дубликат актуальнее других сайтов.
С mywomenblog .ru/chebureki-s-myasom-recept-ochen-udachnoe-xrustkoe-testo-36187/ аналогичная ситуация, находится закешированный текст другого сайта, тоже проиндексированный 11 дней назад.
Эти сайты размещают свой и чужой ранее опубликованный контент под новыми датами, компилируют из нескольких чужих статей новую статью. Но по другим запросам встречаются и совсем патологические ситуации — страницы со сгенерированным бессмысленным текстом, например, такие:
healtherbal .ru/news/klassicheskaya-vozdushnaya-sharlotka-s-yablokami-b-retsept-b-s-foto-vsyo-chto-izvestno.html
jurnal24 .ru/vkusnaya-sharlotka-s-yablokami-prostoj-recept-vsyo-chto-izvestno-na-dannyj-moment/

Как они это делают?
Мне не удалось найти повторяющихся признаков в верстке таких сайтов. Некоторые применяют только микроразметку, некоторые — просто явным образом указывают дату публикации, некоторые комбинируют оба способа.
Не удалось найти подтверждений, что Яндекс выводит эти страницы ориентируясь на ссылки с других сайтов, у большинсства страниц их нет.
Единственная закономерность помимо актуальной даты — в основном выходят сайты, которые занимаются добыванием только такого трафика. Возможно, наличие большого количества страниц релевантных псевдо-новостным запросам является позитивным сигналом для Яндекса.
Похоже, что достаточно просто собрать подходящие запросы, выбрать под них релевантные статьи других проектов и с нескольких сайтов публиковать их под разными URL, указывая текущее время и дату публикации. Возможно, один текст можно опубликовать ограниченное число раз, я встречал не так много копий. Они в основном обнаруживались в Google, не в Яндексе. Скорее всего для максимизации результата, сайты публикуют их в оптимальное время перед пиками дневного трафика в выбранной нише.
По ряду запросов, этим сайтам удается обмануть и Яндекс Новости, выдавая рецепты за новости:

Вспомнил, что еще в марте знакомый мне рассказывал о том, что выдачу по рецептам заполоняют страницы с текущей датой публикации, но не придал этому значению. Судя по трендам посещаемости встреченных мною сайтов, проблема существует минимум несколько лет.
На прошлой неделе я отправил жалобу на поисковой спам, надеюсь, что сотрудники Яндекса обратят на нее внимание.
Источник: Хабрахабр