Дублирование контента и проектов а РуНете последнее время принимает катастрофические формы. Воруют по полной программе. Одни косметически приглаживают материалы (формулировки меняют, слова и абзацы переставляют), другие не утруждают себя даже этим.
Особенно действия дубликаторов активизировались и стало наглядно проявляться, после введения на Яндексе новых алгоритмов. Надо заметить, что на сегодняшний момент Яндекс — лидер поиска в РуНете. В частности, активное участие принимает фильтр «Ты последний». Из-за его действия дубликаторы вытесняют первоисточники, и занимают их места в поисковой выдаче. Таким положением дел не преминули воспользоваться недобросовестные «бизнесмены».

Появился отдельный вид интернет «бизнеса» — прямое дублирование. Смысл его достаточно прост. Покупают доменное имя очень сходное по написанию с действующим в РуНете проекте. И без лишних раздумий делают прямое проксирование содержимого с сайта оригинала. С одним отличием — подменяют ссылки оригинала на ссылки дубля. Затраты минимальные. Новый проект регистрируют в поисковых системах. И тут в свете последних нововведений от ведущих поисковиков, сайт оригинал может: приклеиться к дублю, понизиться в поисковой выдаче или вообще попасть под раздачу (санкции) поисковиков.

А дальше, видимо, возможны варианты по сайту-дублю:

  • может быть продадут владельцам оригинала;
  • может быть разместят на нем ссылки на конкурентов;
  • ну и конечно могут просто воспользоваться трафиком на дубль (реклама).

Не смотря на дешевизну такого дублирования, проекты могут быть (и должны быть) легко наказаны со стороны первоисточника. Все дело в прямом проксировнии с сайта-оригинала. Фактически сайт первоисточник для нарушителя может выдавать тот контент, который нужно. Вычислить IP нарушителя достаточно просто по статистике запросов. Если дубль использует промежуточные прокси-сервера (хотя такое маловероятно, но возможно) то можно использовать методику идентификаторов и так отследить все IP-шники нарушителя.

Проще всего это сделать на на Rewrite. Главный плюс такого решения прозрачность. Вот пример для .htaccess файла. Разумеется IP-шники надо подставить от дубликатора (определяется по лог-файлам).

RewriteEngine on

# Для дубликаторов.
# Делаем подставную подпапку (в примере spam)
# и туда выкладывем подставные статические файлы
#
# Строчки "RewriteCond  %{REMOTE_ADDR} ^AAA.BBB.CCC.DDD$ [OR]"
# добавляем для всех IP-шников нарушителя,
# последняя строчка без "[OR]"
#
# Если запрашиваемые файлы есть в подпапке
# spam, то выводим их под видом оригинальных
# 123.html -> spam/123.html (прозрачно)
RewriteCond  %{REMOTE_ADDR} ^127.0.0.1$ [OR]
RewriteCond  %{REMOTE_ADDR} ^10.0.0.1$
RewriteCond  %{REQUEST_URI} !^/spam
RewriteCond  %{DOCUMENT_ROOT}/spam%{REQUEST_URI} -f
RewriteRule  ^(.*)$  spam/$1 [L]
# Иначе (так же для дубликаторов),
# динамически вызоваем скрипт на PHP spam/spam.php
# для всех запросов, для которых нет статики в папке spam/*
# и там накручиваем ту логику, какую хотим
RewriteCond  %{REMOTE_ADDR} ^127.0.0.1$ [OR]
RewriteCond  %{REMOTE_ADDR} ^10.0.0.1$
RewriteCond  %{REQUEST_URI} !^/spam
RewriteRule  ^(.*)$  spam/spam.php [L]
# Важно, ссылки в подставных файлах (и в генерируемом
# выводе скрипта) должны быть без указания подставной подпапки
# в нашем случае без /spam (прозрачный редирект)

вот болванка для скрипта в папке /spam/spam.php

<?php
// для теста
echo '<h1>Запрашиваемая страница http://' . $_SERVER['HTTP_HOST'] .
$_SERVER['REQUEST_URI'] . '</h1>';
echo '<h3>Ваш IP ' . $_SERVER['REMOTE_ADDR'] . '</h3>';
// пишем свою логику...
?>

Создаете подпапку, выгружаете туда существующую статическую структуру сайта (включая графику и css) с «обновленным» контентом. Ну, а для всех других запросов — в скрипте пишите свою логику.

Нет комментариев

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *