Категории курсов

Поисковый спам: понятие и классификация

С каждым днем все большее количество людей полагается на поиск информации в Интернете. Это - в свою очередь - делает влияние Сети очень высоким, что может принести хорошую прибыль тем организациям, которые знают, как извлечь из этого пользу.

Наибольшую аудиторию удается найти через поисковые машины, поэтому очень часто робота-паука пытаются ввести в заблуждение, надеясь добиться высоких результатов поиска в погоне за новыми пользователями.

Как и в случаях с электронными ящиками, эти действия  (заслуженно) можно назвать спамом Интернета. При огромном количестве результатов поиска их качество становится крайне низким. Поэтому краулерам очень важно надежно отсеивать спам и повышать таким образом качество поиска.

С потоком информации низкого качества многие поисковые системы до сих пор пытаются справляться вручную, но при этом потребность во множестве эффективных инструментов по борьбе со спамом все еще крайне актуальна. Чтобы правильно разработать актуальные методы борьбы со подобной информацией в Интернете, нужно понимать, как это работает.

Для этого создана полная общая схема по очистке от поискового спама на основе систематизированных подходов и специальных технологий.

Что представляет собой понятие поискового спама

За счет поискового спама некоторые страницы сайтов обманывают краулеров, тем самым занимая более высокие позиции по совершенно необъективным причинам. К сожалению, в последнее время количество «сетевого мусора» в поисковиках сильно возросло. Это привело к тому, что результаты поиска стали ухудшаться. Чтобы эффективно бороться с этим явлением, предлагаем различные методики.

Главное задание поисковых роботов – отфильтровать результаты запроса и отобрать только самые качественные за счет верного анализа интернет-страниц в соответствии с требованиями пользователя и при этом выдать только самые релевантные страницы. Поисковики обычно анализируют страницы в зависимости от ее соответствия запросу и важности, таким образом вычисляя общий порядок страничек, которые будут показаны пользователю.   Важность страницы зависит от ее общей популярности (без учета спроса) и основана на ссылочной структуре (к примеру, страницы с большим количеством ссылок будут более важными), а также параметрах.

Само понятие поискового спама применятся в качестве термина для  любых действий человека, которые направлены на создание необоснованно высокой релевантности или важности интернет-страниц (в сравнении с другими действительно значимыми веб-ресурсами). Еще одно название – спамдексинг. Людей, применяющих такие технологии, называют термином «спамер». Но в Интернете существуют и другие определения «сетевого мусора».

Поисковые оптимизаторы (такие, как seoinc.com и Брюс Клэй) играют важную роль в общей картине интернет-спама. Большая часть специалистов уверена, что нежелательные рассылки направлены на увеличение релевантности поисковых запросов, которые совершенно не относятся к основной теме интернет-страницы. В то же время некоторые оптимизаторы применяют так называемые «этичные» методы повышения позиций и оптимизации веб-страниц.

При этом  рост позиций без улучшения контента страницы в соответствии с ее тематикой  - это чистый спам.

Методы спама

  1. Повышение релевантности или значимости страниц за счет рекламных методов.
  2. Завуалированные способы увеличения ранжирования, которые напрямую не влияют на алгоритмы поисковиков, но применяются для сокрытия усвоенных рекламных методов от обычных пользователей.

Методы, направленные на увеличение роста популярности страницы 

Спам в выражениях

Это методы спама, оказывающие прямое воздействие на алгоритмы ранжирования.

Во время оценки текстовой релевантности поисковые роботы учитывают расположение на странице запросов. Каждое такое место называется «поле». Типичным текстовым полем для странички Р будет само тело документа, тайтл страницы, мета-теги заголовка HTML, а также веб-адрес. Также существует такое понятие, как анкер текстового поля – это текстовый указатель, который связан с URL, что указывает на данную страницу и принадлежит этой странице. Они нередко неплохо описывают контент страницы. Выражения в текстовом поле веб-ресурса зачастую применяются для установления релевантности странички в соотношении к какому-либо запросу (набору особых слов). Различные поля получают разный вес. Заспамленные выражения относятся к методу, при котором производится анализ содержимого полей таким образом, чтобы странички с «сетевым мусором» стали более релевантными для тех или иных запросов.

Спам выражений – методы

Их можно сгруппировать в соответствии с текстовыми полями, содержащими спам.

  • Спам в самом теле веб-документа

Заспамленные выражения содержатся в теле документа. Это самый простой и распространенный метод спама.

Например:

Apartment Rent Orenburg Orenburg Hotel Orenburg Hotel Orenburg Russia Orenburg Flight Orenburg Russia Flower To Orenburg Orenburg Travel Orenburg Apartment Orenburg ...
Results for Apartment Rent Orenburg

  • Спам в тайтл документа

Современные поисковики зачастую высоко оценивают выражения, которые используются в названии веб-документа. Поэтому в заголовке часто содержатся выражения со спамом.

Например:

<title>Натяжные потолки, натяжные потолки Москва, натяжные потолки цены, натяжные потолки монтаж, натяжные потолки технология, натяжные потолки фото, натяжные потолки отзывы</title> 

  • Спам в документе: мета-теги

Из-за частого использования спама в мета-тегахHTML поисковики стали придавать меньше значения этим тегам или вообще их игнорировать.

Например:

<meta name=”keywords” content=”купить, дешевые, камеры, объективы, nikon, canon” >

  • Спам в текстовых анкерах

Поисковые машины придают высокое значение указателям выражений в тексте, потому что они должны содержать краткое описание контента. Именно поэтому спам нередко можно заметить в анкере HTML c гиперссылкой на страничку. Отличие этого вида нежелательных рассылок от других состоит в том, что заспамленные выражения добавляются на страницы, которые ссылаются на главную. С учетом индексации текста в анкерах для двух страниц спам оказывает влияние на ранжирование обеих страниц сразу.

Например:

<a href=”target.html”> бесплатно, большие скидки, дешево, недорого, дешево, бесплатно </a>

  • Спам в адресе страницы

Некоторые поисковые машины для определения релевантности разделяют адрес страницы на несколько выражений. Этим часто пользуются и спамеры, которые создают длинные веб-адреса, содержание определенную последовательность выражений со спамом.

Например:

buy-canon-rebel-300d-lens-case.camerasx.com
buy-nikon-d100-d70-lens-case.camerasx.com

Нередко сочетаются несколько методов создания «сетевого мусора». Например, в ссылочном спаме нередко можно заметить анкер текста или адрес одновременно.

Еще один способ классифицирования способов спама основывается на совокупности определенных выражений в текстовом поле.

  • Накачка выражениями со спамом дублирующего содержания.Целые куски текста дублируются, а в них в случайном порядке вводятся спамосодержащие выражения. Но такой метод работает только в том случае, если тема текста является редкой и в Интернете релевантных страниц на эту тему содержится очень мало.  Накачку могут применять и для разбавления, чтобы обмануть поисковые алгоритмы в случае, если требуется спрятать повторяющиеся выражения со спамом.
  • Повтор некоторых выражений с целью повышения релевантности документа в отношении меньшего количества запросов.
  • Демпинг огромного объема совершенно разных выражений с целью придания странице высокой релевантности за счет большого количества разнообразных запросов. Демпинг эффективен только в том случае, если они неточные или редко встречаются. Совершенно очевидно, что в соответствии с такими поисковыми запросами релевантными окажется лишь пара-тройка страниц, поэтому веб-ресурс даже с огромным количеством спама и невысокой релевантностью выйдет в ТОП-10 результатов выдачи.
  • Склейка определенных выражений или фраз применяется спамерами для скорого производства контента. При таком методе  разные предложения или фразы из различных источников соединяются вместе. Наполненная таким спамом страничка в итоге может быть выдана при любом запросе темы  исходного предложения.

Также поисковые машины используют ссылочную информацию для определения важности интернет-страницы. Поэтому спамеры нередко делают особую ссылочную структуру для увеличения веса одной или более страничек.

Спам в ссылках

Алгоритмы ссылочного спама

У спамеров все веб-страницы делятся на три типа:

  1. Недоступная веб-страница, которую спамеру не под силу изменить.
  2. Доступная веб-страница, которая принадлежит другим людям, но спамер в той или иной мере способен ее изменить: путем добавления записи в комментарии или гостевую книгу, в которой будет ссылка на страницу со спамом. Но зачастую фильтр доступных страниц является косвенным.
  3. Собственная страница, которую создал и поддерживает сам спамер. Такую страницу еще называют «фермой спама». Главная задача спамера – увеличить вес одной или нескольких веб-страниц. Например, есть некая страница Т. На ее содержание необходимы определенные расходы, поэтому у спамера ограниченное количество таких страниц.

Два популярных алгоритма по оценке важности результатов запросов на основе  ссылочной информации.

Алгоритм «HITS» используется для ранжирования страниц с определенной тематикой. Но часто применяется общий алгоритм для всех страниц, для определения «ядра» и влияния результатов на каждую страницу.  В соответствии с циркулярным определением «HITS», основные авторитетные страницы - это те, что указывают на несколько других авторитетных страниц, а весомые авторитетные  страницы  – это те, на которые указывают основные.

Поэтому при использовании алгоритма «HITS» ранжирование в результате поисковой выдачи появляется в виде списка страниц с наибольшим весом и авторитетностью.

При этом весомые страницы просто заспамить при помощи добавления исходящей ссылки в  другие всемирно известные страницы с хорошей репутацией. Поэтому спамер будет добавлять множество исходящих ссылок на страницу Т для увеличения веса.

А вот повышение авторитетности – это сложный процесс, так как требует большого количества входящих ссылок с весом страниц. Но спамер может увеличить вес своей страницы за счет входящих ссылок, а затем дать ссылку на главную страницу с этих страниц. Наличие ссылок с доступных весомых страниц увеличит авторитетность главной страницы спамера.  Поэтому он будет размещать ссылку на главную страницу на всех доступных ему страницах. Также любые иные собственные страницы должны иметь ссылки на другие авторитетные веб-ресурсы.

Алгоритм «PageRank» для придания общего веса всем страницам Интернета применяет входящую ссылочную информацию. В соответствии с «PageRank» большое количество входящих ссылок на страницу предполагает ее большую популярность среди обычных людей (пользователи будут делиться ссылками на весомые страницы).  То есть на весомую страницу будут ссылаться другие весомые страницы. То есть данный алгоритм основан на взаимоукреплении страниц: вес страниц оказывает воздействие на эту страницу, а эта страница оказывает влияние на вес других страниц.

Анализируя алгоритм, удалось установить, что общий показатель авторитетности страницы состоит из r total-группы страниц или страницы и основан на четырех факторах:

R total = r total + r in – r out – r sink,

r static – это вес, приобретенный из статического распределения;
r in – это вес через входящие ссылки с внешних страниц;
r out – это вес, утекающий из-за исходящих ссылок на внешние страницы;
r sink – это вес, который был потерян из-за низких страниц в группе.

Данная формула дает понять, какой должна быть оптимальная ссылочная структура, максимально увеличивающая весомость главной страницы.

Благодаря такой схеме все собственные странички остаются доступны из досягаемых страниц, что позволяет поисковой системе индексировать их и включает в себя минимум ссылок.

Для улучшения авторитетности страницы спама и страницы Т есть особые  приемы.

  1. В «ферме спама» используются только собственные страницы, что дает сильный прирост постоянного веса r static.
  2. Из доступных страниц  «фермы спама» накапливается большое количество входящих ссылок, что увеличивает общий вес r in.
  3. Ссылающиеся не на «фермы спама» ссылки сдерживаются, приближая r out к нулю.
  4. За счет избегания «пониженных» страниц в «спам-ферме» каждая страница (в том числе и Т) будет содержать ряд исходящих ссылок, за счет чего r sink приблизится к нулю.

Также вес страницы Т создается за счет ссылочной структуры в «ферме спама» на следующей основе:

  • за счет ссылок на главную страницу всех доступных и собственных страниц ее исходящий вес можно максимально увеличить;
  • если делать ссылки со страницы Т на прочие собственные страницы, то  удастся избежать потери  значительной части веса. Подобный замкнутый цикл дает возможность весу, утекающему с Т, вернуться обратно. При это не стоит создавать такие циклы межу Т и доступными страницами, иначе это снизит общий вес «фермы спама».

Технологии ссылочного спама

1) Исходящие ссылки

За счет ручного добавления исходящих ссылок на авторитетные страницы может быть увеличен основной вес. Но самый эффективный метод – каталог ссылок. В Сети подобных сайтов-каталогов насчитывается немало. Такие ресурсы сортируют содержимое по тематическим разделам и подразделам и подбирают релевантные сайты для каждой темы по запросу. За счет частичного и полного дублирования страничек каталога спамерам удается быстро создать масштабную структуру исходящих ссылок.

2) Входящие ссылки

Для накопления весомого количества входящих на главную или группу страниц применятся следующие методы.

  • Создается группа страниц с полезной информацией и скрытыми ссылками на главные страницы со спамом. Затем пользователей призывают ссылаться на ресурсы, что повышает ранжирование главной страницы. Сюда же можно отнести и  копирование каталогов.
  • Фильтруется каталог ссылок. Ряд сайтов дает возможность разместить ссылки на свои сайты в конкретном разделе каталога. Иногда такие ссылки не проверятся, и спамер может добавить в каталог ссылки на свою главную страницу. За счет высокого рейтинга авторитетности и большого веса каталогов ссылок данный метод эффективно повышает авторитетность главных страниц.
  • Ссылки размещаются на досках объявлений и гостевых книгах, которые не модерируются. Опытные спамеры способны в обычные сообщения добавлять ссылки на нужные страницы. Из-за отсутствия контроля со временем страницы таких досок объявлений приравнивают к спаму.
  • Обмен ссылками. Целые группы спамеров могут договариваться друг с другом и организовывать общие структуры по обмену ссылками.
  • Создание собственной «фермы спама». За счет контроля большого количества сайтов и создания произвольной ссылочной структуры удается повысить ранжирование главных страниц. Если ранее такой метод был дорогим, то сейчас стоимость регистрации домена или веб-хостинга значительно снизилась.

Сокрытие указателей – обычное поведение спамеров. Чаще всего пытаются скрыть повторные выражения или долгий список ссылок. Спамеры применяют особые методы, которые помогают скрывать от пользователей и поисковых машин свои страницы с огромным количеством спама.

Скрытые методы спама

Скрывание содержимого

Можно добиться невидимости для обычных людей некоторых фраз или ссылок на просматриваемой странице. Очень часто применятся окрашивание текста в документе  HTML в цвет фона страницы.

Пример:

<body background=white>
<font color=white>hidden text </font>

....</body>

За счет такого нехитрого метода ссылочный спам удается спрятать без анкеров текста. Вместо него делают крошечный рисунок анкера размером 1 на 1 пикселя, который почти не виден обычному человеку или имеет цвет фона страницы.

Например:

<a href=”target.html”> <img src=”tinyimage.gif”> </a>

Также спамеры могут маскировать некоторые визуальные части страницы за счет выставления видимого атрибута стиля HTML на неправильный.

Маскировка содержимого

Если удается определить IP-адрес сетевого робота, то спамеры могут применять так называемую маскировку, при которой сам робот будет индексировать страницы. Серверы со спамом возвращают особый HTML-документ браузеру, а роботу они возвращают другой документ. То есть спамеры способны  показывать пользователям свой контент без следов спама на странице, а документ с «сетевым мусором» будет направлен для индексации поисковой машине.

Чтобы установить робота применяются два способа. За счет сохранения списка IP-адресов, применяемых поисковиками, определяют краулеров за счет сверки их IP. Также сервер может установить обращение за счет запроса документу по полям user-agent в тексте запроса HTTP.

Пример: в простом HTTP-сообщении о запросе имя user-agent – это имя, применяемое браузером Internet Explorer 6:

GET /db_pages/members.html HTTP/1.0
Host: www-db.stanford.edu
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1).

Имена user-agent не имеют строгих стандартов и вопрос запрашиваемого обращения: «Что включить в данное текстовое поле». Но зачастую поисковые роботы самостоятельно  идентифицируют себя в соответствии с четким названием. Нередко сайты являются для поисковиков версиями их страниц навигационных ссылок, рекламы и прочих визуальных элементов, которые не имеют отношения к контенту. За счет такого отображения индексация полезного контента происходит лучше, что упрощает задачу поисковым системам.

Редирект

Нередко спамеры применяют способ сокрытия спама при помощи автоматической переадресации веб-браузера по другому адресу, пока идет загрузка. При этом страница продолжает индексироваться поисковыми машинами, но обычный человек ее даже не замечает, так как страницы переадресации служат как посредники для окончательной цели: пользователь находит сайт спамера через поисковые системы.

Редиректа можно достигнуть за счет использования мета-тега refresh в заголовке документа HTML. Время обновления можно установить равное нулю и добиться обновления адреса страницы на главную, что позволит делать переадресации, пока страница загружается браузером.

Пример: 

<meta http-equiv=”refresh” content=”0; url=target.html’>

Но из-за простоты и распространенности  этого метода поисковики очень быстро могут вычислить попытки редиректа за счет синтаксического анализа мета-тегов. Поэтому продвинутые спамеры применяют определенные скрипты на странице. Они не проверятся роботами.

Пример:

<script language =”javascript”><! - -
location.replace (“target.html”)
- -></script>

Выводы

Учитывая основные способы интернет-спама, можно эффективно подобрать методы по борьбе с ним в зависимости от классификации.

Поэтому для поисковых систем подойдут следующие меры по избавлению от нежелательных рассылок.

  1. Найдя страницы со спамом, прекратить обход, а также индексацию подобных страниц. Поисковики зачастую применяют несколько автономных или полуавтономных алгоритмов по выявлению «сетевого мусора» и знания редакторов, чтобы верно выявить и полностью удалить страницы со спамом из индекса.
  2. Сделать некоторые виды нежелательных рассылок неприменимыми за счет, например, определения поисковой машиной себя в качестве обращения браузера. Это позволит избежать маскировки.
  3. Можно уравновесить эффект спама. Современные поисковики применяют отклонения от общепринятых методов ранжирования, что имеет определенную степень устойчивости к «сетевому мусору».

Кроме того, можно распознать некоторые известные возможности страниц со спамом. Например, методы выявления нежелательных рассылок применяют приблизительное изолирование известных страниц, которые не содержат спам: известные интернет-ресурсы нередко ссылаются на спам.

Поэтому чтобы отделить известные интернет-страницы от любой разновидности «сетевого мусора» можно провести объективный анализ алгоритма ссылок.

Реклама. Информация о рекламодателе по ссылкам в статье.

0,00
Оценок – 0
5
0%
4
0%
3
0%
2
0%
1
0%
Добавить комментарий

Оставить комментарий

Пожалуйста, оцените по 5 бальной шкале