Сравнительно не так давно “Яндекс” обновил один из собственных антиспам-методов АГС, назначение которого – бороться с засильем ненужных и созданных только с целью как следует сайтов.
По окончании обновления сообщество вебмастеров пришло в неимоверное возбуждение. Топики на тему нового метода собирают тысячи комментариев, статьи с изучениями обстоятельств, в следствии которых накладывается фильтр, появляются друг за другом и также заслуживают множества пользовательских комментариев. Наряду с этим большинство последних – это открыто хейтерские высказывания в адрес “Яндекса”. В чём лишь его не обвиняют – и в предвзятости, и в фильтрации хороших сайтов заодно с нехорошими, и в рвении достигнуть показателей по антиспаму в канун годового отчёта :-). Без преувеличения, большинство комментариев наполнена обидой на «Яндекс» и придирками к тем, кто пробует обратить внимание на главные обстоятельства срабатывания метода. И это относится не только тех комментаторов, что понесли денежные утраты, но и нейтральных с денежной точки зрения вебмастеров.
На мой взор, обстоятельства таковой реакции кроются в том, что мало кто осознаёт, как в действительности трудится данный (да и другие) метод поисковых совокупностей. Создаётся чувство, что простой вебмастер, прочтя много комментариев расстроенных манимейкеров, кроме этого пропитывается неприязнью к несчастному поисковику. К сожалению, «Яндекс» не публикует популярных статей на эту тему, а самостоятельно разобраться в научных публикациях дано не каждому. Тут я попытаюсь восполнить данный пробел, а также на примерах из собственного опыта работы в “Яндексе”, в отделе поискового антиспама.
Итак, для начала разберёмся с сутью этого метода и с обстоятельствами его появления на свет. Для этого нужно сделать экскурс в историю SEO-оптимизации в рунете.
В случае если коротко, то в 2006 году, по окончании появления неповторимой в то время биржи ссылок, стало вероятно получать немаленькие деньги именно на продаже ссылок со собственных сайтов. Само собой разумеется, у большинства появился соблазн автоматизировать процесс создания новых площадок, что стало причиной росту количества некачественных сайтов, созданных только под продажу ссылок (некое время до 40% регистрации .ru-доменов проводилось с целью создания и монетизации сайтов на ссылочных биржах).
Часть .ru доменов, регистрируемых с целью добавления в ссылочные биржи.
Воздействие метода содержится в том, что сайт, на что накладывается эта санкция, полностью исчезает из базы поисковика. В индексе остаются только основная страница и пара самых популярных внутренних. Первая версия метода АГС-17, заметившая свет в 2009 году, быстро снизила привлекательность подобного рода деятельности, удалив множество страниц с платными ссылками из индекса поисковой совокупности. Предстоящие модификации метода – АГС-30 и сравнительно не так давно АГС 40 – ещё посильнее ударили по обладателям манимейкерских сеток.
Перед тем как перейти к подробностям работы метода, стоит уяснить: всё, что делается на стороне антиспама “Яндекса”, делается во благо пользователей, и ни один метод, что существенно ухудшает метрику пользовательского “счастья”, ни при каких обстоятельствах не будет “зарелизен” и выпущен в продакшен. Как раз исходя из этого на всецело забаненные и удалённые из индекса сайты даётся ссылка в поиске по доменному имени. Совершенно верно так же при наложении санкции, ограничивающей количество страниц сайта в базе поисковика, в обязательном порядке оставляются основная и пара вторых самых популярных страниц. Так как неизменно имеется ненулевая возможность того, что пользователь может захотеть возвратиться на самый скучный сайт, с самым вторичным контентом. Фальшивые срабатывания антиспам-методов довольно часто приводят к массе негативных чувств у пользователей, исходя из этого требования к этим методам с позиций наличия False Positives весьма и весьма жёсткие.
Возвращаясь к методу АГС, подумаем, как «Яндекс» может осознать, что сайт скучен пользователям.
Для этого ответим на вопрос, какими данными о сайте располагает поисковая совокупность. Разумеется, что это информацию о посещаемости и поведении пользователей на сайте, о количестве, качестве и исходящих ссылок и составе входящих, о контенте сайта, о хостинге и домене, о том, как ищут данный сайт в поисковых совокупностях. В принципе, этих данных достаточно, дабы придумать пара десятков факторов, характеризующих интересность сайта с позиций пользователя. Это и естественная посещаемость, и наличие платных ссылок, качество и авторство контента. Имеется и менее очевидные факторы, каковые время от времени показывают превосходные результаты. К примеру – факт, что в случае если вебмастер берёт ссылки, то он обязан отслеживать их индексацию поисковой совокупностью. Для этого ему необходимо контролировать наличие страницы со ссылкой в индексе посредством расширенного языка запросов, включающего оператор “url:”. Получается, что сайт, созданный лишь под ссылки, будет иметь показы в поиске в основном по таким запросам, и их количество тем больше, чем больше сайт реализовывает ссылок. Не контролировать индексацию оптимизаторы не смогут, исходя из этого оказать влияние на существование для того чтобы фактора у них нет возможности. Само собой разумеется, имеется множество куда менее очевидных, но также очень действенных сигналов, каковые выявляют низкокачественные сайты, созданные только с целью монетизации.
Потом поисковой совокупности нужно осознать, какие конкретно сочетания факторов характеризуют нехорошие сайты, а какие конкретно – хорошие. Тут разумно применять машинное обучение. Для этого нужна выборка нехороших и хороших сайтов, дабы было на чем обучаться. Такие выборки, в большинстве случаев, составляются руками самих аналитиков либо намерено обученных людей – асессоров. В итоге по окончании обучения на выходе имеем формулу расчёта меры “плохости” каждого сайта, в которой для каждого фактора подобран коэффициент, показывающий, как он воздействует на конечный итог.
Непременно, имеется группы сайтов, для которых кроме того руками сложно проставить верные оценки. К примеру, бережно оформленные сайты со вторичным контентом либо обычные, но не хорошо структурированные площадки, весьма деятельно реализовывающие ссылки. В таких пограничных случаях поисковые машины, в большинстве случаев, принимают ответ занять сторону пользователя и не накладывать санкции на сайт.
По окончании запуска метода крайне важно взять фидбек от вебмастеров. К сожалению, большая часть обращений в работу помощи в таких случаях – это письма от обиженных манимейкеров, чей бизнес в очередной раз страдает, исходя из этого нужную данные приходится отбирать практически по крупицам. При обнаружении сайта, что не следовало наказывать, санкция снимается и сайт добавляется в обучение. Так, ошибочное наложение санкций хоть и не редкость, но неспешно, с течением времени, формула дорабатывается так, дабы свести количество неточностей на нет.
Замечая за несколькими итерациями метода АГС, первые из которых пришлись ещё на то время, в то время, когда я трудился в “Яндексе”, я вижу что доход создателей сеток сайтов под продажные ссылки очень сильно упал и ссылочные бюджеты перераспределились в сторону более качественных проектов. О том, прекрасно это либо не хорошо, чем рунету угрожает бездумное вкладывание бюджетов на оптимизацию сайтов в ссылки и планирует ли «Яндекс» пробовать как-то поменять обстановку, поболтаем в следующей статье.
Часть тем на форуме searchengines.ru со словами “сателлит”* и “СДЛ”** (2006 – появление ссылочной биржи нового поколения, 2009 – первая версия метода АГС).
*Сателлит – спам-сайт, предназначенный для монетизации либо продвижения вторых сайтов.
** направляться – «сайт для людей». Термин начал набирать популярность у манимейкеров по окончании первой громадной чистки в 2009 году.