10 коммент.

Поисковая система Google нашла очень умный способ ранжирования страниц в интернете. Но самый интересный вопрос  - как нам понять эту умность? Много людей из сферы поисковой оптимизации описывали разные процессы главных факторов ранжирования, но, все же, стоит отметить гениальность Googlebot. Алгоритмы и действия бота остаются самым неопознанным полем для любого оптимизатора. Для того чтобы проникнуть в “сердце” Google бота, нам понадобились некоторые главные утверждения и основные принципы оптимизации. Таким образом, мы собираемся проанализировать, каким же образом  Googlebot будет справляться с нашим экспериментальным заданием. Некоторые результаты  довольно сомнительные, поскольку тестирование  должно проходить на сотне разных деменах, но у вас появится хорошее поле для раздумываний.  Может кто-то сможет уловить ключик, который не увидели мы.

Скорость считывания информации

Самым первым пунктом нашей деятельности мы хотели проверить утверждение Matt Cutts: “…количество страниц, которое индексируется, прямо пропорционально вашему PageRank” (... the number of pages that we crawl is roughly proportional to your PageRank).

Это поставило под сомнение сайты с огромным количеством контента – проблема в том, что не все страницы индексируются. Можно представить, что если Amazon.com был бы новым сайтом, никто не может предсказать, сколько времени нужно Google, чтобы проиндексировать 48 миллионов страниц и если утверждение Matt Cutts действительно достоверное, то без внешних ссылок здесь не обойтись.

Но мы решили протестировать этот загадочный пункт и взяли абсолютно новое доменное имя без какой-либо истории (до этого не зарегистрированный, без каких-либо ссылок) и сделали страницу с 250 ссылками. Эти ссылки ссылаются на страницы, которые также состоят из 250 ссылок и так далее. Ссылки и урлы были представлены  в списке от 1 до 250, в той же последовательности, в которой они появились в коде первого источника. Сделав это, мы пошли пить чай, кофе, пиво, а если быть кратким – нам нужно было ждать. Суть эксперимента такова – проверить, как будет вести себя бот, если на домен нет входящих ссылок, и практически никакой PageRank. Если утверждение Matt Cutts достоверное, то Googlebot вскоре должен прекратить индексацию.

Скорость индексации сайтаТеперь можно проанализировать полученные результаты исходя из графика. Googlebot начал ползать по сайту со скоростью приблизительно 2500 страниц в час. Через три часа, паук снизил скорость до 25 страниц в час. Чтобы проверить этот результат, мы были вынуждены протестировать другие домены. Но все тесты подтвердили первый результат. Существенную разницу можно увидеть только в самом начале визита поискового паука.

Количество проиндексированых страниц за месяц

Влияние карты сайта

Во время наших экспериментов, нельзя было не заметить влияние карты сайта на действия поискового паука. Мы добавили карту сайта с 50,000 неиндексированных страниц. Googlebot разместил страницы, которые были в карте на самые первые позиции своей будущей очереди индексации. Это означает, что эти страницы будут первыми в индексе, перед  F-levelled pages. Но что самое удивительное, так это чрезвычайное увеличение скорости индексации. В самом начале эксперимента, количество визитов паука было равномерным и составляло 20-30 страниц в час, но как только мы установили карту сайту, скорость значительно увеличилась до 500 страниц в час. Уже через несколько дней, скорость достигла своей наивысшей точки – 2224 станиц в час. Можно заметить разницу, ведь в самом начале было 26,59 страниц, а потом 1257.78, в целом количество увеличилось практически на 4630.27%. Но не думайте, что скорость работы поискового паука влияет на качество попадания страниц в индекс.

Влияние карты сайта на индексацию

Очень хорошо, что Google может использовать хорошую скорость для проверки больших объектов. Также, после считывания всех страниц с карты сайта, очередь индексации подходит к страницам типу F. Без карты сайта, эти страницы должны были попадать первыми в индекс. Как мы видим, поисковый паук Google находится в дружелюбных отношениях с картой сайта, поэтому все оптимизаторы должны взять этот пункт на вооружение.

Общее количество проиндексированных страниц за месяц

Все эти эксперименты ведут нас к утверждению Matt Cutts. Через 31 день, Googlebot сумел преодолеть 375,000 страниц сайта. Если это пропорционально к PageRank (который все еще составляет 0), то это означает, что паук сможет  проиндексировать 140,625,000,000 страниц с PageRank 1 всего за 31день. Не следует забывать, что PageRank  - это показатель, который может подняться намного выше. Если подвести итог: не верьте всему, что говорит  Matt.

Количество ссылок

Rand Fishkin когда то сказал: “…можно действительно выйти за предел рекомендованных гуглом 100 ссылок на страницу, ведь с  PageRank 7.5 можно думать о 250-300 ссылках” ( http://www.seomoz.org/blog/whiteboard-friday-flat-site-architecture ).

Совет 100 ссылок на одной странице всегда был поводом горячих обсуждений среди оптимизаторов сайтов с большим количеством страниц. Но все эти советы не появляются просто так, и причина такой идеи появилась тогда, когда Google использовал только 100кб для индексации каждой страницы. Таким образом, выходит, что 100 ссылок на 100кб страницу – это разумное предположение. Если страница превышала данный вес, то не факт, что Google добавит ее в индекс. Но сейчас, Google как бы объявил  о новом достижении – больше чем 1,5мб, а это подтверждает тот факт, что можно использовать больше чем 100 ссылок на странице. Мы сами в этом убедились, когда расположили 250 ссылок, и  паук отлично справился с этим заданием. Но лимит ли это? Мы решили сделать похожий эксперимент (как и в первом случае), но только использовали 5,000 ссылок на странице. Когда поисковый паук посетил наш сайт, произошло нечто чудное. Googlebot запросил следующие страницы:

  • http://example.com/1/
  • http://example.com/10/
  • http://example.com/100/
  • http://example.com/1000/

Каждый раз, когда бот Google посещает этот загадочный сайт, мы видим такие же запрашиваемые страницы. Такое чувство, будто Googlebot просто напросто не знает, как справится с таким количеством ссылок и пытается решить эту проблему как компьютер. Неужели мы поставили в неловкое положение самого загадочного поискового паука в мире? Да, и такое может быть…  

Семантический интеллект

Один из SEO мифов – это ссылки в тегах head. Если Google почтительно относится к семантике, то по логике, ссылки в таких тегах будут играть сильную роль. Но у нас были сомнения по этому поводу, и для того чтобы исключить эти угрызения совести, мы решили проверить это в нашем эксперименте. Мы взяли страницу с 250 ссылками и обозначили некоторые тегами – head. Через несколько недель наблюдений, ничто не указывало на теплое отношение к таким ссылкам. Это ни в коем случае не означает, что Googlebot не использует семантики в своем алгоритме, паук просто не придает таким ссылкам особенного значения.

Анализ JavaScript

Представители Google говорят, что поисковые алгоритмы научились более детально распознавать JavaScript. Несмотря на то, что JavaScript не считается хорошей технологией оптимизации, много людей пытаются найти обратную сторону медали. В принципе, чтобы достигнуть успеха в добыче нужной ссылки через JavaScript нужно следовать всем новостям компании Google. Если же вы пытаетесь сделать ссылки JavaScript видимыми для пользователей, то нужно знать каким образом поисковый паук будет их видеть. Для того чтобы как-нибудь убедится в этих утверждениях, мы взяли коды JavaScript отсюда The professional’s guide to PageRank optimization (доступ платный) и начали наш новый эксперимент. Один код, который смог выявить и распознать поисковый паук находился в простом “document.write”, где прописанная ссылка смогла попасть под прицел бота. Это говорит о том, что Googlebot не может распознать более глубокий скрипт, и не нужно ломать себе голову над задачкой по JavaScript. Возможно, что Google нуждается в сильном идентификаторе важности (как входящие ссылки), для того чтобы больше внимания приселять анализу JavaScript. Нет, мы не говорим о том, что исследование JavaScript для оптимизации  - это гиблое дело, нужно просто дождаться долгожданных апдейтов, чтобы не гадать на кофейной гуще, а точно знать о ценности таких процедур для SEO.

Анализ хлебных крошек (Breadcrumbs)

Хлебные крошки – это уже типичный элемент на странице, которая создана для пользователей. Когда-то никто не думал о полезности хлебных крошек для оптимизации, но теперь эту возможность используют сильнее в этих целях, чем пользовательских. В любом случае, хлебные крошки выполняют следующие функции: поддержка структуры сатйа, оптимизация и удобство для посетителя. Прошлого месяца мы заметили некоторые проблемы в действиях Googlebot относительно этого элемента и решили также проделать эксперимент.  Мы сделали страницу с несколькими уровнями вложенности, добавили контент и ссылки на саамы верхние слои  (http://example.com/lvl1/lvl2/lvl3/). Мы задали страницам несколько входящих ссылок и начали ждать нашего друга – Googlebot. Результат не заставил себя долго ждать, и оказалось, что страницы с глубоким уровнем вложенности имели лучшую посещаемость паука (3 раза), чем высшие (вообще mtp посещений).

Результат индексации страниц по хлебным крошкам

Для того чтобы проверить этот нелогичный результат, мы решили сделать похожий тест на другом домене. На этот раз, мы поместили тестовую страницу на несколько уровней глубже (http://example.com/lvl1/lvl2/lvl3/lvl4/lvl5/). Googlebot сумел определить некоторые ссылки, которые ведут к страницам с меньшим уровнем вложенности. Несмотря на то, что Googlebot сумел следовать некоторым ссылкам, это еще не показатель хорошей структуры сайта. Через несколько недель, паук вообще не посещал высшие страницы. Судя с эксперимента можно сказать, что Googlebot любит исследовать страницы с глубоким уровнем вложенности, а не наоборот.

Выводи наших экспериментов:

Теперь нужно вкратце проанализировать итоги всех наших экспериментов. Как вы видите, нам пришлось здорово поработать, чтобы дать ответы на некоторые сложные вопросы. В самом начале хочется отметить хорошую скорость индексации с помощью карты сайта. Действительно, если вы нуждаетесь в быстрой индексации огромного количества страниц, то карта сайта поможет поисковому боту идентифицировать нужные страницы. Это не значит, что должны всегда использовать карту сайта на своих проектах, но если вы желаете увеличить количество страниц в индексе, то это будет хорошим решением проблемы. Один минус от карты сайта – страницы уровня “F”- будут индексироваться после страниц, которые попали в карту. Самый лучший способ для нормальной работы сайта – это мониторинг действий  Googlebot. Таким образом, вы всегда сможете определить проблемные щели в вашем детище.

Количество ссылок на странице не ограниченно числом 250 (даже если у вас нет входящих ссылок), но 5000 – это слишком много. Пока мы не сумели определили точный лимит ссылок, но если это нам удастся, вы будете знать первыми.

Ссылки в тегах – head – это банальная потеря времени. Естественно, вы можете использовать такие ссылки для ваших пользователей (если вы привыкли к этому), но поисковый бот не будет придавать этому особого значения. Нет, никто не запрещает, можете использовать, ведь может будущий алгоритм будет учитывать важность таких ссылок.

Другой вывод, который можно назвать важным – это то, что поисковый паук не научился или просто не хочет учитывать хлебные крошки. Вы можете не использовать этот метод для улучшения структуры сайта. Вы можете заменить хлебные крошки каким либо Java скриптом. Не забывайте, чтобы знать все достопримечательности JavaScript оптимизации, нужно следить за апдейтами Google.

Самый последний итог, который хочется упомянуть, так это влияние длины урла на поискового паука. Как оказалось, короткий урл индексируется быстрее, чем длинный. Выводы делать вам, а о ценности этих экспериментов можете сказать только вы – оптимизаторы!

Источник: http://www.seomoz.org/ugc/googlebot-new-insights

А вы уверены, что не допускаете ошибки при работе с партнёрками? Если нет, то эта книга вам очень пригодится.

Как сюда попасть?