1 коммент.

Представляем вашему вниманию наши последние доработки в улучшении качества поиска. Март месяц получился довольно таки продуктивным и 50 улучшений на лицо. Мы начинали наши улучшения с очень углубленного анализа, но с каждым месяцем изменения становятся более всеохватывающими. Новое в этом месяце уже было опубликовано в нашем нарезном видео со встречи разработчиков отдела поискового качества, что дает приблизительное видение, как такие выводы были сделаны.

Список изменений за Март месяц:

  • Автокомплиты с математическими символами. [кодовое название запуска "Blackboard", кодовое название проекта "Suggest" (предложение)]. При вводе запроса, мы предлагаем варианты «предсказаний» в автокомплите, которые выводятся с нашей базы данных с более релевантными вариантами.   Изменение касается нескольких символов, которые были внедрены: “+”, “-”, “*”, “/”, “^”, “(“, “)”, и “=”. Мы считаем, это поможет ответить на поисковые запросы с популярными уравнениями, например [e = mc2] или [y = mx+b].
  • Улучшения в подходе индексации символов. [кодовое название запуска "Deep Maroon"]. Как правило, мы игнорировали символы пунктуации в поисковых запросах. Но проанализировав поток запросов, мы начали использовать следующие часто употребляемые символы: “%”, “$”, “\”, “.”, “@”, “#”, и “+”. Мы продолжим исследование в данной сфере и будем добавлять больше символов.
  • Лучшие вычисления новых группировок. [кодовое название запуска "avenger_2"]. Новые результаты в Google организовываются с помощью группирования новостей, которые относятся к одной теме. У нас работают вычислительные системы, которые определяют уровень классификации данных групп для  определенного запроса. Мелкое изменение повысит качество системы вычисления группирования, что приведет к улучшению ранжирования новых кластеров (групп).
  • Обновление информации о быстрых ссылках сайта. [кодовое название запуска "Saralee-76"]. Быстрые ссылки (ссылки, которые появляются под результатом выдачи и ссылаются глубже в среду соответствующего сайта) частично генерируются с помощью офлайнового процесса анализа структуры сайта и другой информации для определения наиболее релевантных ссылок (чтобы показать их пользователям). Недавно мы обновили базу данных нашего офлайнового алгоритма. Такие апдейты происходят довольно часто (по стечению недель).
  • Улучшения в серверной базе автокомплитов, охват. [кодовое названия запуска "sovereign", кодовое название проекта "Suggest"]. Мы объединили системы и уменьшили количества запросов к базе данных, дабы подготовить предсказания автокомплитов для вашего запроса. Результат – более эффективное использование  CPU и более обширные предсказания.
  • Лучшее управление парольных изменений. Наш общий подход состоит в том, что если вы меняете пароли, вы будете разлогенинным от вашего аккаунта на всех машинах. Мартовское изменение гарантирует, что при частой смене паролей вы будете разлогенинным в поиске, везде.
  • Лучшая индексация профайловых страниц. [кодовое название запуска "Prof-2"]. Данное изменение улучшает плотность публичных профильных страниц в нашем индексе (из более чем 200 социальных сайтов).
  • Обновление UI для News Universal (Универсальных новостей). [кодовое название запуска "Cosmos Newsy", кодовое название проекта "Cosmos"]. Мы обновили дизайн результатов News Universal предлагая больше результатов от топовых кластеров. Комплексная обработка UI кластеров разных размеров, добавление крупного фона для топовой статьи и более крупные картинки (от лицензированных источников), а также добавление информации об автора.
  • Улучшение результатов для навигационных запросов. [кодовое название запуска "IceMan5"].  «Навигационный запрос» - это поиск, который определяет пользовательские действия по навигации сайта в среде определенных сайтов, такие как [New York Times] или [wikipedia.org]. Так как эти результаты могут иметь очень прямое значение, все равно есть изменения, которые могут служить лучшими результатами. Например, что если пользователь не знает прямого URL? Или что если URL, который ищут, является склеенным? Данное мартовское изменение улучшает результаты подобного рода деятельности.
  • Обновление базы данных алгоритма для высококачественных сайтов и улучшение «свежести» базы данных. [кодовое название запуска “mm”, кодовое название проекта «Панда»]. Как и другие наши изменения, аспекты алгоритма высококачественных сайтов зависят от офлайновых процессов обработки и приводятся в действие периодическими циклами. Прошлый месяц, мы запустили апдейт «Панды», что сообщалось в нашем твиттере. Мы также сделали улучшения для освежения нашей базы данных.
  •  «Живые» результаты для футбольных чемпионатов UEFA и KHL. Мы добавили онлайн обновления сниппетов в результатах поисковой выдачи для KHL (Русская Хоккейная Лига) и футбольного первенства UEFA, включая счет поединков и график игр. Теперь вы сможете найти живые результаты разных спортивных лиг, включая NFLNBANHL и другие.
  • Особенность теннисного поиска. [кодовое название запуска "DoubleFault"]. Мы представили новую поисковую особенность, которая предоставляет счет теннисного поединка в режиме реального времени, причем в топе поисковой выдачи. Попробуйте [maria sharapova] или [sony ericsson open].
  • Более релевантные результаты поиска по картинкам. [кодовое название запуска "Lice"]. Данное изменение относится, в первую очередь, к оценке посадочных страниц с картинками. Наши сигналы определяли качество посадочной страницы, а потом картинки. Теперь вы сможете найти более релевантные картинки, даже если качество страницы, на которой она «хостится» оставляет желать лучшего.
  • Свежесть картиночных предсказаний на всех языках. [кодовое название запуска "imagine2", кодовое название проекта "Suggest"]. Недавно мы запустили нововведение для более релевантных запросов в автокомплитах по поиску картинок. Это улучшение работает для всех языков, без исключения.
  • Настройка алгоритма безопасного поиска. [кодовое название запуска Fiorentini", “SuperDyn; кодовое название проекта «Безопасный поиск» ]. В этом месяце мы внедрили несколько изменений в алгоритм безопасного поиска. Пришлось обновить наш классификатор для более точных и умных результатов, что послужило очередным решением избавления порно результатов в не порно запросах.
  • Подстройки для оперирования с анкорным текстом. [кодовое название запуска "PC"]. В Марте месяце мы отключили наш классификатор обработки анкорного текста (текстовая часть в ссылке). Анализ экспериментальной информации доказал, что другие методы обработки анкорного текста имели лучшие результаты. Таким образом, отключение не эффективных методов позволит лучше работать другим системам.
  • Упрощение кода для Images Universal (глобальных картинок). [кодовое название запуска "Galactic Center"]. Мы сделали некоторые улучшения в системе кодов глобальных картинок и внедрили лучшие настройки в ранжировании картинок, что конечно же, скажется на качестве выдачи.
  • Лучшее ранжирование и UI на мобильных устройствах. Когда вы ищете приложения на телефоне, вам будет отображаться улучшенная выдача: иконки приложений, рейтинг в виде звездочек, цены и кнопки загрузок в дополнительных местах. Ранжирование будет строиться также в зависимости от вашей платформы, например Android или iOS.
  • Улучшения в свежести глобального видео контента. [кодовое название запуска "graphite", кодовое название проекта Freshness"]. Мы улучшили свежесть выдачи видео контента и научились лучше идентифицировать старые видео и отделять их от новых.
  • Меньше нежелательных синонимов. [кодовое название проекта "Synonyms"]. Когда вы ищите в поисковой системе Google, мы зачастую определяем и другие запросы, которые могут иметь аналогичное значение и делаем выдачу в зависимости от этого. В этом месяце мы запустили классификатор, который помогает определить ненужные синонимы, дабы очистить выдачу от неэффективных слов.
  • Лучшее оперирование с запросами навигационного и локального интента. [кодовое название запуска "ShieldsUp"]. Некоторые запросы имеют как локальный интент, так и навигационный (направлен на определенный сайт). Мартовское изменение улучшает баланс результатов, которые мы отображаем, и помогает гарантировать действительно высокорелевантные навигационные или региональные результаты в сторону топа выдачи, в зависимости от интента вашего запроса.
  • Улучшение к «свежести» поиска. [кодовое название запуска "Abacus", кодовое название проекта "Freshness"]. Мы запустили улучшение в «свежесть» поиска еще в прошлом году, и это дало нам хороший результат, но стоит очень дорого, так как было задействовано очень много ресурсов. В настоящее время мы решили использовать такого рода поиск только для новостного трафика, но мартовский апдейт активирует поиск для всех запросов.
  • Улучшения в системе определения качества сайта. [кодовое название запуска "Curlup"]. Мы сделали некоторые улучшения в давно существующую систему определения качества сайта. Данное нововведение позволит нам получить лучшее доверие в наших классификациях.
  • Лучшее истолкование и использование анкорного текста. Мы улучшили системы для интерпретации и использования анкорного текста, и определили насколько релевантным мажет быть данный анкор для определенного запроса и определенного сайта.
  • Лучшие локальные результаты и источники в Google News. [кодовое название запуска "barefoot", кодовое название проекта "news search"]. Люди с определенного региона получают поисковую выдачу данного региона. Мы решили использовать похожую логику для других сигналов. Результат: более релевантные, локальные результаты Google News с лучшим качеством источников.
  • Понижение сигнала, который ранжирует новостной кластер. [кодовое название запуска "decaffeination", кодовое название проекта "news search”].  Мы уменьшили силу сигнала, который уже не так существенно влияет на релевантность в Google News. Сигнал был разработан с целью помогать пользователям находить высококачественные статьи в сервисе Google News. (Примечание: несмотря на похожесть кодового названия запуска, данный проект не имеет ничего общего с алгоритмом Caffeine – апдейт в индексации 2010 года)
  • Меньше «родственных» синонимов. [кодовое название запуска "Gemini", кодовое название проекта "Synonyms"]. Самый главный сигнал, который мы использовали в определении значения синонимов – это контекст. Например, если слово «кот» часто появляется с другими терминами «домашнее животное» и «покрытый мехом», и аналогичное  слово  «котенок» также появляется в данном поле, то наш алгоритм  мог догадаться, что «кот» и «котенок» - это чистой воды синонимы. Проблема состоит в том, что иногда данный алгоритм производит синонимы, которые обозначают совершенно разные понятия в среде одной категории. В продолжение примера, собаки также «домашние животные с шерстью» - таким образом, «собака» может некорректно стать в синонимичный ряд с «котом». Мы проделали огромную работу над решением данной проблемы и исключили ряд «родственных» синонимов.  Мартовский апдейт стал настоящим успехом в данной синонимичной проблеме.
  • Лучшая синонимичная точность и исполнение. [кодовое название проекта "Synonyms"]. Мы сделали дальнейшие улучшения в нашу систему синонимов путем уничтожения дублированной логики. Мы также нашли пути для более точной идентификации синонимов в случаях, когда множественные синонимы находятся в разных контекстах.
  • Настройка системы восстановления. [кодовое название запуска "emonga", кодовое название проекта "Optionalization"]. Мы улучшили системы определения терминов в запросах, которые не обязательно нуждаются в восстановлении релевантных документов.  Это сделает поисковую выдачу более релевантной к оригинальному поисковому запросу.
  • Меньше агрессивных синонимов. [кодовое название запуска "zilong", кодовое название проекта "Synonyms"]. Мы получили фидбек от пользователей, что наши алгоритмы иногда работают слишком агрессивно для некоторых терминов. Данный случай – это следствие нашей системы синонимов, которая включает в выдачу результаты других терминов. Мартовское изменение сделает системы синонимов менее агрессивными, что придаст больший вес оригинальному запросу, без его синонимичного ряда.
  • Обновление системы, которая полагается на географическую информацию. [кодовое название запуска "Maestro, Maitre"]. У нас есть множество сигналов, которые работают с идентификацией географических данных (очень похожие данные, которые мы осматриваем в сервисах Google Earth и Maps). Мартовское изменение касается обновлений географической информации, которую мы используем.
  • Улучшения в определении имён. [кодовое название запуска "edge", кодовое название проекта "NameDetector"].  Мы улучшили систему определения имён, в частности имён известных личностей.
  • Обновления персонализированных сигналов. [кодовое название проекта "PSearch".] Мартовское обновление сигналов станет улучшением персонализированной выдачи.
  • Улучшения релевантности поиска картинок. [кодовое название проекта "sib"]. Мы обновили сигналы для улучшения поиска картинок с разумными размерами на высококачественных посадочных страницах.
  • Исключение протестного сигнала с сайта как релевантного сигнала. [кодовое название запуска Freedom"]  Мы убрали протестный продуктно-фокусированный сигнал с алгоритма понимания сайта.
  • Более точное определение старых страниц. [кодовое название запуска "oldn23", кодовое название проекта “Freshness"]. Данное изменение улучшает определение старых страниц в нашем индексе благодаря лучшим релевантным сигналам. Результат: меньше старых страниц отображается пользователям.
  • Настройки по определению языка в автокомплитах. [кодовое название запуска “Dejavu”, кодовое название проекта "Suggest"]. Обычно, автокомплиты полагаются на отображаемый язык, дабы определить, на каком языке показывать «предсказания». Для большинства языков мы также стараемся определять язык пользователя с помощью работы специального скрипта и это изменение распространяется на Китайский (упрощенный и традиционный), японский корейский. Эффект сети – это когда пользователь забывает отключить свой IME, в таком случае он будет получать английские предсказания, если запрос вводится на английском языком.
  • Улучшения в определении информации для страниц блога/форума. [кодовое название запуска "fibyen", кодовое название проекта "Dates"] Данное изменение улучшает алгоритм, который определяет даты для страниц блогов и форумов.
  • Больше предсказаний в автокомплитах с помощью «живых» рерайтов префиксов в запросах. [кодовое название запуска "Lombart", кодовое название проекта "Suggest”] В этом изменении мы переписали частичные запросы на «лету», дабы получить больше потенциальных совпадений для пользовательского запроса. Мы используем синонимы и другие особенности, чтобы получить больший охват совпадений. Рерайты префиксов включили в себя терминологичные переформулировки и т.д.
  • Расширенные ссылки сайта в мобильном поиске. Мы запустили расширенные ссылки сайта для мобильных браузеров, которые обеспечивают лучшую организацию и презентацию ссылок в поисковых результатах.
  • Более точные короткие ответы. [кодовое название проекта “Porky Pig”]. Мы обновили источники нашей особенности коротких ответов на информацию с Freebase. Это улучшит точность и намного проще фиксить баги.
  • Перемещение серверных возможностей продвинутого видео поиска. Расширенный видео поиск уже относится к инфраструктуре главного поиска.
  • Кнопка +1 в поиске для других стран и доменов. В этом месяце мы сделали интернационализацию +1 кнопки на странице поисковой выдачи для дополнительных стран и доменов. Кнопка +1 в поиске поможет поделиться вашими рекомендациями по всему миру. Чудо кнопки +1 – это релевантность – вы получаете только правильные рекомендации (ведь они от людей, которые имеют для вас значение) в нужное время и в нужном формате.
  • Обновление региональных UI результатов  для планшетов. Мы обновили пользовательский интерфейс региональных результатов на планшетах, дабы сделать выдачу более компактной и легкой для сканирования.

Источник: http://insidesearch.blogspot.com/2012/04/search-quality-highlights-50-changes.html