Здавалка
Главная | Обратная связь

Поисковые системы. Язык поисковых запросов. Поисковый робот. Поисковая выдача. Релевантность.



Поиско́вая систе́ма (англ. search engine) — это компьютерная система, предназначенная для поиска информации. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине. Существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос[1]. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами[2]. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов (см. «Пузырь фильтров») или вследствие человеческого фактора

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы. В архитектуру поисковой системы обычно входят:

поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,

индексатор, обеспечивающий быстрый поиск по накопленной информации, и

поисковик — графический интерфейс для работы пользователя.

Язы́к запро́сов — это искусственный язык, на котором делаются запросы к базам данных и другим информационным системам, особенно к информационно-поисковым системам.

Примеры

SQL — де-факто стандартный язык запросов к реляционным базам данных.

Language Integrated Query — расширение для некоторых языков программирования в .NET Framework, добавляющее к ним SQL-подобный язык запросов.

XQuery — язык запросов, разработанный для обработки данных в формате XML.

XPath — язык запросов к элементам XML-документа.

Язык поисковых запросов

Язык, на котором формулируются запросы к поисковым системам называется языком поисковых запросов или информационно-поисковым языком.

В различных поисковых системах язык запросов может различаться, однако обычно он является некоторым подобием языка регулярных выражений с дополнениями, связанными со спецификой работы той или иной поисковой системы. Знание и правильное применение языка запросов конкретной поисковой машины улучшает и упрощает пользователю процесс поиска информации.

Язык поисковых запросов состоит из логических операторов, префиксов обязательности, возможности учёта расстояния между словами, морфологии языка, регистра слов, расширенных операторов, возможностей расширенного поиска, уточнения поиска. Сравнительная таблица языка запросов по этим параметрам для четырёх поисковых систем рунета здесь.

Описание языка запросов конкретных поисковых систем

Яндекс: [1] (описание порядка слов, ограничение расстояния, сложные запросы, исключение слов, морфология и список операторов);

Рамблер: [2] (описание применения регистра, операторов, кавычек, скобок и метасимволов; а также морфология, стоп-слова, ограничение расстояния и специальные операторы);

Google: описание операторов и встроенных функций расширенного поиска: общая страница; операторы и функции расширенного поиска;

Mail.ru: описание языка поисковых запросов (поиск на заданном сайте, на заданном языке, сложные запросы, порядок слов, исключение слов).

Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru от Google, Яндекса и Mail.Ru соответственно.

Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

Поисковая выдача (англ. SERP от аббревиатуры «Search Engines Result Page») – это тот результат, который предоставляется поисковой системой в ответ на запрос пользователя.

Как формируется поисковая выдача?

в строке поиска пользователь набирает запрос и, нажимая на кнопку «Искать», отправляет его на обработку поисковой системе;

поисковая машина осуществляет анализ запроса: определяет морфологию, язык и другие параметры;

далее она ищет в имеющейся базе данных наиболее подходящие информационные страницы;

из всех найденных сайтов поисковик формирует страницу поисковой выдачи, располагая ссылки в определенном порядке, который зависит от заданных параметров.

Персональная поисковая выдача

Каждая современная поисковая система имеет собственные алгоритмы оценки релевантности сайта запросу пользователя, поэтому у разных систем выдача может не совпадать. У некоторых поисковиков (в частности у Яндекса и Google) существует персональная выдача: разные пользователи, вводя один и тот же запрос, видят результаты, отличающиеся друг от друга, поскольку они зависят от предпочтений пользователя, его поисковой истории и других параметров.

Приведем простой пример: по запросу «Бетховен» у тех пользователей, которые часто ищут фильмы, в поисковой выдаче на первом месте будут ссылки на кинокомедию с одноименным названием, а у тех, кто предпочитает искать музыку – произведения великого композитора.

Чем чаще пользователь использует поисковую систему, тем точнее для него результаты поисковой выдачи.

Что такое региональная поисковая выдача?

В зависимости от того, где вы находитесь (например, в Санкт-Петербурге или Московской области), – на один и тот же запрос поисковая система может выдавать разные результаты. Это связано с тем, что во время продвижения веб-ресурса, поисковику можно подсказать, пользователям какого региона данный сайт будет наиболее интересен.

Это удобно для компаний, осуществляющих свою деятельность только в конкретном районе.

Например, если клиент хочет заказать пиццу, то находясь в Москве, он увидит в поисковой выдаче ссылки на сайты столичных ресторанов. Если же пользователь будет делать заказ из Санкт-Петербурга – в результатах поиска отобразится список сайтов питерских пиццерий.

Релевантность - (англ. relevant уместный, относящийся к делу) - смысловое соответствие между информационным запросом и полученным сообщением. Релевантность сайта - субъективный критерий ранжирования сайтов.

Под релевантностью сайта понимают как релевантность результатов поисковых запросов, так и релевантность контента сайта для посетителей.

Релевантность сайта для посетителей важнее, чем релевантность сайта для поисковых систем.

Можно оптимизировать сайт под запросы поисковых систем и, с ее точки зрения, иметь высокую релевантность.

Можно создать сайт для людей и, с их точки зрения, иметь высокую релевантность.

Деньги за предлагаемые на сайте товары и услуги платит не поисковая система, а посетитель сайта.

Соответствие результатов запроса поисковой системы интересам посетителя зависит не только от поисковой системы, но и от того, насколько удачно сформулирован запрос, т.е., насколько сам запрос правильно отражает интересы посетителя.

Сайт с большой посещаемостью может приносить намного меньше прибыли, чем сайт с меньшей посещаемостью. Одна из причин - релевантность, т.е. степень соответствия информации, размещенной на сайте, ожиданиям посетителя.







©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.