Поисковая система

Поисковая система

Поисковая система (поисковый движок) – это такая система, которая осуществляет поиск информации по введенному ключевому запросу.

Поисковая система — это такой программно-аппаратный комплекс, который почти мгновенно генерирует ответы на вводимые запросы в виде страниц результатов поиска.

poiskovie-sistem

Поисковые движки ведут поиск определенной информации по сайтам Всемирной паутины. Если же запрос касается поиска каких то файлов, то они способны вести поиск на FTP-серверах. Запросы по товарам обрабатываются в поиске по интернет-магазинам. Поиск новостей-в группах новостей Usenet.

Обработка вводимых запросов осуществляется специальными программами («пауками»). В результате происходит поисковая выдача, сочетающая в себе веб-страницы, аудио-файлы, изображения.

Методы поиска и обслуживания разделяются на четыре типа: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы. В поисковую систему входит поисковый робот, который сканирует сайты сети Интернет, идексатор, который обеспечивает быстроту поиска, и поисковик — графический интерфейс для работы пользователя.

Google является одной из самых популярных поисковых систем в мире, а в России Яндекс гораздо популярнее Google.

Целью поисковой системы является найти документы, которые созвучны по смыслу вводимым ключевым словам. Хорошая поисковая система такая, которая выдает большое количество документов релевантных запросу интернет-пользователя. Несовершенство поисковых алгоритмов и человеческий фактор могут значительно ухудшить результаты поиска.

Работа поисковых систем производится по этапам. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают из HTML страниц. Владелец сайта может исключить определённые страницы при помощи robots.txt, используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковик производит анализ содержания каждой страницы для индексироавния в дальнейшем. Извлекаются слова из заголовков, текста страницы или специальных полей – метатегов. Индексатор делает анализ страницы с предварительным разбиением её на части. Для этого он применяет собственные лексические и морфологические алгоритмы.

Производится вычленение и анализ всех элементов веб-страницы отдельно.

Сохраняются данные о веб-страницах в индексной базе данных и используются для последующих запросов. Индекс позволяет быстро находить информацию по запросу пользователя. Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице.

Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц. Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисковом запросе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая.

Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска.

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц.

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы вывести в начало списка «лучшие» результаты. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, по-разному. Методы поиска, как и сам Интернет со временем меняются.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы, в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Добавить комментарий