Технология поиска информации в Интернете: информационные поисковые системы Интернета. Системы поиска людей. Дополнительные возможности поиска Яндекс

В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации.

Поиск информации является одной из наиболее распространенных и одновременно сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Однако если для рядового пользователя знание методов эффективного информационного поиска является желательным, но не обязательным качеством, то для профессионалов в области производственно-конструкторской, организационно-управленческой, научно-исследовательской и дизайнерской деятельности умение быстро ориентироваться в ресурсах Интернет и находить требуемые источники относится к числу базовых квалификационных навыков. Существуют различные приемы поиска информации в Интернет.

Поиск по известному адресу .

Это самый быстрый способ поиска, но его можно использовать только в том случае, если пользователю точно известен адрес информационного ресурса, содержащего необходимую ему информацию. Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях и т.д. Зная адрес, достаточно ввести его в адресную строку браузера.

Например :

− Mgudt.ru - Московский университет дизайна и технологии;

− Sssu.ru - Южно-Российский государственный университет экономики и сервиса;

− Assol.org - САПР одежды, ПО для проектирования сумок, проектирования обуви;

− Saprgrazia.com - высокие компьютерные технологии швейной промышленности;

− Comtense.ru - программное обеспечение и оборудование для автоматизации конструирования и технологической подготовки швейного и трикотажного производства;

− Moda.ru, fg.ru, sarafan.ru - модные тренды;

− Microcoft.com и Microcoft.com/rus - сайт корпорации Microcoft и его русская версия;

− Rarlab.com - архиватор WinRAR;

− 7-zip.org - бесплатный архиватор 7-ZIP;

− Office.microsoft.com/rus - официальный сайт Microsoft Office;

− Abbyy.ru/finereader - Fine Reader (программа распознавания образов);

− Adobe.com/ru/products/photoshop - графический редактор Adobe Photoshop;

− Avast.ru - бесплатный антивирус Avast! (русская версия);

− Free-av.com - бесплатный антивирус Avira Antivir;

− Drweb.ru - антивирус DrWeb;

− Avp.ru - антивирус Касперского;

− Agnitum.ru - брандмауэр Agnitum Outpost Firewail и пакет безопасности Outpost Security Suite;

− Microcoft.com/rus/windows/internet-explorer - браузер Internet Explorer;


− Opera.com - браузер Opera;

− Ritlabs.com - почтовая программа The Bat;

− Icq.com - служба «мгновенных сообщений» (веб-пейджер) ICQ;

− Icq.rambler.com - русская версия ICQ;

− Skype.com - программа IP-телефонии Skype;

− Yandex.ru, rambler.ru, google.ru - российские поисковые системы;

− Google.com, bing.com - международные поисковые системы;

− Filesearch.ru - поиск на FTP-серверах;

− Mail.ru, mail.yandex.ru, mail.rambler.ru, pochta.ru, e-mail.ru - российские серверы бесплатной почты;

− Narod.ru, boom.ru, westhost.ru, by.ru - бесплатный хостинг на российских серверах;

− Ixbt.ru - компьютерные новости, обзоры hardware;

− Maps.google.com - подробные карты всего мира, с точностью до дома;

− Maps.yandex.ru - подробные карты крупнейших городов России и Украины. Сведения об автомобильных пробках;

− Wikipedia.org и ru.wikipedia.org - свободная энциклопедия Wikipedia и её русский раздел;

− Slovari.yandex.ru, rubricon.com, krugosvet.ru, mega.km.ru - онлайновые энциклопедии и словари;

− Books.ru, ozon.ru, market.yandex.ru, foto.ru - интернет-магазины;

− Rvb.ru - русская виртуальная библиотека;

Навигация по гиперссылкам . Сайты в Интернете связаны между собой с помощью гиперссылок. Если нет адреса нужной Web-страницы, можно использовать другую страницу со ссылкой на нее. При использовании других методов поиска имеет смысл посмотреть, нет ли на найденном сайте раздела ссылок (ресурсы, другие сайты и т.д.). Часто в таком разделе можно найти адреса ещё нескольких ресурсов, тематически связанных с данным. Но этот метод поиска является довольно трудоёмким и с помощью этого метода можно искать документы, только близкие по смыслу текущему документу.

Если у нас нет ни адреса, ни ссылок, обращаются к поисковым системам.

Обращение к поисковому серверу (поисковой системе). Для поиска информации в Интернете разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку браузера.

По способу организации поиска информации можно выделить три вида информационно-поисковых систем: тематические каталоги (рубрикаторы), словарные поисковые системы, метапоисковые системы.

Тематические каталоги (рубрикаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации, структурированная по темам. При поиске информации пользователь просматривает тематические рубрики и выбирает нужную ветвь, постепенно сужая поле поиска.

Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт (www.aport.ru). Тематические каталоги поисковой системы Апорт представлены на рисунке 18.1. Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.

Рис. 18.1. Тематические каталоги поисковой системы Апорт

Если вы ищете информацию по широкой теме (образование, музыка, медицина и т.д.), чтобы составить общее представление об имеющихся ресурсах на заданную тему то целесообразно обратиться к каталогу. Если же вам необходимо найти конкретный сайт или документ, то каталог окажется малоэффективным поисковым средством.

Например, чтобы найти информацию о ЮРГУЭС в тематическом каталоге Апорт, то нужно пройти достаточно длинный путь по рубрикам Наука и образование / Образование / Высшее профессиональное образование / ВУЗы / Экономика и управление / Остальные. После чего ещё необходимо найти нужную ссылку в алфавитном списке из 15 страниц. Но зато этот путь позволил составить общее представление о многообразии российских образовательных ресурсов.

Кроме каталогов общего назначения в Сети много специализированных каталогов (по определённым темам).

Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. Основой поисковых систем являются так называемые поисковые машины, или индексы. Специальные программы-роботы (известные также как «пауки») в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Пользователь в рамках соответствующего интерфейса формулирует запрос , который обрабатывается системой.

Запрос - это ключевое слово или фраза, сформированная по определенным правилам - с помощью языка запросов, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, -, ?), логические операторы (операции) Or, And, Not, оператор близости Near.

После этого в окно браузера выдаются результаты обработки запроса. В результате пользователю предлагаются те адреса (URL), по которым в момент сканирования найдены искомое слово или группа слов. Список ссылок, предлагаемый пользователю, ранжируется по релевантности . Релевантный документ - это документ, смысловое содержание которого соответствует информационному запросу.

Каждая ссылка в списке результатов поиска содержит сниппет (англ. snippet - фрагмент, отрывок) - несколько строчек из найденного документа, среди которых встречаются искомые ключевые слова. Прежде чем переходить по ссылке, целесообразно оценить соответствие сниппета теме запроса. Затем, перейдя по ссылке на определенный сайт, стоит просмотреть главную страницу. Как правило, первой страницы достаточно, чтобы понять - по адресу вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет - возвращайтесь к результатам поиска и пробуйте очередную ссылку.

Этот вид поиска является самым гибким и мощным и позволяет искать в Сети информацию, посвящённую самой разнообразной, в том числе узкоспециальной, тематике.

В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, и объединение их возможностей вполне логично. Большинство современных поисковых систем являются смешанными.

Поисковых систем сегодня существует достаточно много, международных и отечественных. Первые индексируют все опубликованные в Интернете документы подряд. Вторые индексируют ресурсы, расположенные в доменных зонах с преобладанием русского языка. Если перед пользователем стоит задача найти что-либо в русскоязычной части сети, то, скорее всего, наиболее успешный результат даст поиск с использованием русскоязычных поисковиков. Прежде всего, потому, что русскоязычные поисковые сервера, в отличие от англоязычных, ведут поиск с учетом морфологии русского языка. Наиболее популярные поисковые системы приведены в таблице 26.

1. Введение

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернет основной проблемой оказывается не отсутствие искомой информации, а возможность ее найти. Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.). В данном мастер-классе раскрываются основные технологии поиска информации в Интернете, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

2. Технологии поиска

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?»
В решении данной проблемы на помощь приходят поисковые инструменты.

2.1 Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

  1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.
  2. Поиск информации по запросу пользователя.
  3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

  1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.
  2. Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.
  3. Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, ?).

Схема поиска информации в сети Интернет проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. Формы запросов приведены в таблице 1.

Таблица 1

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Оператор and позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный оператор near, указывающий, что слова должны располагаться в документе в достаточной близости. Использование near значительно уменьшает количество найденных документов. Наличие символа "*" в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.

2.2 Поисковые машины (search engines)

Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) – Яndex, Rambler, Aport.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово. Далее Вы получите выдачу из ссылок, хранящихся в базе поисковой системы, которые наиболее близки Вашему запросу. Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты:

  • определитесь с темой запроса. Что именно в конечном итоге Вы хотите найти?
  • обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию.Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса - принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел "Help" ("Помощь"), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).
  • используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.
  • чтобы исключить документы, содержащие определенные термины, используйте знак "-" перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением "Гамлета", то введите запрос в виде: "Шекспир-Гамлет". И для того, чтобы, наоборот, в результаты поиска обязательно включались определенные ссылки, используйте символ "+". Так, чтобы найти ссылки о продаже именно автомобилей, Вам нужен запрос "продажа+автомобиль". Для увеличения эффективности и точности поиска, используйте комбинации этих символов.
  • каждая ссылка в списке результатов поиска содержит – несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответсвие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять – по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет – возвращайтесь к результатам поиска и пробуйте очередную ссылку.
  • помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система – это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Просто потому, что поисковые системы не работают со скоростью света.

К наиболее известным машинам веб-поиска относятся Google, Yahoo, Alta Vista, Excite, Hot Bot, Lycos. Среди русскоязычных можно выделить Яndex, Rambler, Апорт.

Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети, ведь помимо них существуют и другие способы поиска в Интернете.

2.3 Каталоги (directories)

Каталог Интернет-ресурсов – это постоянно обновляющийся и пополняющийся иерархический каталог, содержащий множество категорий и отдельных web-серверов с кратким описанием их содержимого.Способ поиска по каталогу подразумевает «движение вниз по ступенькам», то есть движение от более общих категорий к более конкретным. Одним из преимуществ тематических каталогов является то, что пояснения к ссылкам дают создатели каталога и полностью отражают его содержание, то есть дает Вам возможность точнее определить, насколько соответствует содержание сервера цели Вашего поиска.

Примером тематического русскоязычного каталога можно назвать ресурс http://www.ulitka.ru/ .

На главной странице данного сайта расположен тематический рубрикатор,

с помощью которого пользователь попадает в рубрику со ссылками на интересующую его продукцию.

Кроме того, некоторые тематические каталоги позволяют искать по ключевым словам. Пользователь вводит необходимое ключевое слово в строку поиска

и получает список ссылок с описаниями сайтов, которые наиболее полно соответствуют его запросу. Стоит отметить, что этот поиск происходит не в содержимом WWW-серверов, а в их кратком описании, хранящихся в каталоге.

В нашем примере в каталоге также имеется возможность сортировки сайтов по количеству посещений, по алфавиту, по дате занесения.

Другие примеры русскоязычных каталогов:
Каталог@Mail.ru
Weblist
Vsego.ru
Cреди англоязычных каталогов можно выделить:
http://www.DMOS.org
http://www.yahoo.com/
http://www.looksmart.com

2.4 Подборки ссылок

Подборки ссылок – это отсортированные по темам ссылки. Они достаточно сильно отличаются друг от друга по наполнению, поэтому чтобы найти подборку, наиболее полно отвечающую Вашим интересам, необходимо ходить по ним самостоятельно, дабы составить собственное мнение.

В качестве примера приведем Подборку ссылок "Сокровища Интернет" АО "Релком"

Пользователь, нажимая на любую из заинтересовавших его рубрик

  • СОДЕРЖАНИЕ

    Автомобилистам

    • Астрономия и астрология
    • Ваш дом
    • Ваши питомцы
    • Дети - цветы жизни
    • Досуг
    • Города в Сети Internet
    • Здоровье и медицина
    • Информационные агентства и службы
    • Краеведческий музей и т.д.,
    • Автомобильная электроника.
    • Музей автомото старины.
    • Коллегия Правовой Защиты Автовладельцев.
    • Sportdrive.

    Преимуществом такого вида поисковых инструментов является их целенаправленность, обычно подборка включает в себя редкие интернет ресурсы, подобранные конкретным веб-мастером или хозяином интернет странички.

    2.5 Базы данных адресов (addresses database)

    Базы данных адресов – это специальные поисковые сервера, которые обычно используют классификации по роду деятельности, по выпускаемой продукции и оказываемым услугам, по географическому признаку. Иногда они дополнены поиском по алфавиту. В записях базы данных хранится информация о сайтах, которые предоставляют информацию об электронном адресе, организации и почтовом адресе за определенную плату.

    Крупнейшей англоязычной базой данных адресов можно назвать: http://www.lookup.com/ -

    Попадая в данные поддиректории, пользователь обнаруживает ссылки на сайты, которые и предлагают интересующую его информацию.

    Широко доступных и официальных баз данных адресов в РФ нам неизвестно.

    2.6 Поиск в архивах Gopher (Gopher archives)

    Gopher – это взаимосвязанная система серверов (Gopher-пространство), распределенная по Интернет.

    В пространстве Gopher собрана богатейшая литературная библиотека, однако материалы недоступны для просмотра в удаленном режиме: пользователь может только просматривать иерархически организованное оглавление и выбирать файл по названию. С помощью специальной программы (Veronica) такой поиск можно сделать и автоматически, используя запросы, построенные на ключевых словах.

    До 1995 года Gopher являлся самой динамичной технологией Интернет: темпы роста числа соответствующих серверов опережали темпы роста серверов всех других типов Интернет. В сети EUnet/Relcom активного развития серверы Gopher не получили, и сегодня о них практически никто не вспоминает.

    2.7 Система поиска FTP файлов (FTP Search)

    Система поиска FTP-файлов – это особый тип средств поиска в Internet, который позволяет находить файлы, доступные на «анонимных» FTP-серверах. Протокол FTP предназначен для передачи по сети файлов, и в этом смысле он функционально является своеобразным аналогом Gopher.

    Основным критерием поиска является название файла, задаваемое разными способами (точное соответствие, подстрока, регулярное выражение и т.д.). Данный тип поиска, конечно же, не может соперничать по возможностям с поисковыми машинами, так как содержимое файлов никак не учитывается при поиске, а файлам, как известно, можно давать произвольные имена. Тем не менее, если Вам требуется найти какую-нибудь известную программу или описание стандарта, то с большой долей вероятности файл, его содержащий, будет иметь соответствующее имя, и Вы сможете найти его при помощи одного из серверов FTP Search :

    FileSearch ищет файлы на FTP-серверах по именам самих файлов и каталогов. Если Вы ищете какую-либо программу или еще что-то, то на WWW-серверах Вы скорее найдете их описание, а с FTP-серверов Вы сможете перекачать их к себе.

    2.8 Система поиска в конференциях Usenet News

    USENET NEWS – это система телеконференций сообщества сетей Интернет. На Западе этот сервис принято называть новостями. Близким аналогом телеконференций являются и так называемые "эхи" в сети FIDO.

    С точки зрения абонента телеконференции, USENET представляют из себя доску объявлений, в которой есть разделы, где можно найти статьи на любую тему - от политики до садоводства. Эта доска объявлений доступна через компьютер, подобно электронной почте. Не отходя от компьютера, можно читать или помещать статьи в ту или иную конференцию, найти полезный совет или вступать в дискуссии. Естественно, статьи занимают место на компьютерах, поэтому не хранятся вечно, а периодически уничтожаются, освобождая место для новых. Во всем мире лучшим сервисом для поиска информации в конференциях Usenet является сервер Google Groups (Google Inc.).

    Группы Google – это бесплатное интерактивное сообщество и служба групп обсуждений, которая предлагает самый обширный в Интернете архив сообщений сети Usenet (более миллиарда сообщений).Подробнее ознакомиться с правилами пользования сервисом можно на странице http://groups.google.com/intl/ru/googlegroups/tour/index.html

    Среди русскоязычных выделяется сервер Всемирная система USENET и телеконференции Relcom. Точно также как и в других поисковых службах, пользователь набирает строку запроса, а сервер формирует список конференций, содержащих ключевые слова. Далее надо подписаться на отобранные конференции в программе работы с новостями. Также имеет место аналогичный российский сервер FidoNet Online: конференции Fido на WWW.

    2.9 Системы мета-поиска

    Для быстрого поиска в базах сразу нескольких поисковых систем лучше обратиться к системам мета-поиска.

    Системы мета-поиска – это поисковые машины, которые посылают Ваш запрос на огромное количество разных поисковых систем, затем обрабатывают полученные результаты, удаляют повторяющиеся адреса ресурсов и представляют более широкий спектр того, что представлено в сети Интернет.

    Наиболее популярная в мире система мета-поиска Search.com .

    Объединенный поисковый сервер Search.com компании CNET, Inc. включает в себя почти два десятка поисковых систем, ссылками на которые пестрит весь Интернет.

    С помощью данного вида поисковых инструментов пользователь может искать информацию во множестве поисковых систем, однако отрицательной стороной данных систем можно назвать их нестабильность.

    2.10 Системы поиска людей

    Системы поиска людей – это специальные сервера, которые позволяют осуществлять поиск людей в Интернет, пользователь может указать Ф.И.О. человека и получить его адрес электронной почты и URL-адрес. Однако, следует отметить, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых источников, таких как конференции Usenet. Среди самых известных систем поиска людей можно выделить:

    Поиск адресов e-mail

    в специальные графы поиска контактные данные (First Name. City, Last Name, Phone number), Вы можете найти интересующую Вас информацию.

    Системы поиска людей - это действительно большие сервера, их базы данных содержат порядка 6 000 000 адресов.

    3. Заключение

    Мы рассмотрели основные технологии поиска информации в Интернет и представили в общих чертах поисковые инструменты, которые существуют на данный момент в Интернете, а также структуру поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем и, подводя итог вышесказанному, хотим отметить, что единой оптимальной схемы поиска информации в Интернет не существует. В зависимости от специфики нужной Вам информации, Вы можете использовать соответствующие поисковые инструменты и службы. А от того, как грамотно будут подобраны поисковые службы, зависит качество результатов поиска.

  • Федеральное агентство по образованию

    Смоленский государственный университет

    Технологии поиска информации в сети Интернет.

    Смоленск


    Введение…………………………………………………………………………..

    1.Классификация поисковых систем …………………………………………...

    2.Приемы поиска………………………………………………………………....

    2.1.Простой поиск………………………………………………………………..

    2.2.Расширенный поиск………………………………………………………….

    3.Тематический каталог Yahoo.…………………………………………………

    4.Автоматический индекс Alta Vista……………………………………………

    5.Поиск информации в конференциях (Usenet)………………………………..

    6.Отечественные поисковые службы …………………………………………..

    6.1.Rambler……………………………………………………………………….

    7.Поиск файлов …………………………………………………………………..

    8.Источники специализированной информации ………………………………

    9.Поиск отдельных людей в сети Internet ……………………………………...

    10.Метапоиск……………………………………………………………………..

    11.Эффективный поиск информации…………………………………………...

    Заключение……………………………………………………………………….

    Литература………………………………………………………………………..

    Введение

    Любой, кто пытался когда-нибудь найти нужную информацию в Интернете, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети). Необходимо учесть, что "поиск - это искусство".

    1. Классификация поисковых систем

    Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего, выделяют так называемые тематические каталоги (например, Yahoo) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных.

    Тематические каталоги и автоматические индексы различаются, прежде всего, по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит совершенно автоматически.

    Базы данных тематических каталогов составляются и систематически пополняются экспертами в соответствующих областях на основании новых Web-документов, обнаруженных в Internet специальными поисковыми программами. Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и серверы вместе с кратким описанием их содержимого. По этому иерархическому каталогу можно путешествовать, начиная с более общих категорий (понятий) к более узким, специализированным.

    Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей "лестнице" понятий:

    Science (Наука)

    Physics (Физика)

    Theoretical Physics (Теоретическая физика)

    Theories (Теории)

    String Theories (Теорииструн)


    В результате будет получен список сайтов, среди которых наибольший интерес представляет сайт Superstrings. Щелкнув мышью на гиперссылке Superstrings, мы попадаем на home page сайта, с соответствующим заголовком, на котором можно найти on-line учебник по теории суперструн, различные ссылки для дальнейшего чтения, глоссарий по суперструнам и т.д.

    Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием "человеческого фактора" в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, ибо из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %). Таким образом, несмотря на всю полезность тематических каталогов, использование лишь поисковых систем этого вида часто оказывается явно недостаточным.

    Сводная таблица избранных предметных каталогов

    List.Ru Апорт Яндекс Rambler Yahoo! About
    Общая характеристика 19 разделов верхнего уровня 14 разделов верхнего уровня 10 основных разделов, 7 комбинированных, дополнительная классификация 56 разделов 14 основных разделов 36 разделов
    Сортировка ресурсов внутри раздела Алфавит, оценка гидов, популярность (посещаемость), дата Алфавит, посещаемость, лига, оценка числа ссылок на данный ресурс, мнение пользователей Алфавит, дата добавления, индекс цитируемости по посещаемости по алфавиту по оплаченности ссылок
    Булевские операторы Используется язык поисковой машины Апорт Используется язык поисковой машины Яndex Используется язык поисковой машины Rambler Нет Нет
    Поиск по фразе " " " "
    Префиксы +, - +, -
    Итеративный поиск (в результатах) Есть поиск внутри категории После входа щелкните More…
    замена части слова * * (не всегда корректно)

    В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. Из каждого такого документа робот извлекает все содержащиеся в нем новые ссылки и добавляет их в свою базу адресов, в результате чего у программы-робота возникает возможность просмотра еще некоторого количества новых для него Web-документов. В каждом новом Web-документе робот анализирует все входящие в него слова и в разделе базы данных, соответствующем каждому данному слову, запоминается адрес (URL) документа, где это слово встретилось. Таким образом, база данных, создаваемая автоматическим индексом, фактически хранит сведения о том, в каких Web-документах содержаться те или иные слова. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства.

    Автоматический индекс имеет отдельную поисковую систему для обеспечения интерфейса с пользователем. Эта система может, просматривая базу данных, по заданному набору ключевых слов находить и выдавать на экран пользовательского компьютера адреса и краткую информацию обо всех Web-страницах, которые содержат данный набор ключевых слов. Таким образом, автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе данных. Именно с последней составляющей и работает пользователь. В силу такой организации, автоматический индекс не делает какой-либо классификации или оценивания информации.

    Интерфейс автоматических индексов позволяет пользователю задать некоторый набор ключевых слов, которые с его точки зрения, являются характерными для искомых им документов, и позволяют, таким образом, найти достаточно ограниченное число потенциально относящихся к делу Web-страниц. В качестве таковых слов могут быть использованы некоторые специфические термины и их комбинации, достаточно редкие фамилии и т. д.

    Успех поиска нужной информации в значительной степени определяется именно удачным выбором ключевых слов, ибо в противном случае поисковая система может выдать многие тысячи и миллионы ссылок на не относящиеся к делу Web-документы.

    Следует иметь ввиду, что начинающего пользователя подстерегает много разных неожиданностей, иногда доходящих до анекдотических ситуаций.

    Если для автоматических индексов поиск по ключевым словам является единственным средством нахождения необходимой информации, то в тематических каталогах (например, в Yahoo!) это средство является альтернативным способом поиска наряду с путешествием по системе (дереву) вложенных друг в друга категорий.

    Некоторой разновидностью поисковых служб являются рейтинговые службы. Они предоставляют клиенту готовый список некоторых ссылок, к которым обращались наиболее часто другие пользователи сети Internet. Когда речь идет о темах, имеющих общественный интерес, таких как новости, музыка и т. д., такие рекомендации, полученные статистическим методом, являются весьма удобными и полезными. Такие услуги, в частности, обеспечивает отечественная служба Rambler.

    2. Приемы поиска

    2.1. Простой поиск

    Каждая поисковая система (ПС) предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинаций ключевых слов. Однако есть общие элементы одинаково справедливые для большинства поисковых систем. Обычно все ПС допускают поиск Web-документов по ключевым словам, которые являются характерными для искомого документа. Выбор таких слов часто является нетривиальной задачей.

    Как правило, указание одного ключевого слова является недостаточным, и тогда возникает вопрос о том, как задавать их соответствующие комбинации. Пусть, например, мы хотим получить информацию о российском лауреате нобелевской премии 2000 г. Жоресе Алферове. Указание в поле поиска только фамилии

    приведет к обнаружению огромного количества документов, большинство из которых никакого отношения к интересующему нас физику не имеет. Задавая же в поле поиска два ключевых слова

    разделенных символом пробела, мы должны иметь ввиду, что разные поисковые системы реагируют на этот символ по-разному. Большинство ПС рассматривают пробел как знак логической операции "или" (OR) (к ним относятся Yahoo, AltaVista и т. д.). Поэтому поиск по комбинации слов Zhorez Alferov не сократит, а, наоборот, увеличит количество документов, найденных поисковой системой: будут найдены все документы, где встречается или слово Zhorez, или слово Alferov, или оба эти слова вместе.

    В таких случаях для более адекватного поиска можно использовать заключение ключевых слов в кавычки, которые определяют точную комбинацию заключенных в них символов:

    "Zhorez Alferov".

    Однако, при этом не будут найдены документы, в которые входит комбинация этих слов в другом порядке (Alferov Zhorez), ибо всё заключенное в кавычки является единым словосочетанием, и поисковая система ищет в документах абсолютно точное совпадение всех символов этого словосочетания.

    Для того, чтобы найти только те Web-страницы, на которых одновременно присутствуют все наши ключевые слова, перед каждым из них нужно поставить знак плюс. Например,

    Zhorez +Alferov

    приведет к нахождению Web-документов, где обязательно присутствует и слово Zhorez, и слово Alferov, причем не только в любом порядке, но и на любом расстоянии друг от друга (в последнем случае в найденном документе между этими словами может не быть никакой логической связи).

    Знак минус перед словом исключает все документы, которые его содержат, что в ряде случаев может быть очень полезно. Например, если нам нужно найти разные работы по геометрической, но не волновой оптике, то можно задать такую комбинацию ключевых слов

    Свет+оптика-волна

    Необходимо иметь ввиду, что многие слова могут иметь одинаковую основу, но разные окончания (например, указание множественного числа в английском языке, падежного окончания в русском и т. д.). В связи с этим многие поисковые системы, получив запрос в виде последовательности ключевых слов, производят его нормализацию: отбрасывают из этого запроса все слова, состоящие менее чем из четырех символов (например, английский предлог of), а также отбрасывают различные окончания и суффиксы.

    Например, чтобы не пропустить документ, в который входит фраза "В геометрической оптике световой луч...", поисковая система может приведенный выше запрос свести (нормализовать) к виду

    Свет+оптик*-волн* (1)

    Здесь символом звездочка (*) обозначены любые комбинации символов после корня соответствующих слов.

    Поскольку не все ПС проводят такую первоначальную обработку запроса клиента, целесообразно самим задавать запрос в форме (1), то есть использовать символ "звездочка" для указания возможных вариаций окончаний ключевых слов.

    Необходимо иметь в виду некоторое различие при использовании больших (прописных) и малых (строчных) букв в ключевых словах. Обычно поиск по маленьким буквам учитывает совпадения и когда в тексте стоит большая буква, и когда маленькая. Написание же ключевых слов большими буквами означает поиск документов, содержащих слово именно в таком виде.

    Очень полезным может быть поиск ключевых слов только в заголовках Web-страниц, поскольку важность заголовка документа обычно больше важности его текста. В разных ПС поиск ключевых слов лишь в заголовках Web-страниц, задается с помощью разных служебных слов: в AltaVista это слово title:, в Yahoo! - t: в Rambler - $ title:, и т. д.

    2.2. Расширенный поиск

    Приемы простого поиска не всегда позволяют с достаточной эффективностью найти требуемые нам Web-документы, в связи с чем поисковые системы предоставляют клиенту возможность использовать средства так называемого расширенного (advanced) поиска. Запросы для расширенного поиска строятся из ключевых слов, связанных знаками логических операций, и имеют вид аналогичный булевским выражениям, используемым в языках программирования.

    При этом кроме стандартных логических операций OR ("или"), AND ("и") и NOT (отрицание) используется, (и является очень эффективной!) операция NEAR, определяющая степень близости друг к другу ключевых слов в Web-документе.

    При выполнении сложных запросов важно понимать, в каком порядке выполняются приведенные выше операции, то есть каков их приоритет. В последовательности OR, AND, NOT, NEAR приоритет операций возрастает слева направо. Порядок выполнения отдельных элементов сложного запроса можно изменить с помощью круглых скобок, как это принято при записи булевских выражений в программировании.

    В отличие от средств простого поиска, средства расширенного поиска го-раздо более стандартизованы для разных поисковых систем. Большим преимуществом расширенного поиска является также гибкость предлагаемых клиенту возможностей построения запроса, а существенным недостатком - значительно более медленная его работа по сравнению с простым поиском.

    OR (операция "или") выполняет ту же самую функцию, что и знак пробела в запросах простого поиска в большинстве ПС. Например, запрос

    приводит к поиску документов, в которых есть или слово bush, или слово modes, или оба эти слова одновременно.

    AND (операция "и")приводит к нахождению документов, в которых обязательно встречаются оба связанных этой операцией слова, но при этом они могут находиться на любом расстоянии друг от друга. В результате может оказаться, что в документе нет какой-либо логической связи между двумя заданными ключевыми словами. Например, в ответ на запрос

    поисковая система AltaVista выдает ссылки не только на соответствующие научные работы по нелинейной динамике, но и на отдельные главы известного фантастического романа Г. Уэльса "Борьба миров", которые, разумеется, не имеют никакого отношения к предмету поиска.

    NOT - операция отрицания, позволяющая исключить те Web-документы, которые содержат ненужное словосочетание (таким образом, эта операция в сложном поиске играет ту же самую роль, что и знак "минус" в простом поиске).

    NEAR (логическая операция, указывающая степень близости друг к другу ключевых слов) является одной из самых удобных команд расширенного поиска. В разных поисковых системах понятие близости слов разное. Например, AltaVista считает близкими слова, которые разделены не более чем десятью другими словами. Некоторые другие ПС допускают при записи операции NEAR указание степени близости в явном виде, то есть позволяют определить максимально допустимое число посторонних слов, которые могут стоять между двумя ключевыми словами, связанными этой операцией.

    Запрос вида


    приведет к поиску документов, в которых два указанных ключевых слова стоят достаточно близко друг к другу, и стало быть, скорее всего связаны по смыслу. Например, в тексте Web-страницы может быть фраза: "Bushes of normal modes..".

    Жорес NEAR Алферов

    приведет к поиску документов, в которых есть словосочетания Жорес Иванович Алферов, Алферов Жорес Иванович и т. д. Заметим, что при использовании операции NEAR порядок следования ключевых слов в документе указать невозможно, что, впрочем, является скорее не недостатком, а преимуществом, и это хорошо видно из только что приведенного запроса.

    Как уже было сказано, с помощью вышеописанных логических операций можно задавать запрос на поиск в виде сложного логического выражения.

    Несмотря на существование некоторых общих принципов организации поиска Web-документов, различные ПС могут весьма сильно отличаться друг от друга по предоставляемым клиенту возможностям, по внешнему виду своих заглавных страниц и т. д., в силу чего знакомиться с ними желательно при непосредственной работе в сети Internet.

    В качестве примера ниже приведено очень краткое, схематическое описание двух наиболее популярных в настоящее время ПС Yahoo (тематический каталог) и AltaVista (автоматический индекс).

    3. Тематический каталог Yahoo

    Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Вызов поисковой системы Yahoo можно осуществить с помощью адреса http://www.yahoo.com.

    Заметим, что броузеры обычно допускают возможность не полного набора адреса. Например, в для вызова Yahoo можно набрать в поле адреса только слово Yahoo, а остальная часть адреса дописывается броузером автоматически.

    Заглавная страница Yahoo предоставляет клиенту возможность обращаться к двум основным методам работы с этой поисковой системой - к поиску Web-документов по ключевым словам, поле набора которых находится слева от кнопки "Search" ("Поиск"), и к поиску с помощью иерархического дерева различных разделов (категорий), расположенного ниже.

    Заметим, что и в том, и в другом случае поиск ссылки на нужный Web-документ происходит в одной и той же базе данных, но разными способами.

    Открыв интересующий раздел тематического каталога щелчком мыши по его названию, увидим новую страницу Yahoo, которая имеет точно такую же структуру, как и заглавная страница: она содержит поле поиска по ключевым словам и список подразделов выбранного нами раздела, и т. д.

    На заглавной странице Yahoo можно увидеть также рекламные объявления, различные дополнительные категории, например, новости, которые содержат, в частности, информацию о погоде и т. д.

    Если общее число найденных Yahoo ссылок достаточно велико, то список этих ссылок разбивается на порции. По умолчанию такая порция содержит 20 ссылок, но это число можно изменить, если обратиться к странице опций поиска, кнопка запуска которой находится рядом с кнопкой поиска "Search". Там же можно переопределить роль пробела между ключевыми словами (считать ли его логической операцией OR или логической операцией AND), и т. д.

    На странице выбора опций есть также переключатель, который позволяет включить или выключить режим поиска целых слов. В режиме Substrings Yahoo найдет все ссылки, в которых указанное нами слово стоит не только само по себе, но и является частью других слов, например, поиск слова "art" (искусство) сработает и на слове "department" (отдел, кафедра и т. д.). По умолчанию установлен режим Substrings, для того чтобы пользователь не был вынужден вводить каждое существительное в единственном и во множественном числе (т. е., с окончанием "-s"), и т. д. Напротив, в режиме Complete Words находятся заказанные нами ключевые слова только в том случае, если они ограничены с обеих сторон пробелами или знаками препинания.

    Поисковая система Yahoo ищет ссылки на документы, соответствующие запросу, в нескольких различных базах данных, прежде всего это названия категорий и заголовки Web-сайтов. Если необходимые ссылки таким образом не были найдены, Yahoo автоматически организует поиск в базе данных индивидуальных Web-страниц. Клиент может заказать поиск в одной из этих баз данных щелчком мыши на кнопках, которые расположены ниже поля ввода ключевых слов. Результаты поиска ПС Yahoo упорядочивает в соответствии с несколькими критериями, которые определяют рейтинг данной ссылки. Более высокий рейтинг присваивается документам, в которых ключевые слова встречаются большее число раз, в которых они входят в заголовок или если ссылка соответствует более старшему разделу в иерархическом дереве категорий.

    В конце страницы с результатами поиска Yahoo предлагает воспользоваться услугами нескольких других поисковых систем, если клиент не удовлетворен результатами этого поиска. Такие ссылки удобны тем, что система Yahoo, при обращении к ним, сама впишет наши ключевые слова в бланк запроса вызванной таким образом другой поисковой системы. Заметим в заключение, что Yahoo предоставляет около млн. ссылок на Web-страницы и это чуть более 0,1 % всего Web-пространства.

    4. Автоматический индекс Alta Vista

    Вызов этой поисковой системы можно осуществить по адресу: http://altavista.digital.com (для многих броузеров достаточно при этом набрать только слово altavista).

    Alta Vista имеет одну из самых больших баз данных в классе автоматических индексов, и самые мощные и гибкие правила построения запросов. При этом Alta Vista имеет как систему простого поиска (simple search), так и систему расширенного поиска (advanced search), кнопка которой находится ниже поля ввода ключевых слов.

    Предусмотрена возможность поиска информации и с помощью каталога категорий, устроенном аналогично каталогу системы Yahoo, причем, поиск по ключевым словам можно осуществить лишь в рамках определенной категории.

    Поиск Web-документов по ключевым словам можно осуществлять в базе данных для WWW-страниц или в базе данных телеконференций (Usenet). Для выбора одной из этих баз данных - содержимого WWW или Usenet - служит выпадающий список, который можно вызвать с помощью кнопки, находящейся под панелью заголовка этой системы, на ее заглавной странице.

    При использовании простого поиска системы Alta Vista необходимо учитывать его отличия от соответствующего средства ПС Yahoo. Действительно, по умолчанию Alta Vista, в отличие от Yahoo, ищет вхождения целых слов: заказанный термин должен стоять в Web-документе обособленно, а не быть частью других цепочек символов. Если же необходимо найти все вхождения данного ключевого слова, даже когда оно является частью других слов, необходимо использовать символ * (этот символ может стоять только в конце ключевого слова и заменять не более пяти букв). Например, запрос вида Ада* приведет к нахождению документов, в которых есть слова “Ада”, ”Адам”, ”Адажио” и т. д.

    Поисковая система Alta Vista, как и большинство других поисковых систем, предлагает клиенту и ряд дополнительных возможностей, в частности, позволяет находить лишь те Web-документы, в которых заданные ключевые слова встречаются только в гипертекстовых ссылках, заголовках документов, в их URL-адресах (что дает возможность находить все Web-страницы, расположенные на сервере с данным адресом) и т. д. Для этого в Alta Vista используются специальные команды: Anchor, title и т. д. Такие возможности можно использовать как порознь, так и вместе друг с другом.

    Бланк для расширенного поиска (advanced search) отличается от бланка простого запроса наличием двух полей. Второе из них - Results Ranking Criteria - полностью аналогично полю ввода бланка простого поиска, и в нем можно использовать те же специальные выражения, кавычки и знаки +, -, *. Однако здесь это поле играет лишь вспомогательную роль, определяя порядок сортировки полученных результатов: документы, содержащие ключевые слова из поля Ranking будут стоять в списке первыми.

    Ключевые же слова для собственно поиска должны вводиться в первом из полей - Selection Criteria. Запросы в этом поле строятся по описанным нами ранее правилам с использованием операций NEAR, NOT, AND, OR. Кроме того, внизу бланка поиска находится поле для ввода дат, позволяющих задать промежуток времени, в который были созданы или изменены интересующие нас документы.

    Об особенностях поиска в Alta Vista документов на русском языке заметим, что искать документы по русским ключевым словам в каталоге Yahoo смысла не имеет, поскольку сотрудники этой службы на русском языке не говорят.

    5. Поиск информации в конференциях (Usenet)

    WWW-страницы являются самым масштабным и ценным, но не единствен-ным источником информации в Internet. Большой интерес представляет система телеконференций Usenet, в которой каждый день публикуется более 100 тысяч сообщений со всего мира.

    Если клиент интересуется какой-либо определенной темой, он может просто подписаться на соответствующую группу телеконференций. Однако если он хочет не обсуждать свою проблему с живыми людьми, а просто выяснить, что известно по тому или иному вопросу, можно воспользоваться системами автоматического поиска в содержимом Usenet. Alta Vista ведет отдельный индекс по более чем 10 тысячам телеконференций, для поиска в котором нужно лишь перебросить переключатель поиска из значения "the Web" в значение "Usenet" (все правила составления запроса и установки опций в обоих этих случаях одинаковы). Результаты поиска представляют собой отсортированный список заголовков статей, полный текст любой из которых можно получить щелчком мыши по ее заголовку.

    Во всем мире считается самым лучшим сервисом для поиска информации в конференциях Usenet сервер DejaNews (http://www.dejanews.com). Среди русскоязычных выделяется сервер RusNews (http://news.corvis.ru), являющийся также новостным сервером, содержащим более 2000 новостных групп. Также имеет место аналогичный российский сервер ТЕЛА-поиск (http://tela.dux.ru/news.html).

    Совершенно уникальным источником информации являются документы с ответами на часто задаваемые вопросы (Frequently Asked Questions, FAQs). Такой жанр вопросов и ответов прекрасным образом вводит совершенно неподготовленного читателя в самую суть дела. Если первоначально списки ответов на вопросы существовали только для групп телеконференций, то сейчас документы с заголовком "FAQ" используются для клиентов самых разнообразных серверов и служб. В этом жанре пишутся статьи и обзоры, а фирмы и организации пропагандируют свои цели и устремления. Если клиенту нужно в сжатые сроки ознакомиться с новой областью науки, техники, культуры или политики, советуется начать с чтения раздела "FAQ" соответствующей телеконференции Usenet. И хотя таким образом нельзя приобрести слишком фундаментальные знания, зато можно быстро освоиться с терминологией, узнать о самых животрепещущих проблемах и нередко получить почти исчерпывающий список литературы.

    6. Отечественные поисковые службы

    Российский сектор Internet в настоящее время бурно развивается, и хотя отечественные поисковые системы еще отстают от соответствующих зарубежных систем по объему своих каталогов и индексов, по некоторым показателям (прежде всего, по применению новых технологий при обработке результатов поиска) они не уступают своим заграничным аналогам, а в ряде случаев и превосходят их.

    Укажем, прежде всего, на автоматический индекс Aport 2000 и тематический каталог @Rus (Атрус), расположенных по адресам: http://www.aport.ru/ и http://www.atrus.ru/, соответственно. Эти две системы находятся в партнерских отношениях. Действительно, когда в результате проведенного поиска Aport 2000 выводит адрес некоторой Web-страницы, она может сопровождаться кратким описанием соответствующего Web-узла, взятым из каталога @Rus. С другой стороны, при наполнении каталога Атрус активно используются средства поисковой системы Aport. С точки зрения клиента, однако, эти поисковые системы являются все-таки независимыми средствами получения информации. Отметим некоторые их достоинства. Aport 2000 использует наиболее эффективную в настоящее время систему рейтингования по количеству ссылок, ведущих к данному ресурсу(по индексу цитирования). Поисковая система Атрус предоставляет клиенту удобный каталог-портал "Мой @Rus", который пользователь может настроить на быстрое получение наиболее нужной ему информации. Средства настройки этого каталога позволяют также отключить все лишнее на основной странице поисковой систе-мы, что делает работу с ним особенно быстрой и удобной.

    6.1. Rambler ( http://www.rambler.ru )

    Поисковая система Rambler обладает одним из крупнейших индексов в Рос-сии, но основную популярность она приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему, и оценить их популярность по количеству посещений разными клиентами Internet за последние сутки. Хотя число посещений данного Web-узла далеко не всегда свидетельствует об истинной ценности имеющейся на нем информации, в случае тем, представляющих общественный интерес, такому рейтингу популярности можно доверять.

    По умолчанию находятся только те документы, в которых встретились все заданные нами ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR (как это имеет место по умолчанию в Yahoo или Alta Vista). Для этого в бланке расширенного поиска нужно выбрать опцию “Слова запроса: любое”.

    Чтобы исключить документы, содержащие те или иные слова, последние нужно указать на соответствующем поле бланка расширенного поиска.

    6.2. Яндекс ( http :// www . yandex . ru )

    Поисковая система Яndex выделяется своими мощными средствами расши-ренного поиска, а также целым рядом технологических достижений, например, наличием интеллектуального механизма морфологического разбора слов, что особенно важно для русского языка. Независимо от того, в какой форме написали ключевое слово в запросе, Яndex будет учитывать все его формы. Например, если ключевым является слово идти, находятся ссылки на Web-документы, содержащие слова идти, идет, и даже шёл. Однако существует возможность поиска и по точной словоформе, для чего перед этой словоформой надо поставить восклицательный знак “!”.

    Несколько набранных в запросе слов, разделенных пробелами, означает, что все они должны входить в одно предложение искомого документа (то есть пробел работает как знак логической операции AND).

    Следует иметь ввиду, что в ПС Яndex операцию AND можно указать и в явной форме с помощью символа “&” (но не с помощью слова AND !). Удвоение же этого знака, т. е. использование символа “&&”, приводит к распространению действия операции AND на весь документ (т. е. связанные с помощью && слова должны обязательно присутствовать в пределах всего документа). Символом же операции OR в рассматриваемой поисковой системе служит знак “|” (но не само слово OR).

    В ПС Яndex можно регулировать расстояние, на котором находятся друг от друга заданные ключевые слова в Web-документе. Например, запрос

    физическое/(-2 4) образование

    означает, что слово физическое может находиться как слева от слова образование (на расстоянии максимум двух слов от него), так и справа (на расстоянии максимум четырех слов от него).

    Создавшая ПС Яndex компания CompTek бесплатно предоставляет для корпоративных клиентов (организаций) облегченную версию программы Яndex.Site, которая выполняет индексацию содержимого Web-узла. Это удобно владельцам тех Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах своего собственного узла.

    Поисковая система Яndex имеет очень хорошее описание в разделе “Помощь”, который настоятельно рекомендуется посмотреть перед использованием этой системы.

    7. Поиск файлов

    Среди специальных систем поиска файлов в Интернете существуют аналоги уже рассмотренных ранее тематических каталогов (типа Yahoo) и автоматических индексов (типа Alta Vista). Разумеется, эти поисковые системы предоставляют клиенту не сами файлы, а лишь списки ссылок на них.

    Одной из самых популярных поисковых служб типа тематических каталогов для поиска файлов является shareware.com по адресу http://www.shareware.com. Эта система классифицирует файлы только по одному признаку: для какой операционной системы они предназначены, но она хранит описания всех файлов, составленные людьми. Заглавная страница shareware.com устроена аналогично страницам уже рассмотренных нами поисковых систем. Она предлагает клиенту различные виды поиска, причем, ключевые слова могут содержать символ *, соответствующий последовательности любых символов. Поиск производится как в именах, так и в описаниях файлов. Можно указать нижний временной порог поиска, чтобы получить ссылки на файлы, созданные не раньше заданной даты, и выбрать способ сортировки результатов-по дате или по алфавитному порядку имен файлов. Щелкнув на имени файла в списке результатов, получим ряд ссылок на узлы Internet, на которых хранятся копии этого файла с указанием надежности работы этих серверов и времени, необходимого для скачивания файла в зависимости от пропускной способности нашего канала.

    В отличие от каталога shareware.com, поисковая система Archie является автоматическим индексом аналогичным Alta Vista. Список анонимных узлов для Archie приходится вести людям (его можно найти по адресу http://hoohoo.ncsa.uiuc.edu/ftp/). Поиск в базе данных сервера Archie производится с помощью ключевых слов, которые в данном случае представляют собой просто имена файлов или фрагменты имен.

    Время ожидания связи с популярными FTP-узлами (такими, например, как богатое собрание программ для Windows (ftp://ftp.winsite.com)) может оказаться весьма большим, в силу чего в Интернете обычно имеются их точные копии или "зеркальные отражения" (mirrors), а поисковые системы выдают адреса всех этих зеркал.

    Каталог, содержащий общедоступные файлы, почти всегда называется pub. В большинстве архивов в каждом каталоге имеется специальный файл с краткими-обычно не длиннее одной строки-описанием каждого файла этого каталога. Такой файл может называться 0index, 00index и т. п. (нолики приписываются к имени файла, чтобы он всегда попадал на первое место в отсортированном по алфавиту списке файлов).

    8. Источники специализированной информации

    Существуют информационные компании, обеспечивающие ин­формационное электронное обслуживание. Например, Knight-Ridder (KR) - это крупнейшая в мире информационная компания, предоставляющая доступ к своим службам в интерактивном режиме. Здесь объединились такие всемирно известные службы, как DialogInformationService из США и DataStar из Европы. Используя Ин­тернет в качестве среды для распространения своих услуг, KR суме­ла автоматизировать ключевые моменты своей деятельности, улуч­шить обслуживание клиентов и, самое главное, расширить рынок своих услуг. Все это в конечном счете привело к тому, что KR стала мировым лидером в области доставки электронных документов и информационного сервиса.

    Имеет собственную систему информационного поиска в Интер­нете фирма IBM - InfoMarket. В ней сочетаются средства получения информации и управления платежами с правами доступа.

    Однако на начальной стадии освоения пространства Интернета не обойтись без самостоятельного поиска информации. Здесь весь­ма полезными могут оказаться адреса Web-узлов, хорошо зареко­мендовавшие себя источники деловой информации:

    www.kentis.com- это сервер компании KentInformationSystem, сотрудники которой помогают профессионалам в области бухгалте­рии и финансов использовать компьютерные технологии, особенно Интернет;

    http://www.promotion.aha.ru- on-line журнал по маркетингу в сети Интернет;

    http://www.inter.net.ru- журнал «Интернет», регулярно публи­кующий материал по маркетингу и рекламе в сети Интернет;

    http://clickz.com- журнал, полностью посвященный вопросам Интернет-маркетинга.

    9. Поиск отдельных людей в сети Internet

    Наиболее просто найти информацию о человеке, если у него имеется в сети Internet своя личная страница (personal home pages), на которой обычно имеется его фотография, e-mail и почтовый адрес, телефон и т. д. Нередко такая страница содержит краткую биографию автора, его хобби и т. д. Одна из крупнейших систем для поиска личных страниц называется Who’sWho и расположена по адресу http://web.city.ac.uk/citylive/pages.html.

    Существуют также обширные каталоги электронных адресов различных людей, которые пользуются электронной почтой (e-mail). Лидерство здесь, по-видимому, принадлежит каталогу Four11 по адресу http://www.four11.com.

    Отметим также каталог WhoWhere (http://www.whowhere.com), который производит поиск даже по схожести звучания или написания фамилий (например, “Kirsanov”, “Kirsanoff” и т. д.).

    Отечественный каталог электронных адресов располагается по адресу http://www.botik.ru/~intermap/form.html.

    Совершенно уникальным является всеамериканский адресный справочник по адресу http://www.databaseamerica.com, который выдает координаты любого из 90 млн. жителей США и любой из 10 млн. американских компаний.

    10. Метапоиск

    Базы данных разных поисковых систем в значительной мере не пересекаются. Поэтому для поиска достаточно редкой информации целесообразно обращаться не к одной, а к нескольким ПС. Однако правила оформления запросов для разных ПС, вообще говоря, отличаются друг от друга. Для того, чтобы не обращаться поочередно к разным поисковым системам и не думать о специфических правилах оформления запроса для каждой из них, были созданы так называемые метапоисковые системы.

    Приняв заказ клиента, заданный с помощью ключевых слов в соответствие со своими собственными правилами его оформления, метапоисковая система сама пропишет его в бланках разных поисковых систем, разошлет эти бланки и будет ждать ответа. Когда все поисковые системы пришлют результаты поиска, метапоисковая программа сведет их в один документ и отправит пользователю. К таким метапоисковым системам относится MetaCrawler расположенный по адресу (http://metacrawler.cs.washington.edu:8080), который рассылает запрос на 9 различ-ных поисковых систем (в их число входит: Yahoo, Alta Vista, Lycos, Excite и т. д.). На случай разной интерпретации одних и тех же по смыслу опций в разных поисковых системах MetaCrawler предусматривает даже возможность проверки результатов поиска: прежде чем дать ссылку пользователю, он самостоятельно посмотрит на документ и проверит, соответствует ли он условиям запроса - так как их понимает MetaCrawler. Разумеется, этот режим проверки сильно задерживает получение результатов, но зато позволяет защититься как от неработоспособных ссылок, так и от бессмысленных результатов. Заметим, что на бланке запроса MetaCrawler можно задать время ожидания: в список будут включены только те результаты, которые успеют прийти с различных поисковых систем к этому моменту.

    11. Эффективный поиск информации

    После подробного изучения основных возможностей инструментов обратимся к проблеме эффективности поиска. Основными параметрами эффективности поиска являются:

    Полнота поиска как отношение числа найденных документов к общему числу релевантных документов;

    Точность поиска – отношение числа релевантных документов к общему числу полученных документов;

    Актуальность ссылок на документы - существование найденных документов в сети в настоящий момент;

    Скорость поиска.

    В Internet существуют различные инструменты поиска, обладающие разными функциональными возможностями. Качество поиска, таким образом, зависит в первую очередь от параметров конкретной поисковой системы, например, от размеров индекса, от способа поиска (уточнение тем или поиск по запросу) и т.д. Далее, работая с конкретной поисковой системой, нужно иметь представление о методах составления запросов, знать необходимые операторы.

    Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

    Свойства и возможности поисковой системы;

    Качество формулировки запроса пользователем.

    Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, необходимо провести всесторонний лексический анализ информации, которую необходимо найти. Затем желательно составить набор ключевых слов (при необходимости, на нескольких языках) в виде отдельных терминов и словосочетаний, специфичных для вашей предметной области.

    Действия:

    Выбор поискового инструмента;

    Точная формулировка запросов с использованием операторов, поддерживаемых данным поисковым инструментом;

    Отправка тестовых запросов;

    Анализ результатов поиска (по количеству и релевантности ссылок);

    При необходимости, корректировка запроса;

    Повторный поиск;

    Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

    Поиск информации общего характера в поисковых системах-каталогах. - Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска явно недостаточно использовать только системы-каталоги с ограниченным числом описанных ресурсов. Кроме того, узкоспециальная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск подобной информации в поисковых машинах, обладающих индексами большого объема.

    Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной поисковой машины. Эффективным и простым способом решения проблемы составления качественного запроса является использование режима расширенного поиска.

    Использование функции поиска среди найденных ресурсов. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов.

    Использование метапоисковых систем. Данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько самых релевантных ссылок.

    Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей.

    Подписка на специализированные списки рассылки и т.д.

    Заключение

    В заключение, можно сказать, что единой оптимальной технологии поиска в Интернет не существует. В зависимости от специфики необходимой информации, для ее поиска должны использоваться соответствующие поисковые службы. Необходимо помнить, что чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.

    Литература

    1. Информатика и информационные технологии / Под ред. Романовой Ю.Д. М.: Эксмо, 2008

    2. Степанов А.Н. Информатика. СПб.: Питер, 2002

    3. Майечак Б. Поиск информации в сети // Интернет для детей от 8 до 88. М.: Интерэксперт, 2002

    4. Чечин Г. М., Положенцев Е. В., Нижникова С. В. Поиск информации в сети Internet. Ростов-на-Дону: РГУ, 2001 г.

    5. Диканский Е.Ю. Осваиваем Internet: Практический курс по информационным и коммуникационным технологиям для начинающих пользователей. М.: Илекса, 2001

    6. http://www.dist-cons.ru/modules/searchinf/index.html

    7. http://www.seonews.ru/masterclasses/detail/29812.php

    8. http://www.gdenet.ru/bibl/technology/transmission/5.1.html

    ПРОФЕССИОНАЛЬНЫЙ ПОИСК ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

    Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов.

    Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

    В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

    Основные средства интернет-поиска можно разделить на следующие основные группы:

    Поисковые машины;

    Веб-каталоги;

    Справочные ресурсы;

    Локальные программы для поиска в интернете.

    Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов. С точки зрения пользователя основной недостаток поисковиков – это неизбежное наличие информационного шума в результатах. Так принято называть попавшие по тем или иным причинам в список выдачи результаты, не соответствующие запросу.

    Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем. Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.

    Следующая часть интернет-поисковика – собственно программы поиска и сортировки результатов. Эти программы решают две основные задачи: сначала находят в базе страницы и файлы, соответствующие поступившему запросу, а затем сортируют полученный массив данных в соответствии с различными критериями. От эффективности их работы во многом зависит успех в достижении целей поиска.

    Последний элемент интернет-поисковика – пользовательский интерфейс. Кроме обычных для любых сайтов требований к эстетике и удобству, к интерфейсам поисковиков предъявляется еще одно важное требование: они должны предлагать различные инструменты составления и уточнения запросов, а также сортировки и фильтрации результатов. Преимущества поисковых машин – великолепный охват источников, сравнительно быстрое обновление содержимого базы и хороший выбор дополнительных функций.

    Главный инструмент работы с поисковиками – это запрос.

    Для интернет-поиска используются также специальные приложения, устанавливаемые на локальном компьютере. Это могут быть как простые программы, так и довольно сложные комплексы поиска и анализа данных. Наиболее распространены поисковые плагины для браузеров, панели для браузеров, предназначенные для работы с каким-либо конкретным поисковым сервисом, и метапоисковые пакеты с возможностями анализа результатов.

    Веб-каталоги – это ресурсы, в которых сайты распределяются по тематическим категориям. Если с поисковиками пользователь работает только посредством запросов, то в каталоге есть возможность просматривать тематические разделы целиком. Второе принципиальное отличие каталогов от автоматических поисковиков – это то, что в их наполнении, как правило, непосредственно участвуют люди, которые просматривают ресурсы и относят сайт к той либо иной категории. Веб-каталоги принято делить на универсальные и тематические. Универсальные стараются охватить максимум тем. В них можно найти все, что угодно: от сайтов о поэзии до компьютерных ресурсов. Другими словами, широта поиска у них максимальная. Тематические же каталоги специализируются на определенной тематике, обеспечивая за счет сокращения широты охвата ресурсов максимальную глубину поиска.

    Преимущества каталогов – сравнительно высокое качество ресурсов, поскольку каждый сайт в нем просматривается и отбирается человеком. Тематическая группировка сайтов позволяет удобно располагать сайты близкой тематики. Такой режим работы хорош для обнаружения новых для вас сайтов по интересующей теме – он точнее применения поисковой машины. Веб-каталоги рекомендуется использовать для первого знакомства с какой-либо предметной областью, а также поиска по нечетким запросам – у вас будет возможность «побродить» по разделам каталога и точнее определиться с тем, что именно вам требуется.

    Недостатки веб-каталогов известны. В первую очередь, это медленное пополнение базы, поскольку включение сайта в каталог предполагает участие человека. В отношении оперативности веб-каталог – не соперник поисковикам. Кроме того, веб-каталоги существенно уступают поисковикам по размерам баз.

    Говоря о интернет-поиске, нельзя обойти вниманием ряд терминов, которые тесно связаны с этой сферой и часто используются для описания и оценки поисковиков. Например: широта и глубина интернет-поиска. Широким называют поиск, который захватывает как можно большее количество источников информации. При этом достаточным считается хотя бы упоминание о том или ином подходящем запросу сайте. Глубина поиска относится к подробности индексирования и последующего поиска каждого конкретного ресурса. Например, многие поисковики по-разному подходят к индексированию разных сайтов. Крупные и популярные сайты индексируются в максимальном объеме, роботы стараются не упустить ни одной страницы такого ресурса. В то же время на других сайтах может быть проиндексирована только заглавная страница и пара страниц содержания. Эти обстоятельства, естественно, сказываются и на последующем поиске. Глубокий поиск работает по принципу «лучше включить в результаты лишнюю информацию, чем упустить какие-либо относящиеся к теме поиска данные».

    Достаточно часто можно встретить такие понятия, как глобальный и локальный интернет-поиск. При локальном интернет-поиске учитывается географическое местоположение пользователя и предпочтение отдается результатам, так или иначе связанным с конкретной страной или местностью. При глобальном поиске эта информация не учитывается, и поиск ведется во всех доступных ресурсах.

    При составлении запроса на интернет-поисковиках действуют различные режимы поиска. К типовым режимам поиска, которые встречаются на большинстве интернет-машин, можно отнести простой и расширенный поиск. Простой поиск позволяет в одном запросе указать только один поисковый признак. Расширенный поиск дает возможность составить запрос из нескольких условий, связав их логическими операторами.

    Для уточнения поисковых запросов используются различные фильтры . Фильтрами называют те или иные вспомогательные средства составления запроса, которые не относятся к содержательной стороне условий запроса, а ограничивают результаты поиска каким-либо формальным признаком. Так, например, применяя при поиске фильтр типа файла, пользователь не сообщает системе сведений, относящихся к теме своего запроса, а просто ограничивает полученные результаты определенным типом файлов, указанным в условии своего запроса.

    Для большинства пользователей универсальные поисковики являются основным, а зачастую и единственным средством интернет-поиска. Они предлагают хороший охват источников, а также набор инструментов, достаточный для решения основных поисковых задач.

    Рынок универсальных поисковиков достаточно велик. Мы постарались проанализировать наиболее известные поисковые системы, а результаты представили в виде таблицы 1.

    При выборе универсального поисковика важную роль играет качество находимых с его помощью ресурсов. Определить предпочтительный для конкретных задач поисковик можно «методом маркера». Суть его состоит в том, что вначале составляется некий тематический поисковый запрос, после чего опрашивается группа людей – экспертов в данной области на предмет выявления лучших, по их мнению, интернет-ресурсов по избранной теме. На основе данных опроса формируется список сайтов-маркеров, гарантированно релевантных запросу и содержащих качественную информацию. Затем запрос отправляется на тестируемые поисковики. Логика оценки проста: чем выше в результатах поиска будут расположены сайты-маркеры, тем лучше конкретный ресурс подходит для поиска информации по тестовой теме.


    Говорят, что в Интернете есть все. На самом деле – это не так. Материалы для размещения в сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным опубликовать. Впрочем, река питается ручьями, и, благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в сети ресурсов стала серьезной проблемой. Несмотря на то, что проблемой занимаются тысячи организаций, она не только не приближается к разрешению, но и становится острее. Процент каталогизированных ресурсов неуклонно падает. В последние годы это падение стало катастрофическим. Так, если в 1999 году процент каталогизированных ресурсов приближался к 40%, то всего лишь за один следующий год он опустился до 25 %.

    Вывод простой: пространство Web быстрее наполняется, чем систематизируется.

    К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в Интернет можно считать одной из самых трудных задач.

    Для поиска интересующей вас информации необходимо указать браузеру адрес Web-страницы, на которой она находится. Это самый быстрый и надежный вид поиска. Для быстрого доступа к ресурсу достаточно запустить браузер и набрать адрес страницы в строке адреса.

    Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях, звучат в эфире популярных радиостанций и с экранов телевизора.

    Если вы не знаете адреса, то для поиска информации в сети Интернет существуют поисковые системы, которые содержат информацию о ресурсах Интернета.

    Каждая поисковая система – это большая база ключевых слов, связанных с Web-страницами, на которых они встретились. Для поиска адреса сервера с интересующей вас информацией надо ввести в поле поисковой системы ключевое слово, несколько слов или фразу. Тем самым вы посылаете поисковой системе запрос. Результаты поиска выдаются в виде списка адресов Web-страниц, на которых встретились эти слова.

    Как правило, поисковые системы состоят из трех частей: робота, индекса и программы обработки запроса.

    Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.

    Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.

    Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.

    Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин хранят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

    Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.

    Множество ссылок на выходе системы распределяется программой в порядке убывания от наибольшей степени соответствия ссылки запросу к наименьшей.

    В России наиболее распространенными поисковыми системами являются:

    • Рамблер (www.rambler.ru);
    • Яндекс (www.yandex.ru);
    • Мэйл (www.mail.ru).

    За рубежом поисковых систем гораздо больше. Самыми популярными являются:

    • Alta Vista (www.altavista.com);
    • Fast Search (www.alltheweb.com);
    • Northern Light (www.northernlight.com).

    Яндекс является пожалуй наилучшей поисковой системой в российском Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов документов, которые система просматривает в течение нескольких секунд. На примере этой системы покажем как осуществляется поиск информации.

    Поиск информации задается введением ключевого слова в специальную рамку и нажатием кнопки «Найти», справа от рамки.

    Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале списка. При этом ранг найденного документа определяется тем, в каком месте документа находится ключевое слово (в заглавии документа важнее, чем в любом другом месте) и числом упоминаний ключевого слова (чем больше упоминаний, тем ранг выше).

    Таким образом, сайты, расположенные на первых местах в списке, являются ведущими не с содержательной точки зрения, а практически, по отношению к частоте упоминания ключевого слова. В связи с этим, не следует ограничиваться просмотром первого десятка предложенных поисковой системой сайтов.

    Содержательную часть сайта можно косвенно оценить по краткому его описанию, размещаемому Поисковой системой под адресом Сайта. Некоторые недобросовестные авторы сайтов, для того, чтобы повысить вероятность появления своей Web-страницы на первых местах Поисковой системы, умышленно включают в документ бессмысленные повторы ключевого слова. Но как только поисковая система обнаруживает такой «замусоренный» документ, она автоматически исключает его из своей базы данных.

    Даже ранжированный список документов, предлагаемый поисковой системой в ответ на ключевую фразу или слово, может оказаться практически необозримым. В связи с этим в Яндекс (как и других мощных Поисковых Машинах) предоставлена возможность в рамках первого списка, выбрать документы, которые точнее отражают цель поиска, то есть уточнить или улучшить результаты поиска. Например, на ключевое слово список из 34 899 Веб-страниц. После ввода в команду «Искать в найденном» уточняющего ключевого слова список сокращается до 750 страниц, а после ввода в эту команду еще одного уточняющего слова этот список сокращается до 130 Веб-страниц.

    Поисковые каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, npeдставляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

    Приведем в качестве примера структуру поискового интернет-каталога Яндекс.

    Это каталог общего назначения, так как в нем представлены ссылки на ресурсы Интернета практически по всем возможным направлениям. В этом каталоге выделены следующие темы:

    • Бизнес и экономика;
    • Общество и политика;
    • Наука и образование;
    • Компьютеры и связь;
    • Справочники и ссылки;
    • Дом и семья;
    • Развлечения и отдых;
    • Культура и искусство.

    Каждая тема включает множество подразделов , а они, в свою очередь, содержат рубрики и т. д.

    Предположим, вы готовите мероприятие ко Дню победы и хотите найти в Интернете слова известной военной песни Булата Окуджавы «Вы слышите, грохочут сапоги». Поиск можно организовать следующим образом:

    Яндекс > Каталог > Культура и искусство > Музыка > Авторская песня

    Такой способ поиска является достаточно быстрым и эффективным. В конце вам предлагается всего несколько ссылок, среди которых есть ссылки на сайты с песнями известных бардов. Остается только найти на сайте архив с текстами песен Б. Окуджавы и выбрать в нем нужный текст.

    Другой пример. Предположим, вы собираетесь приобрести мобильный телефон и хотите сравнить характеристики аппаратов разных фирм. Поиск мог бы вестись по следующим рубрикам каталога:.

    Яндекс > Каталог > Компьютеры и связь > Мобильная связь > Мобильные телефоны

    Получив ограниченное количество ссылок, можно достаточно оперативно их просмотреть и выбрать телефон, исследовав характеристики по фирмам и модификациям аппаратов.

    Большинство поисковых машин имеют возможность поиска по ключевым словам. Это один из самых распространенных видов поиска.

    Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Найти.

    Поисковая система найдет в своей базе и покажет документы, содержащие эти слова. Таких документов может оказаться множество, но много в данном случае не обязательно означает хорошо.

    Проведем несколько экспериментов с любой из поисковых систем. Предположим, что мы решили завести аквариум и нас интересует любая информация по данной теме. На первый взгляд самое простое - это поиск по слову «аквариум». Проверим это, например, в поисковой системе Яндекс. Результатом поиска будет огромное количество страниц - огромное количество ссылок. Причем, если посмотреть внимательнее, среди них окажутся сайты, упоминающие группу Б. Гребенщикова «Аквариум», торговые центры и неформальные объединения с таким же названием, и многое другое, не имеющее отношения к аквариумным рыбкам.

    Нетрудно догадаться, что такой поиск не может удовлетворить даже непритязательного пользователя. Слишком много времени придется потратить на то, чтобы отобрать среди всех предложенных документов те, что касаются нужного нам предмета, и уж тем более на то, чтобы ознакомиться с их содержимым.

    Можно сразу сделать вывод, что вести поиск по одному слову, как правило, нецелесообразно, ведь по одному слову очень сложно определить тему, которой посвящен документ, веб-страница или сайт. Исключение составляют редкие слова и термины, которые практически никогда не используются вне своей тематической области.

    Имея определенный набор наиболее употребительных терминов в нужной области, можно использовать расширенный поиск. На рис. показано окно расширенного поиска в поисковой системе Яндекс. В этом режиме возможности языка запросов реализованы в виде формы. Подобный сервис, включающий словарные фильтры, предлагается почти всеми поисковыми системами.

    Попробуем уточнить условия поиска и введем словосочетание «аквариумные рыбки». Количество ссылок уменьшится более чем в 20 раз. Этот результат нас устраивает больше, но все равно среди предложенных ссылок могут встретиться, например, русские сувенирные наборы спичечных этикеток с изображениями рыбок, и коллекции заставок для Рабочего стола компьютера, и каталоги аквариумных рыбок с фотографиями, и магазины аквариумных аксессуаров. Очевидно, что следует продолжить движение в направлении уточнения условий поиска.

    Для того чтобы сделать поиск более продуктивным, во всех поисковых системах существует специальный язык формирования запросов со своим синтаксисом. Эти языки во многом похожи. Изучить их все достаточно сложно, но любая поисковая машина имеет справочную систему, которая позволит вам освоить нужный язык.

    Приведем несколько простых правил формирования запроса в поисковой системе Яндекс.

    Ключевые слова в запросе следует писать строчными (маленькими) буквами.

    Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с прописной буквы.

    При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе.

    Например, если в запросе было указано слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знаете» и т. п.

    Для поиска устойчивого словосочетания следует заключить слова в кавычки.

    Например, «фарфоровая посуда».

    Для поиска по точной словоформе перед словом надо поставить восклицательный знак.

    Например, для поиска слова «сентябрь» в родительном падеже следует написать «!сентября».

    Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком &

    Например, «приключенческий роман» или «приключенческий&роман». Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

    Если вы хотите, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, поставьте перед каждым из них знак плюс «+». Если вы, наоборот, хотите исключить какие-либо слова из результата поиска, поставьте перед этим словом минус «-». Знаки « + » и «-» надо писать через пробел от предыдущего и слитно со следующим словом.

    Например, по запросу «Волга -автомобиль» будут найдены документы, в которых есть слово «Волга» и нет слова «автомобиль».

    При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту «|».

    Например, по запросу «ребенок | малыш | младенец» будут найдены документы с любым из этих слов.

    Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки

    Например, «(ребенок | малыш | дети | младенец) +(уход | воспитание)».

    Знак «~» (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе.

    Например, по запросу «книги ~ магазин» будут найдены все документы, содержащие слово «книги», рядом с которым (в пределах предложения) нет слова «магазин».

    Если оператор повторяется один раз (например, & или ~), поиск производится в пределах предложения. Двойной оператор (&&,~~) задает поиск в пределах документа.

    Например, по запросу «рак ~~ астрология» будут найдены документы со словом «рак», не относящиеся к астрологии.

    Вернемся к примеру с аквариумными рыбками. После про¬чтения нескольких предлагаемых поисковой системой документов становится понятно, что поиск информации в Интернете следует начинать не с выбора аквариумных рыбок. Аквариум - сложная биологическая система, создание и поддержание которой требует специальных знаний, времени и серьезных капиталовложений.

    На основании полученной информации человек, производящий поиск в Интернете, может кардинально изменить стратегию дальнейшего поиска, приняв решение изучить специальную литературу, относящуюся к исследуемому вопросу.

    Для поиска литературы или полнотекстовых документов возможен следующий запрос:

    «+(аквариум | аквариумист | аквариумистика) +начинающим +(советы | литература) +(статья | тезис | полнотекстовый) -(цена | магазин | доставка | каталог)».

    После обработки запроса поисковой машиной результат оказался весьма успешным. Уже первые ссылки приводят к искомым документам.

    Теперь можно подытожить результаты поиска, сделать определенные выводы и принять решение о возможных действиях:

    • Прекратить дальнейший поиск, так как в силу различных причин содержание аквариума вам не под силу.
    • Прочитать предлагаемые статьи и приступить к устройству аквариума.
    • Поискать материалы о хомячках или волнистых попугайчиках.
    1. Какой вид поиска является самым быстрым и надежным?
    2. Где пользователь может найти адреса Web-страниц?
    3. Каково основное назначение поисковой системы?
    4. Из каких частей состоит поисковая система?
    5. Какие поисковые системы вы знаете?
    6. Какова технология поиска по рубрикатору поисковой системы?
    7. Какова технология поиска по ключевым словам?
    8. Когда в критерии поиска надо задавать + или -?
    9. Какие критерии поиска в Яндексе заданы следующей фразой:

      (няня|воспитатель|гувернантка)++(уход|воспитание|присмотр) ?

    10. Что означает удвоение знака (~~ или ++) при формировании сложного запроса?

    Задание.

    Задание 1. Поиск по каталогам.

    Пользуясь каталогом поисковой системы, найдите следующую информацию (по указанию учителя):

    1. Текст песни популярной музыкальной группы
    2. Репертуар Мариинского театра на текущую неделю
    3. Характеристики последней модели мобильного телефона известной фирмы (по вашему выбору)
    4. Рецепт приготовления украинского борща с галушками
    5. Долгосрочный прогноз погоды в вашем регионе (не менее чем на 10 дней)
    6. Фотография любимого исполнителя современной песни
    7. Примерная стоимость мультимедийного компьютера (прайс)
    8. Информация о вакансиях на должность секретаря в вашем регионе или городе
    9. Гороскоп своего знака зодиака на текущий день

    По результатам поиска составьте письменный отчет в Word: представьте в документе найденный, скопированный и отформатированный материал. Предъявите отчет учителю.

    Задание 2. Формирование запроса по точному названию или цитате.

    Вам известно точное название документа, например «Гигиенические требования к персональным электронно-вычислительным машинам и организации работы». Сформулируйте запрос для поиска в Интернете полного текста документа.

    Результат поиска сохраните в своей папке. Предъявите учителю.

    Задание 3. Формирование сложных запросов.

    • В любой поисковой системе составьте запрос для поиска информации о русской бане. Исключите предложения об услугах, рекламу банных принадлежностей и прочую рекламу. Сосредоточьте поиск на влиянии русской бани на организм.
    • Составьте сложный запрос на поиск информации по уходу за домашними кошками. Исключите из поиска крупных кошек (например, львов), а также предложения о покупке, продаже, фотографии для обоев и т. п.
    • Текст запроса и результат поиска оформите в Word и представьте учителю.
    Задание 4. Тематический поиск.

    Всеми известными вам способами выполните поиск в Интернете информации по истории развития вычислительной техники. Поиск производите по различным направлениям: историческая обстановка, техника, личности. Результаты поиска оформите в виде презентации. Используйте в презентации многоступенчатой оглавление в виде гиперссылок.