Другие поисковые системы интернета. Секреты поиска в интернет и необычные поисковики

Для профессионального поиска в Интернете необходимы специализированный софт, а также специализированные поисковики и поисковые сервисы.

ПРОГРАММЫ

http://dr-watson.wix.com/home – программа предназначена для исследования массивов текстовой информации с целью выявления сущностей и связей между ними. Результат работы – отчет об исследуемом объекте.

http://www.fmsasg.com/ - одна из лучших в мире программ по визуализации связей и отношений Sentinel Vizualizer . Компания полностью русифицировала свои продукты и подключил горячую линию на русском.

http://www.newprosoft.com/ – “Web Content Extractor” является наиболее мощным, простым в использовании ПО извлечения данных из web сайтов. Имеет также эффективный Visual Web паук.

SiteSputnik не имеющий в мире аналогов программный комплекс, позволяющий вести поиск и обработку его результатов в Видимом и Невидимом Интернете, используя все необходимые пользователю поисковики.

WebSite-Watcher – позволяет проводить мониторинг веб-страниц, включая защищенные паролем, мониторинг форумов, RSS каналов, групп новостей, локальных файлов. Обладает мощной системой фильтров. Мониторинг ведется автоматически и поставляется в удобном для пользователя виде. Программа с расширенными функциями стоит 50 евро. Постоянно обновляется.

http://www.scribd.com/ – наиболее популярная в мире и все более широко применяемая в России платформа размещения различного рода документов, книг и т.п. для свободного доступа с очень удобным поисковиком по названиям, темам и т.п.

http://www.atlasti.com/ – представляет собой самый мощный и эффективный из доступных для индивидуальных пользователей, небольшого и даже среднего бизнеса инструмент качественного анализа информации. Программа многофункциональная и потому полезная. Совмещает в себе возможности создания единой информационной среды для работы с различными текстовыми, табличными, аудио и видеофайлами, как единым целым, а также инструменты качественного анализа и визуализации.

Ashampoo ClipFinder HD – все возрастающая доля информационного потока приходится на видео. Соответственно, конкурентным разведчикам нужны инструменты, позволяющие работать с этим форматом. Одним из таких продуктов является представляемая бесплатная утилита. Она позволяет осуществлять поиск роликов по заданным критериям на видеофайловых хранилищах типа YouTube. Программа проста в использовании, выводит на одну страницу все результаты поиска с подробными сведениями, названиями, длительностью, временем, когда видео было загружено в хранилище и т.п. Имеется русский интерфейс.

http://www.advego.ru/plagiatus/ – программа сделана seo оптимизаторами, но вполне подходит как инструмент интернет-разведки. Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL. Программа бесплатная.

http://neiron.ru/toolbar/ – включает надстройку для объединения поиска Google и Yandex, а также позволяет осуществлять конкурентный анализ, базирующийся на оценке эффективности сайтов и контекстной рекламы. Реализован как плагин для FF и GC.

http://web-data-extractor.net/ – универсальное решение для получения любых данных, доступных в интернете. Настройка вырезания данных с любой страницы производится в несколько кликов мыши. Вам нужно просто выбрать область данных, которую вы хотите сохранять и Datacol сам подберет формулу для вырезания этого блока.

CaptureSaver – профессиональный инструмент исследования интернета. Просто незаменимая рабочая программа, позволяющая захватывать, хранить и экспортировать любую интернет информацию, включая не только web страницы, блоги, но и RSS новости, электронную почту, изображения и многое другое. Обладает широчайшим функционалом, интуитивно понятным интерфейсом и смешной ценой.

http://www.orbiscope.net/en/software.html – система веб мониторинга по более чем доступным ценам.

http://www.kbcrawl.co.uk/ – программное обеспечение для работы, в том числе в «Невидимом интернете».

http://www.copernic.com/en/products/agent/index.html – программа позволяет вести поиск, используя более 90 поисковых систем, более чем по 10 параметрам. Позволяет объединять результаты, устранять дубликаты, блокировать нерабочие ссылки, показывать наиболее релевантные результаты. Поставляется в бесплатной, личной и профессиональной версиях. Используется больше чем 20 млн.пользователей.

Maltego – принципиально новое программное обеспечение, позволяющее устанавливать взаимосвязь субъектов, событий и объектов в реале и в интернете.

СЕРВИСЫ

new https://hunter.io/ – эффективный сервис для обнаружения и проверки email.

https://www.whatruns.com/ – простой в использовании, но эффективный сканер, позволяющий обнаружить, что работает и не работает на веб-сайте и каковы дыры в безопасности. Реализован также как плагин к Chrom.

https://www.crayon.co/ – американская бюджетная платформа рыночной и конкурентной разведки в интернете.

http://www.cs.cornell.edu/~bwong/octant/ – определитель хостов.

https://iplogger.ru/ – простой и удобный сервис для определения чужого IP .

http://linkurio.us/ – новый мощный продукт для работников экономической безопасности и расследователей коррупции. Обрабатывает и визуализирует огромные массивы неструктурированной информации из финансовых источников.

http://www.intelsuite.com/en – англоязычная онлайн платформа для конкурентной разведки и мониторинга.

http://yewno.com/about/ – первая действующая система перевода информации в знания и визуализации неструктурированной информации. В настоящее время поддерживает английский, французский, немецкий, испанский и португальский языки.

https://start.avalancheonline.ru/landing/?next=%2F – прогнозно-аналитические сервисы Андрея Масаловича.

https://www.outwit.com/products/hub/ – полный набор автономных программ для профессиональной работы в web 1.

https://github.com/search?q=user%3Acmlh+maltego – расширения для Maltego.

http://www.whoishostingthis.com/ – поисковик по хостингу, IP адресам и т.п.

http ://appfollow .ru / – анализ приложений на основе отзывов, ASO оптимизации, позиций в топах и поисковых выдачах для App Store , Google Play и Windows Phone Store .

http://spiraldb.com/ – сервис, реализованный как плагин к Chrom , позволяющий получить множество ценной информации о любом электронном ресурсе.

https://millie.northernlight.com/dashboard.php?id=93 - бесплатный сервис, собирающий и структурирующий ключевую информацию по отраслям и компаниям. Есть возможность использования информационных панелей основанных на текстовом анализе.

http://byratino.info/ – сбор фактографических данных из общедоступных источников в сети Интернет.

http://www.datafox.co/ – CI платформа собирающая и анализирующая информацию по интересующим клиентов компаниям. Есть демо.

https://unwiredlabs.com/home - специализированное приложение с API для поиска по геолокации любого устройства, подключенного к интернету.

http://visualping.io/ – сервис мониторинга сайтов и в первую очередь имеющихся на них фотографий и изображений. Даже если фотография появилась на секунду, она будет в электронной почте подписчика. Имеет плагин для G oogleC hrome.

http://spyonweb.com/ – исследовательский инструмент, позволяющий осуществить глубокий анализ любого интернет-ресурса.

http://bigvisor.ru/ – сервис позволяет отслеживать рекламные компании по определенным сегментам товаров и услуг, либо конкретным организациям.

http://www.itsec.pro/2013/09/microsoft-word.html – инструкция Артема Агеева по использованию программ Windows для нужд конкурентной разведки.

http://granoproject.org/ – инструмент с открытым исходным кодом для исследователей, которые отслеживают сети связей между персонами и организациями в политике, экономике, криминале и т.п. Позволяет соединять, анализировать и визуализировать сведения, полученные из различных источников, а также показывать существенные связи.

http://imgops.com/ – сервис извлечения метаданных из графических файлов и работы с ними.

http://sergeybelove.ru/tools/one-button-scan/ – маленький он-лайн сканер для проверки дыр безопасности сайтов и других ресурсов.

http://isce-library.net/epi.aspx – сервис поиска первоисточников по фрагменту текста на английском языке

https://www.rivaliq.com/ – эффективный инструмент для ведения конкурентной разведки на западных, в первую очередь, европейских и американских рынках товаров и услуг.

http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

http://falcon.io/ – своего рода Rapportive для Web. Он не является заменой Rapportive, а дает дополнительные инструменты. В отличие от Rapportive дает общий профиль человека, как бы склеенный из данных из социальных сетей и упоминаний в web.http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – дополнение для Firefox. Следит за обновлениями web-страниц. Полезно для web-сайтов, которые не имеют лент новостей (Atom или RSS).

http://agregator.pro/ – агрегатор новостных и медийных порталов. Используется маркетологами, аналитиками и т.п. для анализа новостных потоков по тем или иным темам.

http://price.apishops.com/ – автоматизированный веб-сервис мониторинга цен по выбранным товарным группам, конкретным интернет-магазинам и другим параметрам.

http://www.la0.ru/ – удобный и релевантный сервис анализа ссылок и бэклинков на интернет-ресурс.

www.recordedfuture.com – мощный инструмент анализа данных и их визуализации, реализованный как он-лайн сервис, построенный на «облачных» вычислениях.

http://advse.ru/ – сервис под слоганом «Узнай все про своих конкурентов». Позволяет в соответствии с поисковыми запросами получить сайты конкурентов, анализировать рекламные компании конкурентов в Google и Yandex.

http://spyonweb.com/ – сервис позволяет определить сайты с одинаковыми характеристиками, в том числе, использующими одинаковые идентификаторы сервиса статистики Google Analytics, IP адреса и т.п.

http://www.connotate.com/solutions – линейка продуктов для конкурентной разведки, управления информационными потоками и преобразования сведений в информационные активы. Включает как сложные платформы, так и простые дешевые сервисы, позволяющие эффективно вести мониторинг вместе с компрессией информации и получением только нужных результатов.

http://www.clearci.com/ – платформа конкурентной разведки для бизнеса различных размеров от стартапов и маленьких компаний до компаний из списка Fortune 500. Решена как saas.

http://startingpage.com/ – надстройка на Google, позволяющая вести поиск в Google без фиксации вашего IP адреса. Полностью поддерживает все поисковые возможности Google, в том числе и а русском языке.

http://newspapermap.com/ – уникальный сервис, очень полезный для конкурентного разведчика. Соединяет геолокацию с поисковиком он-лайн медиа. Т.е. вы выбираете интересующий вас регион или даже город, или язык, на карте видите место и список он-лайн версий газет и журналов, нажимаете на соответствующую кнопку и читаете. Поддерживает русский язык, очень удобный интерфейс.

http://infostream.com.ua/ – очень удобная отличающаяся первоклассной выборкой, вполне доступная для любого кошелька система мониторинга новостей «Инфострим» от одного из классиков интернет-поиска Д.В.Ландэ.

http://www.instapaper.com/ – очень простой и эффективный инструмент для сохранения необходимых веб-страниц. Может использоваться на компьютерах, айфонах, айпадах и др.

http://screen-scraper.com/ – позволяет автоматически извлекать всю информацию с веб-страниц, скачивать подавляющее большинство форматов файлов, автоматически вводить данные в различные формы. Скачанные файлы и страницы сохраняет в базах данных, выполняет множество других чрезвычайно полезных функций. Работает под всеми основными платформами, имеет полнофункциональную бесплатную и очень мощные профессиональные версии.

http://www.mozenda.com/- имеющий несколько тарифных планов и доступный даже для малого бизнеса веб сервис многофункционального веб мониторинга и доставки с избранных сайтов необходимой пользователю информации.

http://www.recipdonor.com/ - сервис позволяет осуществлять автоматический мониторинг всего происходящего на сайтах конкурентов.

http://www.spyfu.com/ – а это, если у вас конкуренты иностранные.

www.webground.su – созданный профессионалами Интернет-поиска сервис для мониторинга Рунета, включающий всех основных поставщиков информации, новостей и т.п., способен к индивидуальным настройкам мониторинга под нужды пользователя.

ПОИСКОВИКИ

https ://www .idmarch .org / – лучший по качеству выдачи поисковик мирового архива pdf документов. В настоящее время проиндексировано более 18 млн. pdf документов, начиная от книг, заканчивая секретными отчетами.

http://www.marketvisual.com/ – уникальный поисковик, позволяющий вести поиск собственников и топ-менеджмента по ФИО, наименованию компании, занимаемой позиции или их комбинации. В поисковой выдаче содержатся не только искомые объекты, но и их связи. Рассчитана прежде всего на англоязычные страны.

http://worldc.am/ – поисковик по фотографиям в свободном доступе с привязкой к геолокации.

https://app.echosec.net/ – общедоступный поисковик, который характеризует себя как самый продвинутый аналитический инструмент для правоохранительных органов и профессионалов безопасности и разведки. Позволяет вести поиск фотографий, размещенных на различных сайтах, социальных платформах и в социальных сетях в привязке к конкретным геолокационным координатам. В настоящее время подключено семь источников данных. До конца года их число составит более 450. За наводку спасибо Дементию.

http://www.quandl.com/ – поисковик по семи миллионам финансовых, экономических и социальных баз данных.

http://bitzakaz.ru/ – поисковик по тендерам и госзаказам с дополнительными платными функциями

Website-Finder – дает возможность найти сайты, которые плохо индексирует Google. Единственным ограничением является то, что для каждого ключевого слова он ищет только 30 веб-сайтов. Программа проста в использовании.

http://www.dtsearch.com/ – мощнейший поисковик, позволяющий обрабатывать терабайты текста. Работает на рабочем столе, в интернете и в интранете. Поддерживает как статические, так и динамические данные. Позволяет искать во всех программах MS Office. Поиск ведется по фразам, словам, тегам, индексам и многому другому. Единственная доступная система федеративного поиска. Имеет как платную, так и бесплатную версии.

http://www.strategator.com/ – осуществляет поиск, фильтрацию и агрегацию информации о компании из десятка тысяч веб-источников. Ищет по США, Великобритании, основным странам ЕЭС. Отличается высокой релевантностью, удобностью для пользователя, имеет бесплатные и платный вариант (14$ в месяц).

http://www.shodanhq.com/ – необычный поисковик. Сразу после появления получил кличку «Гугл для хакеров». Ищет не страницы, а определяет IP адреса, типы роутеров, компьютеров, серверов и рабочих станций, размещенных по тому или иному адресу, прослеживает цепочки DNS серверов и позволяет реализовать много других интересных функций для конкурентной разведки.

http://search.usa.gov/ – поисковик по сайтам и открытым базам всех государственных учреждений США. В базах находится много практической полезной информации, в том числе и для использования в нашей стране.

http://visual.ly/ – сегодня все шире для представления данных используется визуализация. Это первый поисковик инфографики в Вебе. Одновременно с поисковиком на портале есть мощные инструменты визуализации данных, не требующие навыков программирования.

http://go.mail.ru/realtime –поиск по обсуждениям тем, событий, объектов, субъектов в режиме реального, либо настраиваемого времени. Ранее крайне критикуемый поиск в Mail.ru работает очень эффективно и дает интересную релевантную выдачу.

Zanran – только что стартовавший, но уже отлично работающий первый и единственный поисковик для данных, извлекающий их из файлов PDF, таблиц EXCEL, данных на страницах HTML.

http://www.ciradar.com/Competitive-Analysis.aspx – одна из лучших в мире систем поиска информации для конкурентной разведки в «глубоком вебе». Извлекает практически все виды файлов во всех форматах по интересующей теме. Реализована как веб-сервис. Цены более чем приемлемые.

http://public.ru/ – Эффективный поиск и профессиональный анализ информации, архив СМИ с 1990 года. Интернет-библиотека СМИ предлагает широкий спектр информационных услуг: от доступа к электронным архивам публикаций русскоязычных СМИ и готовых тематических обзоров прессы до индивидуального мониторинга и эксклюзивных аналитических исследований, выполненных по материалам печати.

Cluuz – молодой поисковик с широкими возможностями для конкурентной разведки, особенно, в англоязычном интернете. Позволяет не только находить, но и визуализировать, устанавливать связи между людьми, компаниями, доменами, e-mail, адресами и т.п.

www.wolframalpha.com – поисковик завтрашнего дня. На поисковый запрос выдает имеющуюся по объекту запроса статистическую и фактологическую информацию, в том числе, визуализированную.

www.ist-budget.ru – универсальный поиск по базам данных госзакупок, торгов, аукционов и т.п.

В этой статье вас ждет обзор российских поисковых систем - отечественных разработок и глобальных поисковых систем, адаптированных под рунет. Составим небольшой рейтинг из списка поисковых систем России.

История поисковых систем в мире и России

Начиналось все конечно же с сайтов и каталогов сайтов, систематизировавших информацию о них. Но сайтов становилось все больше, да и не было понятно, как быстро вывести результаты поиска по нескольким сайтам и сравнить их, чтобы получить наиболее качественный результат в ответ на вопрос. Так и назревала понемногу эта проблема с самого появления интернета.

Но предпосылка появления глобальных систем по поиску информации в интернете сложилась уже давно - по мере геометрического роста количества сайтов, появления сайтов на региональных языках отличных от английского. Более того, росло не только общее количество сайтов, увеличивалось и число страниц на каждом из них. Поэтому понадобилась автоматизированная система индексации, ранжирования.

Ну а с увеличением числа пользователей интернета по всему миру до 3 с лишним млрд - выросла востребованность и популярность поисковых систем. Надо же как-то ориентироваться в этом море информации во «всемирной паутине».

Так появился первый поисковик Альтависта, потом Яху, Гугл и другие.

Список поисковых систем в мировом интернете

В настоящее время в международном интернете существует множество поисковиков, лидером среди которых является американский Гугл.

Список мировых поисковых систем в алфавитном порядке:

  1. Baidu;
  2. Bing;
  3. DuckDuckGo;
  4. Gigablast;
  5. Google Search;
  6. Soso.com;
  7. Startpage (Ixquick);
  8. YaCy;
  9. Yahoo! Search;
  10. Yandex Search.

На фоне всеобъемлющего доминирования поисковой машины Google, адаптированной ко многим локальным языкам и встроенной по умолчанию во все андроид-смартфоны, другие игроки рынка пытаются внедрять новые фишки для пользователей или пользуются другими возможностями для своего продвижения.

Например DuckDuckGo заботится о приватности и безопасности данных своих пользователей (не следит за ними и не продает эту информацию на сторону), а Бинг от Майкрософта продвигается как встроенный поисковик в браузер EDGE операционки Windows 10.

Со времен появления первых поисковиков, многие из них уже прекратили свое существование. Другие были поглощены. Yahoo так вообще стал многопрофильной компанией, значительный доход которой принес не поиск, а инвестиции в интернет-сервисы и стартапы.

Сейчас выйти на этот рынок без значительных инвестиций в маркетинг, науку и технологии наверное невозможно. Ведь за минималистичной строкой ввода поискового запроса скрывается ресурсо- и капиталоемкий механизм, тысячи работающих сотрудников и сотни тысяч человекочасов, уже вложенных в поисковые машины в недавнем прошлом.

Да и то, - пользователи очень инертны и имеют уже сформировавшиеся поисковые предпочтения, которые сложно изменить. Пример тому - безуспешные попытки компании Microsoft занять значительную долю поиска на ПК. Во многом, такая ситуация сложилась из-за непопулярности браузеров MS среди пользователей.

Так что простым пользователям остается только выбирать для себя наилучший поисковый сервис, а также ждать еще большего укрупнения и монополизации существующих поисковиков, либо появления новых стартапов в этой области.

Основные поисковые системы в рунете

На российском рынке в течение более десятилетия сохраняется ситуация доминирования Яндекса, постепенно теряющего свою долю под сильным натиском сурового Гугла. Собственно эти два игрока и являются основными доминирующими поисковыми системами в рунете. Рейтинг построить не получится, потому что на текущий момент разделение рынка идет практически 50/50.

Обратите внимание! Продвижение под Яндекс отличается от продвижения под Google. Как продвинуть сайт в Яндексе — .

Гугл пришел в Россию в 2004 году и с тех пор процент за процентом отбирает лидерство у российской поисковой системы Яндекс, но все никак не отберет. Подобная ситуация не уникальная на мировом рынке, есть еще как минимум 2 страны, где поисковик от Google встретил серьезное сопротивление: Чехия и Китай (КНР).

Для того чтобы составить беглое представление о рынке поиска в рунете, перейдите по ссылке https://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

После того как ПС закрыли от чужих счетчиков ключевые фразы, статистика Лайвинтернет сохранила свою ценность хотя бы оттого, что считает переходы с поиска Яндекса и Гугла. И вот что мы видим:

А на промежутке в 2 года действительно видно сокращение разрыва - Гугл догоняет и наносит ответный удар российскому поисковику.

Но как это возможно? Очень просто. Вы наверное помните, что современные фронтенд разработчики придерживаются принципа «mobile first»? И ведь неспроста - интернет действительно плавно переходит с десктопа на мобайл.

А что у нас на смартфонах и планшетах? Правильно, Андроид. А какой поиск установлен по умолчанию на Андроиде? Правильно, Гуглопоиск.

Вот такие дела. Если бы стартап «Андроид» купил Самсунг, а не Гугл - все могло бы быть по-другому.

Возвращаясь к рунету и поисковикам, нельзя не отметить постепенное снижение доли поиска от Маил.ру, плавающего около 5-6%. Его используют посетители сайтов Маил.ру Груп.

Есть еще так называемые поисковики второго эшелона: Рамблер, Нигма. Хотя корректнее их не учитывать вообще. У Рамблера (как у компании) было много проблем с менеджментом и рамблеровский поиск со временем «умер», не осилив маркетинговой конкуренции и технологической гонки. Нигма, в свою очередь, так и не взлетела - наверное потому что у российских серферов в интернете уже сформировались пользовательские привычки и предпочтения.

Таким образом, за 10-15 лет становления «поискового» рунета, Яндекс утратил звание безоговорочного и безусловного лидера и теперь уже на равных соревнуется с американским гигантом: где-то проигрывая, где-то выигрывая.

Причем тренд явно на поражение. Но посмотрим, в 2016 никто не знает на что готов Яндекс ради удержания доли поиска. Может это будет высокотехнологичная конкуренция, а может и не менее безжалостный административный ресурс - Яндекс уже прощупывает эту почву, подав недавно в суд на Гугл в ФАС и выиграв дело. Кто знает, может и Роскомнадзор заблокирует Гугл на территории РФ 😀 Конечно, ничего смешного, но я уже ни в чем не уверен.

Рынки поисковых систем в мировом интернете

Переходя от российского рынка к мировому, отмечу лишь что там ничего интересного. Практически безграничное доминирование Гугла. Есть конечно интересные ситуации на локальных рынках, о них и расскажу.

Турция. Яндекс вышел на турецкий рынок 5 лет назад и к 2016 году закрепился на отметке в 5-7%%.

Китай. Доминирует Байду, китайское правительство всячески защищает местный рынок. Да и с иероглифами западный человек без бутылки не разберется, - подобная особенность локального рынка все равно влияет на качество поиска.

СНГ. Яндекс тоже идет примерно на равных с Гуглом, где-то немного уступая, где-то немного выигрывая. Тренд на понижение более явный чем на российском рынке.

США. Американский рынок традиционно остается тем местом, где Гуглу готовы «дать по морде», используя все возможные ресурсы, другие крупные ТНК — Майкрософт, АОЛ, Яху. Это вам не неконкурентоспособная мелочь, которая не может оказать сопротивление. Неудивительно что доля гугла не является монопольной, а едва превышает 60-62% по состоянию на 2016 год.

Бинг от Майкрософта стабильно растет, а сама компания понимает важность экосистемы и находится в роли догоняющей по отношению к Андроиду. Купили Нокию и производят смартфоны с Виндоус на борту, выкатили свежую операционку для десктопов и планшетов и продвигают удобный браузер Едж. Работают люди. Яху тоже не сдается.

Вот пожалуй и все, что можно сказать о поисковых системах в России и СНГ, в мировом интернете. Самые популярные из них у всех на слуху и прочно удерживают свои места в глобальном рейтинге удобных сервисов по предоставлению поиска для интернет-пользователей.

Эта статья актуальна на 2016 год и время покажет, кто станет новым царем горы в России и мире, а кто уйдет с рынка. Пользователям ничего не остается кроме как наблюдать, голосовать рублем и ногами. То есть руками.

Большая часть времени, проводимая пользователем в интернете, тратится на поиск интересующей его информации. При этом существует масса способов добыть эти данные - можно заглянуть в онлайновую энциклопедию и попробовать отыскать ответ там, можно подписаться на рассылку по интересующей теме и внимательно изучать приходящую корреспонденцию, а можно посоветоваться с компетентными людьми на форуме, задав им вопрос. Но самый универсальный способ найти что-то в интернете - воспользоваться одной из многочисленных поисковых систем. Сервисы для осуществления поиска на миллионах и миллионах web-сайтов - это, пожалуй, основополагающее звено всемирной Сети. Без Google, Yahoo, Yandex и многих других привычных сегодня поисковых систем пребывание пользователя в Сети скорее напоминало бы хождение слепого по лесу. Значимость поисковых систем для работы в интернете трудно переоценить - у многих пользователей в качестве стартовых страниц указаны адреса поисковых систем, и именно с них для многих начинается бесконечное путешествие по различным ресурсам сети. Однако эффективность интернет-раскопок у всех разная - один человек находит информацию мгновенно, у другого на это уходит очень много времени, ну а третий может и вовсе не найти для себя ничего полезного. В чем же причина? Ответ прост: поиск в интернете сродни рыбалке - нужно знать, где ловить и на что ловить, т.е. где искать и как искать. В сегодняшней статье мы расскажем о том, как лучше всего проводить поиск в интернете, и поведаем, какие для этого существуют поисковые системы, кроме тех, которые "у всех на устах".

Однако начнем мы именно с тех систем, которые вы знаете. Если пользователь знает адрес поисковой системы, это еще не означает, что он умеет ею пользоваться. Давайте проверим, насколько вы хорошо разбираетесь в технологии поисковых запросов. То, насколько точные результаты вы получите, прежде всего, зависит от того, насколько умело вы сформировали поисковый запрос. Например, если вы ищете информацию для написания курсовой работы, не нужно вводить ее тему дословно, особенно если работа имеет узкую специализацию. Гораздо больше ценных сведений вы найдете, если попробуете подобрать ключевые слова, то есть те слова, которые обязательно будут встречаться в вашей работе. Если вы ищете утерянную инструкцию для автомагнитолы, то введя номер модели, наверняка получите огромное количество сайтов, предлагающих ее приобрести. Чтобы отсеять ненужные ссылки, можно использовать функцию поиска в найденном или исключить из поиска некоторые слова. Практически в каждом поисковике вы найдете функцию расширенного поиска. Это - еще один хороший способ отсеять ненужные результаты. Среди таких функций может пригодиться поиск страниц, которые недавно обновлялись, поиск страниц только на определенном языке или на сайтах, расположенных в указанной вами доменной зоне. Время, которое тратится на поиск, можно существенно сэкономить, если знать и использовать синтаксис языка запросов. Каждый поисковик имеет тут свои особенности. Например, когда вы ищете что-нибудь на Яндексе, то не лишним будет использовать следующие приемы:

  • Для поиска слов, которые должны встретиться на странице в одном предложении, поставьте между ними символ &
  • Чтобы исключить определенное слово из результатов поиска, добавьте его к своему запросу, поставив перед ним символы ~~
  • Чтобы найти страницы, в которых содержится хотя бы одно из слов, указанных в поисковом запросе, разделите их символом |
  • Для поиска слова в указанной форме поставьте перед ним восклицательный знак
Свои секреты есть и у поисковой системы Google. Вот лишь некоторые из них:
  • Для поиска информации на определенном сайте (и только на нем) введите в поле запроса его адрес, предварив словом site и двоеточием (например, site:http://www.сайт)
  • Для поиска фразы, которая должна встретиться на странице полностью, возьмите ее в кавычки
  • Для исключения из результатов поиска страниц, на которых встречается определенное слово, добавьте его к своему запросу, поставив перед ним знак минус
Это - лишь несколько штрихов, которые могут помочь сделать поиск в интернете эффективнее. Если же вы хотите добиться оптимального результата, мы советуем вам подробнее ознакомиться с синтаксисом языка запросов, который подробно описан в справочной системе вашего любимого поисковика. В том, что Google и Yandex - это незаменимые инструменты для поиска в сети, сомневаться не приходится - поиск в этих системах удобен, гибок и очень точен. Но, тем не менее, это не означает, что альтернативные поисковые системы не имеют права на существование. Да - они индексируют меньшее количество страниц, да - их методы подбора ресурсов во многом спорны. Но у таких поисковых систем есть одно неоспоримое преимущество - они предлагают что-то новое, отличное от принятых стандартов. Поскольку альтернативные поисковые сервисы используют иной подход к подбору ресурсов, соответствующих запросу, результат поиска будет совершенно иной, чем в случае с привычными поисковыми системами. Так что, если долгие поиски по известным сервисам ни к чему не привели, это означает одно - нужно сменить тактику и попробовать другие методы поиска информации, с помощью альтернативных поисковых систем. Зачастую альтернативные поисковики используют для сбора результатов один или несколько списков с ресурсами, которые были найдены Google, Yahoo и другими крупными системами. Эти результаты фильтруются, отбираются лучшие и часто для лучшего восприятия визуализируются при помощи диаграммы, карты сайтов, облака тегов и т.д. Разработчики альтернативных поисковых систем порой так далеко заходят в своих поисках нового универсального интерфейса, что, иногда трудно признать в web-странице поисковую машину. И тем не менее, это - поисковые системы. Необычные и странные, на первый взгляд...

FindSounds.com - ищет звуки

Этот ресурс предназначен для тех пользователей, которые находятся в творческом поиске. Ресурс позволяет искать звуковые файлы разных форматов - wav, mp3, aiff, au. В базе данных ресурса есть самые разнообразные звуки - крики животных, скрежет машин, звон, стук, сирены, жужжание насекомых, грохот взрывов и стрельбы, всплеск воды и т.д. Звуковые файлы могут искаться по разным критериям, например, по размеру, наличию двух или одного каналов звучания (стерео/моно), частоте дискретизации и разрядности звучания. В результатах поиска ресурс показывает не только ссылки на найденные файлы, но и их основные характеристики, а также показывает график амплитуды звука, по которой можно судить о характере звучания данного семпла.

База звуковых эффектов FindSounds может найти применение в самых разных областях - от разработки компьютерных игр и прочих приложений, до создания презентаций и всевозможных клипов. Поисковик может пригодиться, например тем, кто создает интерактивную web-графику и желает внести разнообразие на сайт, сопроводив нажатие элементов навигации страниц различными звуками.

Gnod.net - подберет музыку, книги и фильмы по вкусу

Когда у человека возникает желание почитать новую книгу, послушать какую-нибудь новую музыку или посмотреть фильм, он, как правило, обращается за советом к своему другу или знакомому, который в его глазах имеет авторитет. Однако найти того, кто согласился бы высказать свое мнение по данному вопросу, не так просто. Во-первых, не все любят давать советы, ведь рекомендуя что-то другому, человек берет на себя долю ответственности, и многих останавливает вопрос "А вдруг фильм, который я посоветую, ему не понравится?" Во-вторых, человек, который дает совет, должен понимать, что именно понравится собеседнику, а что - будет совершенно неинтересно. Ведь на вкус и цвет, как говорится… Но есть более простой способ получить хороший совет - воспользоваться особым поисковиком, который сделан именно для этой цели. Итак, вы захотели послушать новую группу, но нет времени и желания искать хорошую музыку. Ресурс gnod.net поинтересуется у вас несколькими именами музыкальных исполнителей, которые вам нравятся, проведет анализ результатов и предложит свой вариант певца или группы, которая тоже должна вам понравиться. Сервис имеет несколько баз данных - по музыкальным исполнителям, по фильмам, книгам и людям. Таким образом, ресурс вобрал в себя четыре сервиса: Gnod Music, Gnod Books, Gnod Movies и Flork. Последний сервис, Flork - это социальный эксперимент по обнаружению людей, которым интересно общаться друг с другом. Мы с удовольствием протестировали музыкальный раздел этого сервиса и ввели трех исполнителей - Gerry and the Pacemakers, The Beatles и Hollies. Наша подборка не была случайной - эти три группы принадлежат к эпохе шестидесятых, к интересному явлению, которое носит название Британское вторжение (British Invasion). Все эти группы играли бит, и поисковик должен был предложить группу или исполнителя в том же стиле. Так и случилось. Результат, предложенный нам - это группа Archies, которая в конце шестидесятых была на устах у всех американцев со своей веселой песенкой Sugar Sugar. Поиграв с поисковиком какое-то время, мы пришли к выводу, что gnod.net чаще дает правильный совет, а ошибается не очень часто. Для наглядности, результаты своего "совета" поисковик может предоставить в виде анимированного облака с названиями групп, авторов или фильмов. Базу данных можно пополнять самостоятельно, проводя "беседы" с поисковиком и отвечая на его вопросы в стиле "это мне нравится" или "это мне не нравится".

Alldll.net - найдет файлы библиотек

Этот поисковик мы рекомендуем вам сразу занести в закладки, так как рано или поздно он обязательно пригодится. Вероятно, каждому доводилось хотя бы раз столкнуться с проблемой отсутствия в системе какой-то библиотеки dll. Обычно это приводит к тому, что программы или игры отказываются запускаться, и на экране появляется сообщение "Couldn"t find *****.dll". Причин тому может быть много, например, отсутствие файла может быть вызвано некорректным удалением ранее установленного приложения, случайным повреждением файла и т.д. Кроме того, разработчик мог просто не включить в дистрибутив своего продукта эту библиотеку.

Исправить ситуацию очень просто - достаточно найти в интернете недостающий файл, загрузить его и скопировать в директорию той программы, которая отказывается запускаться, либо в папку..WINDOWSsystem32... Найти и скачать отсутствующий файл можно легко и быстро с помощью данного сервиса. Ресурс www.alldll.net представляет собой поисковую базу данных по наиболее популярным библиотекам dll. Файлы рассортированы по алфавиту, присутствует функция поиска. Искомый файл можно искать, даже если вам известно только приблизительное название библиотеки. Достаточно в поле запроса начать вводить текст, и в нижней части страницы появится огромный список файлов, которые начинаются с тех букв, которые были набраны.

Medpoisk.ru - поиск медицинской информации

Несмотря на то, что данная поисковая система использует движок поиска от Google, это ни в коей мере не снижает ее ценность. Medpoisk.ru - это универсальный поисковик, который предназначен для поиска исключительно на медицинских сайтах. Этот сайт - отличный инструмент для каждого медика и всех, кто желает получить ответ на любой вопрос из области медицины. Как лечить ту или иную болезнь, какие противопоказания у того или иного лекарства, к какому врачу обратиться - все это и многое другое можно узнать, "спросив" у поисковика. Поисковик включает в себя биржу труда и может использоваться для поиска работы среди медицинских работников. Ресурс также содержит каталог медицинских учреждений, рассортированных по регионам. Среди этих учреждений адреса клиник, медицинских центров разной направленности, родильные дома, диагностические центры, косметологические салоны и пр. Мы вам искренне желаем, чтобы этим поисковым сервисом вы пользовались исключительно из любопытства, а не по необходимости.

Taggalaxy.de - поиск картинок и фотографий

Возможно, вы слышали о популярном сервисе для обмена графическими файлами Flickr.com ? Это тот самый сервис, который в 2007 году был заблокирован китайскими властями, после того как на его страницах появились фотографии печальных событий 1989 года на площади Тяньаньмэнь, расположенной в столице Китая Пекине. Flickr.com является одним из первых Web 2.0 сервисов, а число изображений, загружаемых на него пользователями, исчисляется миллиардами. Количество картинок, загружаемых на серверы этого сервиса столь велико, что для того чтобы найти какое-то конкретное изображение в этом океане снимков и картин, необходима отдельная поисковая система. Сервис предлагает услугу поиска по изображениям, однако есть более интересный способ искать картинки - используя необычный поисковик taggalaxy.de. Этот поисковый сервис представляет собой средство для поиска изображений на Flickr.com, с предварительным просмотром. А необычным его делает интерфейс поиска, который полностью сделан трехмерным. Процесс поиска по ключевому слову напоминает какую-то компьютерную игру - в космическом пространстве летают разные небесные тела, между которыми можно перемещаться в виртуальном мире.

После того, как будет выполнен запрос по ключевому слову, на экране возникнет система из солнца и планет, которые вращаются вокруг светила. Каждое небесное тело имеет свое предназначение и "подписано" словом. В центре галактики - солнце, ключевой запрос, все остальные тела - это вспомогательные слова, уточнения. Если щелкнуть мышью по солнцу, этот объект приблизится, и со всех сторон на него слетятся и окружат фотографии, содержание которых определено поисковым запросом. Эту трехмерную модель с фотографиями можно поворачивать в виртуальном пространстве, подробно рассматривая и выискивая интересующее изображение. После этого достаточно щелкнуть по картинке, чтобы она увеличилась в размере, и тогда ее можно будет лучше рассмотреть и почитать описание.

В процессе работы с этим поисковиком, можно использовать функцию скроллинга - она позволяет приближать или отдалять трехмерные планеты. Остальные планеты, которые видны в интерфейсе поисковика после запроса - это вспомогательные слова, позволяющие уточнить запрос. Например, если ввести в поле поиска "Sky", то среди уточняющих слов-планет будут слова "сlouds", "sunset", "blue" и другие схожие по смыслу тэги, которые пользователи указали при использовании сервиса Flickr.com. Недостатком поисковой системы можно считать то, что taggalaxy.de не поддерживает русский язык, поэтому запросы можно вводить только латиницей.

Nigma.ru - фильтрует результаты других поисковых систем

Среди всех поисковых систем, которые можно встретить в интернете, существует особая группа поисковиков. Она отличается от всех остальных тем, что в них реализована функция мультипоиска, то есть одновременного поиска по нескольким поисковым системам. Одной из таких мультипоисковых систем является российский сервис Nigma.ru.

Nigma содержит собственную базу ресурсов, но помимо этого позволяет выполнять поиск сразу по всем наиболее популярным поисковым системам, в числе которых - Google, MSN, Yandex, Rambler, AltaVista, Yahoo и Aport. Механизм отбора результатов в этой поисковой машине отличается от большинства принятых методов обнаружения сайтов. Дело в том, что движок этого сервиса использует кластеризацию результатов. Что это означает? Представьте себе, что вы решили для себя выяснить, что такое "рендеринг". Сопоставив результаты в разных поисковых системах, движок Nigma.ru отобрал наиболее вероятные результаты и при этом в левой части окна, рядом со списком результатов поиска, отобразил так называемые кластеры - "визуализация", "создание", "система", "rendering", "процесс", "studio max", "компьютерной графики" и другие слова и словосочетания. Эти кластеры представляют собой тематическую группу найденных документов. Таким образом, можно быстро сузить круг поиска или конкретизировать поисковый запрос. В Nigma.ru можно также использовать рубрики, чтобы ограничить область, из которой будут выбираться результаты - например, выполнять поиск только с учетом музыкальных ресурсов или вывести результаты только для изображений. Еще одна возможность этого сервиса может быть интересна школьникам и студентам. Nigma.ru предлагает сервисы Nigma-математика и Nigma-химия. Первый предназначен для быстрого решения простых уравнений и различных арифметических операций, второй позволяет работать с формулами химических реакций. Поисковый сервис распознает более тысячи физических, математических констант и единиц измерения, позволяя быстро выполнять преобразование из одной размерности в другую.

Searchme.com - поисковик с предпросмотром

Всем известно, что для того чтобы найти конкретную информацию в сети, необходимо потратить немало времени. Просматривая результаты поиска, пользователь, в основном, открывает ресурсы наугад, не зная наверняка, найдет ли он на новой странице то, что его интересует, или это будет пустой тратой времени. Создатели поискового сервиса searchme.com задумались над этой проблемой и придумали ее оригинальное решение. Суть этого решения состояла в том, чтобы создать такую поисковую систему, в которой пользователь мог бы посмотреть на приблизительный эскиз страницы еще до ее загрузки. Это позволило бы составить дополнительное мнение о серьезности ресурса и о его содержании.

Реализация этой идеи была просто великолепной - созданный поисковик имеет красивый анимированный трехмерный интерфейс и показывает результаты поиска в виде анимированной ленты эскизов, уменьшенных скриншотов web-страниц, включающих в себя ключевое слово поиска. Ленту с результатами, подобно пленке со старыми негативами, можно прокручивать в окне браузера, используя специальный ползунок, расположенный под вереницей изображений. Эскизы мгновенно подгружаются, поэтому никаких "тормозов" с прорисовкой результатов не наблюдается. Особенно удобно работать с результатами поиска в полноэкранном режиме - тогда вполне можно разобрать даже текст статей на эскизах результатов. Чтобы оценить удобство этой системы, достаточно попробовать просмотреть новостные ресурсы. Фотографии к главным новостям на титульной странице web-издания, тут же дадут понять, какую новость на данном ресурсе считают наиболее важной.

Выход - специализированный поисковик торрентов. Сайтов, которые ищут по торрент-ресурсам, в сети немало. Однако torrent-finder.com имеет перед остальными поисковыми системами неоспоримое преимущество - этот сервис позволяет искать файлы на огромном числе трекеров одновременно.

Уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

2. Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

    Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

    Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

    Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

    Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

6. Заключение

Теперь подытожим все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Модуль индексирования
    2. База данных
    3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.

Доброго всем времени суток, мои дорогие друзья и читатели моего блога. Сегодня я вам хочу рассказать про самые известные поисковые системы в интернете на русском языке. Ресурсы сети Интернет используются для каждодневной работы и отдыха огромного количества людей.

А для того, чтобы получить то, что нужно или интересно используются поисковые системы, которые представляют собой аппаратно-программный комплекс для быстрого поиска необходимой пользователю информации, хранящейся на серверах (специальных компьютерах) Интернета.

Частота использования поисковой системы определяется, во-первых, тем насколько актуальные данные она предоставляет, а во-вторых, как быстро она это делает. Основными критериями для выбора являются:

  • полнота и точность найденных результатов;
  • актуальность данных;
  • скорость нахождения;
  • наглядность интерфейса.

В России наиболее востребованы такие поисковики, как Yandex, Mail, Rambler и некоторые другие. Но я хотел бы вам предоставить более подробный список этих систем, чтобы вы имели более полное представление обо всем этом.

Yandex.ru – наиболее популярна в пределах русскоязычного Интернета. Поисковые запросы можно писать как на английском, так и на русском языке. Девиз сайта Яндекс «Найдется все!» и действительно, им обеспечивается качественное и быстрое предоставление информации.

Лично я этим поисковиком пользуюсь же более 10 лет по умолчанию и мне он безумно нравится. А для любого веб-мастера он имеет просто огромное значение, так как любой из них в лепешку расшибается ради того, чтобы его сайт находили именно в этой системе.

Он обладает огромной индексной базой, а значит, может найти практически все. Вывод найденной информации отличается рациональностью. Яндекс непрерывно развивается. Он предлагает все больше востребованных сервисов, например, новости, карты, прогноз погоды, электронная почта, Яндекс. деньги. Кстати я тут писал , так что если вас это интересует, то обязательно почитайте.

На сегодняшний момент доля использования яндекса в России составляет около 56 процентов . То есть большая часть населения страны предпочитает использовать именно этот обозреватель.

Google

А вот и главный конкурент вышеупомянутого Яши. Да, система эта конечно не русская, но зато один из ее основателей — это наш соотечественник Сергей Брин. Правда его увезли в штаты еще будучи ребенком, поэтому врядли его можно назвать русским. Если вам интересно, то вы можете почитать , которые я для вас собрал.

Как бы то ни было, гугл является самой популярной системой в мире и пока еще второй по популярности в России.

На сегодняшний 38 процентов всех поисковых запросов России проходит именно через гугл

Поиск Mail.ru

У русскоязычных пользователей сети очень популярна почта mail.ru. Но не очень многие используют одноименный поисковик. Сам по себе он обычный и ничем не примечательный, поэтому против таких конкурентов, как вышеупомянутые яндекс и гугл, ему пока не выстоять. Хотя я сомневаюсь, что он будет пытаться покорять вершины поисковых систем. Ему вполне достаточно, что у него самая популярная почта России. Но всё же свои 5 процентов от общего числа запросов он имеет.

Кроме того сайт содержит огромное количество приложений, интересных игр, а также имеет собственную социальную сеть. Разработаны приложения позволяющие производить поиск по голосу.

Rambler.ru

Rambler – это один из наиболее ранних вариантов и раньше это была одна из самых популярных поисковых систем на русском языке, наравне с яндексом. И первые пару лет я активно использовал его в качестве поисковой системы по умолчанию, пока не перешел на Яндекс. Сейчас он используется не очень активно (я бы даже сказал совсем не активно), хотя он обладает неплохим качеством и отличной скоростью.

Он является также популярным медийным порталом Рунета, на котором можно использовать почту, узнать последние новости о самых разных сферах жизни. Кстати именно какмедийно-новостной портал он зарекомендовал себя вполне неплохо и я знаю многих людей, которые специально идут именно на рамблер, чтобы почитать последние новости.

Несмотря на свою былую популярность, рамблеру сегодня принадлежит меньше 0,5 процентов от общего количества запросов в интернете.

WebAlta.ru

WebAlta — один из новых российских поисковиков. Он неплохо развивается и уже отражает более 1 миллиарда документов, что является хорошим результатом. Он легко настраивается в соответствии с предпочтениями пользователей. Настройка визуализирована, и смена запроса сразу же отражается на результатах.

Но как же он меня раздражал пару лет назад, когда после установки какого-либо приложения вебальта вставала в качестве домашней страницы и поисковика по умолчанию. Я вообще думал, что это вирус какой-то. Поэтому еще раз скажу: « ».

Ну а насчет доли поискового трафика даже и говорить не буду, так как он ничтожно мал.

Nigma.ru

Nigma – это современная российская интеллектуальная метапоисковая система. Она использует современный кластерный подход, что улучшает качество и полноту процесса. Сайт включает математическую и химическую подсистемы для решения самых разных задач и стандартные пользовательские сервисы.

Но пока это наверное наименее популярный сервис из всех представленных выше. Хотя можете попробовать его в деле. Быть может вам всё понравится). Ну и насколько вы поняли, трафик тут также настолько низкий, что его можно даже не включать.

Скажите пожалуйста, какими поисковыми системами вы пользуетесь? Я спрашиваю не просто так. Дело в том, что недавно я узнал, что один мой знакомый пользуется рамблером. И если честно, то я был удивлен, что кто-то из моих знакомых пользуется не яндексом или гуглом. Я просто еще с середины нулевых подсел на яндекс и именно он является моим любимым поисковиком.

Ну вот теперь в принципе я думаю, что вы в принципе знаете все основные поисковые системы на русском языке, и сделаете выводы, какая из них вам интереснее. Но правда с двумя гигантами остальным будет сложно конкурировать

Ну а на этом я пожалуй свою сегодняшнюю статью закончу. Надеюсь, что она вам пришлась по вкусу. Если это так, то обязательно заходите ко мне снова. Удачи вам. Пока!

С уважением Дмитрий Костин.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: