Новые способы поиска информации
Всё же должен быть способ поиска информации в Web лучше, чем ввод ключевых слов и тщательный просмотр длинного списка результатов с целью выяснить, имеет ли выданная ссылка отношение к тому, что вы ищете. Если вы ищете конкретно характеристики цифровой камеры, то вам не нужны будут рекомендации по фотографированию или специальные предложения аксессуаров. Если вы ищете адрес фирмы, то хочется надеяться, что компания поместила его в разумное место на своём сайте. На самом деле, вся “Всемирная паутина” и большинство сайтов организованы не лучшим образом, и нет согласованного способа поиска специфических категорий информации. На конференции Demo, прошедшей в начале марта этого года, были представлены четыре новых сервиса, которые предлагают совершенно разные подходы для решения одной и той же проблемы, но все они используют сочетание контекста, категоризации, семантического анализа и онтологий, чтобы разобраться в огромной массе информации, хранящейся в Web. Попробуйте и скажите, лучше они, чем популярный Google, или нет.
Evri: детали во всём
Нажмите на картинку для увеличения.
Evriбыла анонсирована как утилита, больше похожая на виджет “Sphere”, который такие сайты, как CNN.com, используют для показа родственного контента на том же сайте и в Web. Данная технология является одним из способов поиска страниц на одну и ту же тему, используя естественные средства языка, чтобы понять, о чём страница. Evri собирает огромный словарь с помощью таких сайтов, как Wikipedia, Amazon и Freebaseto. Он знает около 42 разных значений слова “blue” или, например, что “ten” – это не только число, но и название альбома рок-группы “Pearl Jam”. Evri использует определённые правила, например, “люди разговаривают, а города нет”, чтобы не путать город Сиэтл с вождём Сиэтлом в таких фразах, как “Chief Seattle spoke” (“Вождь Сиэтл сказал”). Поисковик Evri собирает всю информацию, полученную с web-страниц, и находит связи между ними, чтобы создать в базе знаний страничку о каждом объекте (человек, продукт или вещь). Результаты поиска объединяются со стандартизированной информацией: всё от даты рождения и членов семьи до зарплаты и прозвищ (если речь идёт о людях) и доходов и количестве сотрудников (если речь идёт о компании).
Нажмите на картинку для увеличения.
Evri показывает связи между тем, что вы ищете, и другими понятиями, а также отображает детали и результаты поиска. Результаты поиска включают в себя картинки и видео, и отфильтровать их можно по трём категориям: по связям с другими объектами (например, статьи о Microsoft, в которых упоминается Apple); по категориям, к которым относится данная страница (статьи о Windows 7, внимание в которых сосредоточено на таких ключевых фигурах, как Стив Балмер (Steve Ballmer) или Стивен Синофски (Steven Sinofsky), или статьи о iPhone, в которых говорится о конкретных компаниях-разработчиках ПО); или по действиям (соревнования спортсменов, выпуск музыкальных альбомов или критика Стива Балмера). Для некоторых объектов действия могут быть аналогичны категориям и связям. Категории тоже могут частично совпадать, и фильтры являются полезным инструментом отбора статей из результатов поиска.
Тулбар Evri
Нажмите на картинку для увеличения.
Тулбар Evri позволяет пользоваться поисковиком Evri, не заходя на его сайт. Тулбар может также выделять все объекты на странице, о которых Evri что-либо известно. К примеру, вы можете навести курсор на выделенное слово, чтобы получить сжатую версию страницы Evri, с определением, топовыми результатами поиска, связями, картинками и видео (которое можно смотреть во всплывающем окне). Результаты поиска Evri больше ориентированы на новости, нежели аналогичные результаты поиска Google.
Xmarks: синхронизация закладок
Нажмите на картинку для увеличения.
Поисковой системе не нужны мощные алгоритмы, если у неё есть достаточно пользователей, классифицирующих сайты. Если вы отмечаете страницу в браузере закладкой, то это значит, вы считаете, что к ней стоит вернуться. Когда вы сохраняете свои закладки в Xmarks (ранее известный как Foxmarks), чтобы иметь возможность синхронизировать их с другими машинами, данный сервис отслеживает и запоминает популярные сайты на основании того, сколько пользователей добавило их в закладки. 600 миллионов закладок дают достаточно оснований для довольно точной оценки и анализа сайта.
Нажмите на картинку для увеличения.
Введите URL-адрес на сайте Xmarks или щёлкните по ссылке, которую плагин Xmarks поместил в вашу адресную строку, чтобы посмотреть, как часто посещаемую вами страничку добавляют в закладки, какой у неё рейтинг и какие сайты Xmarks считает похожими (на основании того, какие ещё сайты пользователи отметили закладками в той же папке). Многие пользователи отмечают закладками сайты Mint.com и Wesabe.com в папке под названием “Finance”, поэтому они считаются сходными сайтами, и Xmarks относит их к категории “финансы”. Осуществив поиск, вы можете кликнуть по нужной категории, чтобы искать по сайтам только в ней, но нельзя просто просматривать содержимое категории. Плагин Xmarks (уже поддерживает браузеры Firefox, IE и Safari) отмечает иконками три самые популярные ссылки в результатах Google. Щёлкнув по такой иконке, вы получите рейтинги и похожие сайты. Поскольку в основе лежит использование закладок, результаты в Xmarks в большей степени указывают на контентные сайты, а не на новостные статьи. Всё содержимое категории “социальные сети” ведёт на такие сайты, как Facebook и Bebo, и в Google выделяются в основном главные страницы официальных сайтов. Поэтому Xmarks является не только поисковым средством, но и рейтинговой службой.
Primal Fusion: поток сознания
Нажмите на картинку для увеличения.
Primal Fusion – это скорее технология, а не продукт; этого сайта пока нет даже в бета-версии, и хотя вы можете зарегистрироваться, чтобы получить к нему доступ, придётся подождать. Вот как он работает: вы вводите ключевые слова, которые система использует для поиска в Wikipedia (по умолчанию, поскольку это хороший источник идей и концепций). Вместо результатов запроса вы получаете “облако тэгов” (“tag cloud”). Вы выбираете те, которые вас интересуют, и добавляете их к “запомненным мыслям/remembered thoughts”. Переключитесь на другие ресурсы, например, на Flickr и Yahoo (пока ещё там мало ресурсов), чтобы получить другие результаты по соответствующим запросам. Они позволят добавлять вам новые теги к запомненным мыслям, поэтому вы сможете уточнять поиск. Получается своего рода поток сознания, вам не кажется?
Нажмите на картинку для увеличения.
Вместо заголовков страниц Primal Fusion показывает тэги и идеи, ассоциирующиеся с вашими ключевыми словами, которые можно использовать для уточнения или расширения поиска. Как ни странно, вы не сможете посмотреть результаты своего поиска и категоризации прямо из Primal Fusion. Вместо этого вам придётся нажать на кнопку, чтобы создать web-сайт со всей информацией (впрочем, эта функция работает нестабильно). В будущем вы сможете создавать документы или RSS-каналы. Семантический анализ документов не просто сложный, поскольку создаётся индекс, гораздо больший, чем оригинальный документ. В таком виде оно не может использоваться для Web, поэтому Primal Fusion создаёт очень компактное семантическое представление того, о чём вы думаете в реальном времени. Затем это семантическое представление сравнивается с найденными понятиями, разделяя их на контент, который соответствует вашим мыслям, и на новые темы. Это очень сложная система, поиск может быть медленным, источников очень мало, интерфейс пока только самый основной, так что авторам предстоит ещё очень много работы над этим проектом.
Ensembli: только те RSS, которые вас интересуют
Нажмите на картинку для увеличения.
Во всемирной паутине существуют тысячи RSS-каналов, и далеко не все из них будут вам интересны. Ensembli – это онлайновый клиент для чтения RSS-лент с “изюминкой”: вместо того, чтобы выбирать желаемые каналы, вы сообщаете ему темы, которые вас интересуют. Ensembli ищет по всем каналам (в настоящий момент их всего 1200, но разработчик постоянно добавляет новые, и вы можете запрашивать каналы, которые вам нужны), относящимся к данной тематике, но вместо того, чтобы выдавать самые свежие статьи, Ensembli старается показать самые релевантные. Поначалу выбор осуществляется с помощью совместной фильтрации, с использованием агентов, которые предсказывают, что вам было бы интересно, на основании действий других пользователей. Но по мере того, как вы читаете, игнорируете, помечаете в качестве “избранных” и удаляете различные статьи, Ensembli создаёт для вас персональный профиль и использует его как базис для выбора статей специально для вас. Ensembli собирает следующую информацию: нравятся вам или нет определённые сайты, короткие или длинные статьи вы предпочитаете, читаете ли вы более свежие статьи, а старые удаляете, и какие конкретно темы вы в результате выбираете. В общем, Ensembli следит за вашим поведением.
Нажмите на картинку для увеличения.
С ограниченным числом каналов и маленьким архивом (пока 2 недели) Ensembli не может обеспечить максимальную эффективность, и вы не получите полностью персонифицированных результатов до тех пор, пока не поработаете с Ensembli какое-то время, не почитаете и не оцените статьи. Впрочем, стоит приложить немного усилий, чтобы получать самые значимые для вас статьи. Ensembli быстро учится, поэтому со временем не будет предлагать вам RSS-каналы, которые вам не нравятся, и, наоборот, стоит только отметить несколько статей на одну и ту же тему, и вы будете получать больше аналогичных статей.
Заключение: семантическая паутина?
Все четыре утилиты/сервиса стараются разобраться в массе информации, хранящейся в Web. Xmarks сообщает вам о том, что предпочитают другие пользователи, если вы знаете, с какого сайта начать. В данный момент это страницы верхнего уровня, поэтому Xmarks больше всего пригодится для проверки того, какие популярные сайты на самом деле имеет смысл смотреть. Можно также использовать Xmarks для проверки легитимности сайтов.
Если вы хотите найти информацию о конкретном человеке или компании, то Evri быстро вам в этом поможет. Несмотря на то, что это самая продвинутая из четырёх рассмотренных утилит/сервисов, Evri всё же не может дать всего того, что вам нужно, и она не работает с более абстрактными понятиями.
Зато Primal Fusion полностью основан на абстрактных понятиях, и когда этот сервис, наконец, “встанет на ноги” и будет поддерживать больше источников, он будет очень интересным способом исследовать идеи.
Утилиту Ensembli придётся научить, зато потом она сама будет искать статьи только по интересующей вас тематике. Как только она “узнает” вас, результаты новых поисков будут более точными – конечно, если вы будет работать с сервисом в соответствии со своими интересами.
Все эти новые утилиты и сервисы помогают нам приблизиться к заветной цели – к реализации семантической паутины (semantic Web), которая будет обеспечивать более эффективный поиск информации. Однако все эти сервисы ещё нужно развивать и совершенствовать, прежде чем можно будет получить от них реальную пользу.