Третий Веб
(15.09.07 14:40)
Web: вступление
Совсем недавно новостные агентства облетела новость, что IBM и BBC принялись за разработку Web 3.0. Затем поступила информация, что между Европейским Союзом и США намечается конкуренция за право первенства в технологиях Web 3.0, или, как еще называют, Семантической Сети.
В общем-то, многие эксперты сомневаются, что и Web 2.0
в действительности существует, подразумевая эфемерность и абсурдность
самого явления нумерации Сети. Так же критично они посматривают и в
сторону «третьей версии неизвестного продукта». Многие считают, что
улучшение качества поиска - лишь небольшой элемент общего
технологического прогресса, достойный максимум версии 2.1. Мол, когда
научатся распознавать образы, человеческую речь и построят более-менее
вменяемый ИИ, тогда и поговорим о «третьем Вебе».
Что же такое в действительности Семантический Веб и достоин ли он
прийти на смену существующему интернету – основные вопросы
пользователей и сетевых инвесторов. Об этом и пойдет речь
Web: классификация версий
Когда мы говорим о Web, то в первую очередь подразумеваем контент.
Скачать рефератик или новый софт из гигантской всепланетной свалки и
заплатить за это утомлением глаз баннерной рекламой – это концепция
того, что сейчас можно назвать Web 1.0. Пользователь выступает
пассивным потребителем информации, которую создают 2-10 % активных
участников сети.
Под Web 2.0 обычно понимают сервисы, которые позволяют
пользователями самим генерировать контент, а также распространять его
посредством лент и гиперссылок. Пользователь сам выбирает, какой именно
контент он должен получать, выходя в сеть, настраиваясь на чтение
избранных блогов, сообществ, лент. Таким образом, фундаментальная
основа Web 2.0 кроется в многочисленных сервисах веб-связи, которые
объединяют схожие информационные потоки и направляют их конкретным
потребителям. Однако такая концепция влечет за собой существенные
недостатки. В частности, пользователь не знает, что происходит за
пределами его информационных сетей. Нефильтрованный контент, который
может нести важную ценность, может пройти мимо и оказаться вне
интересов пользователя и сообщества.
Осознав этот простой факт, ряд крупных корпораций (в частности, BBC, IBM, Google, Oracle) в качестве основного направления развития интернета на ближайшие 5-10 лет предложили семантическую систему Web 3.0,
основанную на «умной» обработке информации. Суть её заключается в том,
что не пользователи, а сами машины осуществляют поиск информации по
содержимому, включая поиск по видео- и цифровым изображениям,
основываясь на метаданных и метабазах. Web 3.0 должен
решить самую актуальную проблему развития интернета - поиска значимой
информации, отделение её от информационного мусора. Одно из решений
заключается в том, чтобы ранжировать информацию по источнику авторства,
в зависимости от рейтинга источника. И сам рейтинг должен быть не
автоматическим, начисляемым просто за активность в сети, а определяемым
другими пользователями интернета. Другие, более популярные решения, в
основном строятся вокруг метаданных.
Web: future is now
В языкознании семантика изучает смысл предложений, в концепции Semantic Web (SW)
однозначно характеризует найденный контент по ряду характерных
признаков. SW для трактовки данных использует универсальный
идентификатор ресурсов (URI; это ссылки не только на электронные адреса
или какие-то Web-страницы, но и на отдельных людей, города,
художественные артефакты и т. д.), онтологии и языки описания
метаданных (лексический анализ для машинной обработки).
SW становится надстройкой над уже существующими системами социальных
сетей и облегчает поиск и обработку информации в первую очередь для
машин. Осуществляется это технически дублированием содержания контента
в метабазы. Зачем же необходимо облегчить обработку информации для
машин? Сейчас для людей информация готовится в виде текста, образов и
звуков, а для машин – в виде специальных кодов. Семантическая сеть
предусматривает объединение этих разных видов информации в единую
структуру, где каждому элементу «человеческой» информации будет
соответствовать машинный код – специальный смысловой тэг. Все тэги
должны составлять единую иерархическую структуру RDF (Resource Description Framework),
на основе которой и будет работать семантическая сеть. Метаданные будут
в обязательном порядке включать сведения о том, как, где и кем была
собрана данная информация и как она структурирована, что позволит URI
привести ссылки на конкретного пользователя.
Web: практическая реализуемость
Семантический веб - уже не мечта и не фантастика, он активно
используется в крупных корпорациях и госучреждениях, но это специальные
разработки, требующие больших усилий. Например, в разведке
семантическая технология используется для выявления связей между людьми
при борьбе с терроризмом. Вся информация о террористах хранится в
трехуровневой системе RDF, построенной на стандартной
базе данных. Для управления сложным процессом обработки этих данных
системе требуется 22 Тбайт оперативной памяти, и работает она
нестабильно, а на восстановление системы после сбоя уходит неделя.
Однако первые шаги в сторону Web 3.0 сделаны, и мы можем подробнее взглянуть на основу технологии – семантические
спецификации, протоколы и языки.
Возможно, вам знакомы такие технологии, как RDF, OWL Web Ontology Language и SPARQL,
а также их родственники, наподобие XML. Весь этот набор букв позволяет
разработчикам организовать данные в семантическую структуру.
Самый интересный из языков Web 3.0 - без сомнения RDF. В языке RDF
документ состоит из утверждений о том, что нечто (человек, веб-страница
или что-либо ещё) имеет определённое отношение (как то «быть сестрой»,
«быть автором») с некоторым определённым значением (другой человек,
другая веб-страница). Подобная структура оказывается весьма
естественной для описания подавляющего большинства
машинно-обрабатываемых данных. Субъект и объект задаются с помощью URI,
подобно ссылкам на веб-страницах. Стоит отметить, что RSS версии 0.90 и
1.0 построен на RDF.
Другой кит, на котором стоит Web 3.0 - Web Ontology Language (OWL). OWL – это язык онтологии для интернета на основе XML. Язык веб-онтологий OWL
призван обеспечить язык, который может быть использован для описания
классов и отношений между ними, которые присущи для веб-документов и
приложений. В основе языка находится представление действительности в
модели данных объект-свойство. Каждому элементу описания в этом языке
ставится в соответствие www-адрес URI.
Web: проекты и приложения
Уже сейчас достаточно большое количество компаний развивает Semantic Web. Например, английская компания Garlik использует технологии Semantic Web
для «управления персональными данными в цифровом мире». В частности,
компания работает над тем, чтобы дать возможность пользователям
обнаружить следы своего присутствия в Web и увидеть, что может раскрыть
агрегирование этой информации, выставленной на обозрение через
хранилище RDF. Инженер компании Yahoo Дейв Беккетт объявил в ноябре 2006 года, что сайт Yahoo Food использует OWL и RDF,
а также ряд других технологий. Компания Teranode среди прочего
исследует использование технологий Semantic Web для интеграции научных
данных, особенно в области биологических наук.
Joost, новая платформа Internet-телевидения, объявив о партнерстве с Viacom, широко использует RDF. Наиболее продвинутыми разработками Web 3.0 можно назвать следующие:
FreeBase -
сообщество пользователей, которые создают связи к свободно
представленным базам WikiPedia, Musicbranz и другим. Слинкованные
данные добавляются в Wiki-стиле по мета-признакам, категориям и
фольксомонии. В базе данных сейчас насчитывается около 20 000 фильмов,
350 000 музыкальных альбомов, 350 000 данных о людях, всего 873
категории. Каждую запись в базе можно обсудить, посмотреть отношения
или отредактировать. Проект находитcя в альфа-тестировании, и поэтому
доступ к базе - только по приглашениям.
DBpedia - тоже
сообщество, которое извлекает структурированную информацию из Wikipedia
и создает связи с другими источниками. Проект использует RDF (9,3
миллиона документов с 647,348 связями на 11 языках), что позволяет
делать SPARQL-запросы к этим данным (SPARQL – стандарт языковых
запросов семантической паутины)). Несколько реализаций для различных
языков программирования уже существуют. На данный момент имеет
связанные ссылки с базами Musicbranz, Geonames, YAGO-классификацией и
содержит почти 60 тысяч данных о людях. В базе представлены такие
разделы, как фильмы, музыка, политика, наука и другие, постоянно
пополняющиеся.
Friend of a Friend
(FOAF) - проект по созданию модели машинно-читаемых домашних страниц и
социальных сетей. Сердцем проекта является спецификация, которая
определяет некоторые выражения, используемые в высказываниях о
ком-либо: например, имя, пол и другие характеристики. Чтобы сослаться
на эти данные, используется идентификатор, включающий уникальные
свойства друга (например, SHA1-сумма от E-Mail адреса, Jabber ID, или
URI домашней страницы, веблога).
Основанный на RDF, определённый с помощью OWL и разработанный для
лёгкой расширяемости, FOAF позволяет распределять данные между
различными компьютерными окружениями.
WordNet
- лексическая база для английского языка. В базе собраны имена
существительные, глаголы, прилагательные и наречия, которые
группируются в наборы познавательных синонимов (synsets). Synsets тесно
связан с помощью умозрительно-семантических и лексических отношений.
Результирующая сеть значимо связанных слов и понятий может быть найдена
представленным на сайте навигатором. Ко всем данным базы открыт
свободный доступ с помощью машинных запросов SPARQL.
Geonames
– проект сопоставления географических названий с ассоциируемыми
RDF-данными. Другими словами, географическая информация будет
представлена на сайте по RDF-стандартам.
Linking Open Data on the Semantic Web
- собирается вообще всю открытую информацию в интернете перевести в RDF
и, к тому же, занимается составлением RDF-ссылок между другими
проектами Web 3.0.
Обычные сайты, построенные по технологии Web 3.0:
http://www.sun.com/servers/wp.html/
http://www.forum.nokia.com/
http://pressroom.oracle.com/
http://www.harpers.org/
Однако используемые на этих сайтах технологии незаметны для
пользователя. Чтобы их увидеть в удобочитаемом виде, вам придется
использовать браузер для просмотра RDF, такой как Tabulator, Disco, или
OpenLink RDF Browser, или применять расширения веб-браузеров, такие как
PiggyBank или Semantic Radar.
Web: заключение
Web 3.0 в его сегодняшнем, Семантическом понимании вовсе не собирается приходить на смену Web 1-2. Web 3.0
- это не трехмерные вращающиеся во все стороны сайты, не голосовое
управление контентом, не искусственный интеллект, который полностью
контролирует все системы, от вашего дома до кондиционера в офисе.. Хотя
концепция Web 3.0 вовсе не отрицает таких дизайнерских или
технологических усовершенствований. Web 3.0 на
сегодняшний день в большей степени отвечает внутренним изменениям
механизмов работы Сети, подчас незаметные обычному пользователю.
Семантический Web – не революционное решение, которое однажды изменит
мир вокруг нас, а постепенно внедряемая (и уже успешно) технология,
инструмент, позволяющий в лучшей степени использовать доступные нам
сейчас ресурсы. Пожалуй, Web 3.0
– финальная стадия развития того предсингулярного интернета, каким мы
знаем его сейчас, объединяющая всё лучшее от первой и второй версии и
добавляющая улучшенные механизмы взаимодействия между пользователем и
контентом. Возможно, это покажется абсурдным, но идеальная форма
развития интернета на сегодняшний день кроется в адекватном выполнении
самых примитивных запросов пользователя. Зайти в интернет и скачать
нужный реферат за 15 секунд, а не ползать полчаса по миллиону ссылок
или отклонять бестолковые предложения пользователей социальной сети –
вот тот Web 3.0, который всех нас ждет в ближайшие
несколько лет. А уж зашли вы в инет с микрочипа, встроенного в голову,
или через обычный веб-браузер, совершенно не важно.
|