⬆️ Победители в номинации Search Innovation
Google Partner

Метаданные и открытая база Freebase

Автор:
Оптимизатор
Рецензент: Олег Гаврилюк
Руководитель оптимизаторов
5,00 1 оценка
0 комментариев

Похоже, запуск графа знаний (Google Knowledge Graph) не навел особого шороху в рунете — новостные издания выпустили по релизу и как-то все затихло (?). А ведь это достаточно серьезное нововведение.

Амит Сингал обещал, что после того, как график «обкатают» на США, он будет действовать и для остальных стран мира. Подобное отображение результатов (изменится вид и сам принцип работы поисковой выдачи, пример ниже) может повлиять на работу оптимизатора. А открытую базу метаданных Freebase, которую заполняют добровольцы, тем самым обучая поисковую систему (один из проектов, из которых график черпает информацию), вероятно, научат понимать русский язык, либо появится какой-то местный аналог.

Поэтому стоит немного подробнее разобрать семантическую технологию, которую поисковики уже пару лет берут на вооружение.

Вообще KG подтягивает свои данные не только из Freebase, а еще и из Википедии, и из фактологической базы Центрального Разведывательного Управления США и других больших баз (по состоянию на май 2012 график содержал около 3.5 миллиарда разных параметров). Но проект метавеба все же играет большую роль (иначе бы его не купили). Заполнение Freebase влияет на поиск (разметка), также можно интегрировать оттуда данные с помощью API в сайты и приложения.

Связь всего со всем

Freebase начали разрабатывать в 2007 году, а в 2010 он спокойно перешел под крыло Google и был связан с Google Refine, еще одним инструментом для работы с таблицами.

Лучше всего принцип его работы (и невероятную сложность замысла в целом) объясняют два абзаца, причем первый из книги, которая вообще не относится к поисковикам :).

С шестого класса он начал составлять карту связи всего со всем. Карта зависимостей, взаимопереходов и аналогий наук, искусств, всех областей жизни и деятельности, всего-всего, вместе взятого…

Ее нужно было как-то назвать, покороче, и он решил, что название «Эном» из упомянутой игры — подходящее. Вначале Эном этот представлял собой действительно подобие карты, с расчерченными координатами, материками и островами, с невероятным количеством разноцветных стрелок. Потом видоизменился: стрелок стало поменьше, зато появилось множество непонятных значков — шифров связей и переходов; наконец, от плоскостного изображения дело пошло к объемному — какие-то причудливые фигуры из пластилина, картона, проволоки…

Вот возьмем, например, длинноухий вопрос (его эпитет, он любил так говорить: вопрос толстый, лохматый, хвостатый — вопросы для него были живыми существами), — длинноухий, значит, вопрос: почему одним нравится одна музыка, а другим — другая?

Это область отчасти музыковедения, отчасти социологии, отчасти психологии… Показывал точку в системе координат, объяснял с ходу, что такое социология, то есть чем она должна быть, сколько у нее разных хитрых ветвей…

В одну сторону отсюда пойдем к материку истории, не миновав континента философии и полуострова филологии; в другую — к океану естественных наук: биологии, физике… Математика, говорил, — это самая естественная из наук, язык Смысловой Вселенной…

А вот идет извилистая дорожка к плоскогорью физиологии: чтобы разобраться, почему в ответ на одни и те же звуки возникают разные чувства, нужно понять, как человек чувствует, правда ведь?..

Чтобы это узнать, надо узнать, как работают клетки вообще. Механизм клетки нельзя постичь, не уяснив происхождения жизни, а для этого надо влезть в геологию, геофизику, геохимию — в общем, в конгломерат наук о Земле; ну и конечно же, никак не обойти астрономии, во всем веере ее направлений — Земля есть небесное тело, ага?..

И вот мы уже прошли от музыковедения к проблеме происхождения Вселенной, вот такие дела…

Владимир Леви, «Нестандартный ребенок»

Второй абзац написан сотрудниками Freebase:

Для хранения данных о [творчески] плодовитом Бобе Дилане — который сочинял песни, пел и выступал, писал книги, снимался в кино — какие реляционные таблицы мы должны использовать? Таблицу «Песни композитора» или таблицу «Певец», таблицу «Автор книги» или «Киноактер»?

Ответ: мы должны хранить данные об этом человеке во всех этих таблицах. Сложности здесь не ограничиваются творческими людьми. Здание может быть построено, как церковь, потом может быть превращено в госпиталь во время войны, а еще позже стать туристическим центром. Яблоко это фрукт, но также и наполнитель в многочисленных рецептах, логотип компании и литературный прием в истории Белоснежки.

What is Freebase?

Пользователь Freebase может добавлять новые типы данных и участвовать в обсуждениях уже добавленной информации, а также буквально с ходу писать приложения под свои нужды, пользуясь встроенным редактором или брать их из библиотеки, благо, большинство добавляются по лицензии GNU.

И такой семантический поисковик не уникален — есть еще несколько подобных проектов (например, Wolfram Alpha, о котором написали наши коллеги из Netpeak), задуманных с целью разложить по полочкам все известные знания, а потом быстро собирать нужные ответы из деталей такого «конструктора», руководствуясь огромным количеством классов и переменных.

Wolfram Alpha встроен в Bing, чтобы давать пользователю решение проблемы вместо набора ссылок (об этом как раз и рассказывал гендиректор Microsoft Украина Дмитрий Шимкив в июне 2011).

Как выглядит выдача с графиком знаний

В google.ru и google.ua этого пока нет, а вот в .com можно посмотреть. Кстати, об этом недавно проскакивала новость на Роеме: европейцы жалуются, что не могут попасть на американскую страницу поисковика, даже целенаправленно вбивая домен .com в поиск, их все равно автоматом перенаправляет на региональные домены по привязке к IP.

Но при желании перейти можно: http://www.google.com/intl/en/

Запрос «Курт Воннегут» не сработал, а вот с англоязычным kurt vonnegut получилось. Как видно, в правой верхней части подтягивается информация из Википедии и дополнительные данные, которые имеют отношение к запросу (фильмы, другие его книги). Внизу связанные с этим запросы (People also search for — «Люди также искали»).

Правда, для коммерческого запроса «kindle» пока ничего подобного нет.

Проблемы внедрения семантического веба

Хотя технология очень перспективна, вопросы, как обычно, возникают не к технологии, а к людям, которые будут ей пользоваться. Далеко не все станут заполнять метаданные. Спамеры попытаются влиять на результаты выдачи. Есть также опасения, что если поисковики будут давать развернутый ответ сразу в выдаче, то пользователи перестанут заходить на сайты.

Посмотрим, что из этого получится.

Do something to stop this war! Russians are killing our children and civilians!