вторник, 14 августа 2012 г.

Open Data, Semantic Web и государство

Подборка статей в майско-июньском номере IEEE Intelligent Systems о состоянии дел в Open Government (открытие доступа через Интернет к гос-данным в машино-читаемом виде).
Как обещал в 2009 году Тим Бернерс Ли и поддержавшие его чиновники (например, http://www.whitehouse.gov/open), процесс пошёл.

Май 2009 США запустили портал OGD (www.data.gov).
Январь 2010 Британия запустила Data.gov. uk (data.gov.uk).
Январь 2012 более 30 стран опубликовали более 700 000 OGD массивов данных (http://logd.tw.rpi.edu/demo/international_dataset_catalog_ search).
35 стран вошли в Open Government Partnership, 20 готовы войти.

В числе готовых и Россия :) Судите сами, как это выглядит с точки зрения западных партнеров. Декларации есть, чиновники на встречи ездят, а реальной активности инженеров-исполнителей никакой. Где триплсторы с данными бюджета в RDF, я вас спрашиваю? Где хоть что-то в RDF? Может, кто-то из читателей знает? Может какие гномы подземные в подвалах кремля куют новые триплсторы? Признавайтесь!

Еще по теме. Иван Бегтин. Open Government is... И еще. большоеправительство.рф

Тем не менее, не наших данных уже набралось прилично. Проблема с этими данными в том, что их много и они в RDF. Тот самый недо-формат, очередное недо-порождение людей из корпорации Apple. Теперь все надеются, что учёные и промышленность начинят эти данные качественной семантикой и свяжут их между собой :-) А потом стартаперы-баблорубы понаделают кучу гламурных веб-приложений. И всем будет хорошо.

Стоит отметить, что подход ISO15926 (An Introduction to ISO 15926) по интеграции на основе онтологий принципиально другой. Реальным инженерам нужно обмениваться сложно структурированными данными. Подходы типа ключ-значение тут не подходят. 

В редакционной статье присутствует интересный посыл, что сервис-ориентированные архитектуры (SOA) превратили монолитные закрытые системы в набор открытых повторно используемых сервисов, а дата-центричные архитектуры (DOA) позволят открыть, повторно использовать и улучшать данные. В том числе и с помощью crowdsourcing. И это вообще новый подход интеграции корпоративных систем (enterprise integration).

Кроме редакционной обзорной статьи также в номере 6 статей-отчётов из 6 стран. России, понятное дело, там нет. Рекомендую.

P.S. С точки зрения hard-boiled AI :-) это может быть интересно тем, что когда все базы окончательно распатронят на ещё более нормализованные RDF-данные, наступит время собирать камни, восстанавливать смыслы, лепить куличи из песчинок данных. И тут мы все как выскочим, как выпрыгнем из кустов со своими Prolog'ами и first-order logic'ами и все станет совсем хорошо O:-)