Содержание, метаданные и контекст открытых данных / Habr
Результат публикации данных в свободном и бесплатном доступе напрямую зависит от их состава и качества. Чем более полными и корректными окажутся публичные данные, тем выше будет эффективность их использования и тем больше пользователей предпочтет поработать с ними.В отношении любых передаваемых данных, особенно публичных, необходимо всегда оценивать три их ключевых аспекта: состав (содержание), описание (метаданные) и окружение (контекст).
Настоящая публикация продолжает тему открытых, разделяемых и делегируемых данных и относится ко всем этим трем указанным категориям.
Организация данных
Первый важный аспект публичных данных связан с их содержимым и с их внутренней организацией.
Смысл
Всякие хорошие данные обладают некоторым полезным смыслом. Бессмысленная информацию в любом виде непригодна для последующей обработки и анализа в любом виде деятельности с помощью любых инструментов.
Учитывая тот факт, что на данные прямое и неотделимое влияние оказывает человеческий фактор, всегда можно говорить о том, что они описывают не объективную реальность, а некоторое понимание человеком той объективной реальности, о которой он целевым образом собирает сведения. Иными словами, данные всегда содержат некую долю субъективности в своем содержимом или в структуре и описывают воспринимаемую модель из заданной предметной области.
Именно тот факт, что данные в той или иной степени описывают некоторый смысл целевой модели, возможен последующий их анализ и выявление важных атрибутов такой модели.
Смысл, который содержат данные определяет необходимость и важность их публикации. Например, особый социальный и экономический смысл имеют государственные статистические данные – отсюда, очевидная задача их издания как в виде цифровых датасетов, так и в виде специальных переработанных сборников. Если данные не несут какой-то важный смысл для пользователей или вообще представляют собой бессмысленную регистрацию потока явлений и событий, то они не будут востребованы. Это утверждение наводит на определенную мысль о том, что публиковать стоит цифровые наборы с хорошо формализованным смыслом.
На то, какой смысл имеют данные влияет их уровень передела.
Наиболее ценными с этой точки зрения и обладающие неискаженным смыслом являются собранные первичные данные. Чем больше обработок было произведено с данными, тем больше смысл искажается и видоизменяется. Отсюда необходимость явно указывать количество и качество переделов данных.
Смысл содержащийся в данных накладывает свой отпечаток на их структуру.
Структура
В данных всегда можно выделить некие неделимые минимальные целостные единицы.
Причем такие неделимые целостные единицы всегда обладают смыслом большим, чем прямым. Например, символ (в простейшем виде) не несет никакое дополнительное значение, кроме того, что он представляет собой некую букву алфавита, цифру или специальное обозначение в тексте. С другой стороны, слово, кроме того, что представляет некий набор тех же символов, имеет смысловое понятийное значение и определяет некий объект (существительное), атрибут (прилагательное), действие (глагол) и т.д. Поэтому деление слова на символы – деление минимальной целостной единицы – приводит к потере его понятийного значения.
Но это не всё.
Выбор минимальной целостной и неделимой единицы является субъективным понятием в рамках заданной тематики и целей пользователя.
Например, для каких-то целей, может быть установлено, что неделимой единицей признается не отдельное слово, а целое предложение. В то же время даже некоторые форматы могут задавать особенности построения минимальных единиц данных. Например, в рамках электронных таблиц достаточно просто и удобно принимать за минимальную единицу данных содержимое отдельной ячейки. Однако во многом, выбор целостной единицы данных обусловлен совокупностью критериев предметной области данных и способом их записи.
После того, как задано понятие минимальной неделимой единицы данных, возникает и понятие структуры всей совокупности целевых данных. Так для электронной таблицы, единицы данных формируют наборы данных в виде строк или столбцов, а в последующем группируются в таблицы (листы) и наборы таблиц (книги).
Удобно выделять два уровня группировки
- первичный – группировка (объединение, упорядочивание) непосредственно элементарных неделимых целостных единиц данных;
- вторичный – группировка (объединение, упорядочивание) первично и вторично сгруппированных единиц данных.
Задаваемая структура данных опирается на некоторое дополнительное определение их характеристик, поэтому прямо или косвенно обуславливает присутствие метаданных.
Структуру данных необходимо иметь для возможности производить какую-либо осмысленную их обработку.
Операции с данными производятся непосредственно с неделимыми целостными единицами или с их группами. Причем даже есть возможность обрабатывать неделимые целостные единицы тем или иным образом создавая из них новые. Например, это позволяет делать функционал электронных таблицы: обрабатывать содержимое отдельной ячейки и разделять её на некие составные элементы, но при этом основной акцент в подобном приложении всё-таки сделан на обработке ячеек как на простейших обрабатываемых элементарных единицах.
Второй ключевой особенностью выделения в цифровых данных отдельных целостных единиц и последующей их группировки – это возможность идентификации.
Назначение уникального абсолютного или относительного имени как для неделимой части данных, так и для упорядоченного набора данных значительно расширяет функционал обработки. Адресация, реферирование, рекурсия, классификация и множество дополнительных простых или сложнейших операций применимы к именованным или идентифицированным элементам данных с последующим возвратам к первоисточнику (история ссылок).
Ещё одна полезная и важная особенность структуры данных, как производная от идентификации заключается в связывании отдельных элементов данных по тем или иным критериям или задачам. Связывание фактически приводит к появлению такого функционала как вторичное структурирование, нелинейное упорядочивание, гиперссылки, альтернативные пути обхода и т.п. Если сопроводить связь некоторыми дополнительными атрибутами, то можно выделить даже особый класс объектов-описателей и выстроить сложные зависимые структуры доселе невообразимых форм и сочетаний. Именно за счет связывания появляется некая динамика в данных.
Структурирование данных привносит значительный вклад в возможности их не только цифровой обработки, но и смысловой аналитики.
Моделирование правильных и эффективных структур цифровых данных достаточно сложная и ответственная компетенция которая может давать хороший результат только при совмещении знаний информационных технологий и предметной области. Удачно заданная структура позволяет удобно и результативно работать с данными как человеку, так и машине. Иными словами, правильный выбор структуры позволяет быстро распознавать упорядоченные данные непосредственно человеком или созданными алгоритмами.
Структура данных, как уже упоминалось, может зависеть от формата записи и хранения данных, но это ещё не сам формат.
А значит она может трансформироваться. И значит в рамках одного и того же формата могут задаваться разные структуры. В подавляющих случаях на практике, для значительного упрощения и для большей эффективности, структура тесно взаимосвязана с форматом.Формат
В контексте данной публикации «формат» – это способ сохранения данных в физической обособленной единице (файл, запись, таблица, поток) на заданном носителе.
Формат определяет возможности прочитать и принять данные в обработку как человеком, так и алгоритмом. Если структура задает содержательную организацию данных, то формат представляет собой техническую сторону их записи и хранения.
С учетом того, что цифровые данные неотъемлемы от машинных носителей, формат реализуется на трех машино-зависимых слоях, выбором соответствующего способа форматирования на каждом из слоев:
- Кодировка данных – выбранный способ установки кодов для конечного набора символов или понятий задействованных и допустимых для записи данных.
- Нотация данных – выбранный способ формализованной записи упорядоченных данных. Например, CSV или XML.
- Схема данных – выбранный способ специальной организации разных элементов данных по предопределенным метаданным. Например, для XML – это выбор XSD, для CSV – это выбор схемы таблицы (полей и связей).
Чем выше слой, тем более он предметно-ориентирован и зависит от смысла данных. На 3-ем слое – схема данных – формат почти полностью смешивается с предметной областью целевых данных.
Кодировка символов – это достаточно понятная и урегулирования часть, которая в целом пришла к относительной теоретической и практической стабильности. Тем не менее даже в этом вопросе практика применения оставляет желать лучшего. Что уж говорить о нотации и схеме данных, особенно в применении к публичным данным. Множество факторов и противоречивых интересов, замешанных на свободных стандартах и платных мощных инструментах.
Ключевой фактор выбора нотации данных, как одного из уровней форматирования, состоит непосредственно в структуре данных.
Например, если структурирование данных сведено к таблице, то очевидно, что удобно будет её отформатировать, скорее, как CSV, чем как HTML. С другой стороны, задача может быть поставлена так, что выбор будет сделан в пользу XML. Кажется, совсем уж экзотическим, но вполне возможно нотировать таблицу данных и как последовательность команд INSERT (SQL) для каждой из строк.
Для публичных данных наиболее предпочтительным являются простые, свободные и распространенные форматы. Приоритетной, например, для открытых государственных данных выглядит связка: [Unicode + CSV|XML + custom_scheme]. Причем custom-схема данных часто описывается в «паспорте открытых данных».
Конечно же можно и нужно развивать форматы передаваемых и публикуемых данных. Но в большей степени новинки из этой области будут восприняты на частном уровне или при защищенном трансфере данных. Для публичных данных пока останутся более понятными и актуальными те форматы, которые получили массовое распространение и для работы, с которыми существует множество как платных, так и бесплатных инструментов, которыми привыкли пользоваться аналитики.
Вопрос повторного использования данных может быть неверно отнесен к особенностям их форматирования, но это скорее вопрос правильного их структурирования. Именно на уровне структуры цифровых данных появляется возможность связывания и организации ссылок. Формат лишь только определяет фактические правила записи и разрешения ссылок. В том числе формат может задавать или поддерживать «межформатные» правила ссылок, чтобы у пользователя появилась возможность сослаться в одном наборе или элементе данных на другой.
Безусловно машинное чтение данных зависит от форматаПри этом понимать «машинное» чтение в отрыве от структуры данных неверно. Ведь речь ведется о возможности прочитать цифровые данные исходя из чтения алгоритмами заданной цифровой структуры. Так в простых сканированных изображениях отсутствует смысловая структура цифровых данных. Да, скан-копия – это несомненно некий упорядоченный поток цифровых данных воспроизводимый специальной программой в изображение, которое понимает человек на своем уровне. Её даже может «распознать» OCR-алгоритм. Но она не имеет заданной структуры данных, что без дополнительной обработки позволяет рассматривать сканированное изображение исключительно в целом как неделимую единицу. Соответственно польза от необработанной скан-копии минимальна. Публикация же сканированных документов в таком случае может быть нацелена исключительно на просмотр человеком, либо на применение особо сложных и производительных инструментов «вычленения» сведений из достоверных исходников.
Сканированные документы или иные изображения могут являться замечательным доказательством первичных данных и даже первоисточником для избирательной ручной их проверки. Если же выложенные в публичном доступе сканированные изображения с ценными данными кто-либо преобразует в массивы читаемых и обрабатываемых данных, то вряд ли сохранится цепочка «бесплатности». Всё-таки, пока, на обработку скан-копий нужны ресурсы. Хотя технологии не стоят на месте, в том числе и технологии инвестирования в масштабные проекты.
Таким образом, даже необработанные изображения могут составлять отдельную категорию публичных данных. И они в любом случае являются машиночитаемыми. Вообще-то, достаточно сложно представить себе нечитаемый машиной цифровой поток байт. Максимум, что может быть предъявлено – это нарушение целостности данных на любом из уровней: на смысловом, на структурном или на одном из слоев формата.
Описание данных
Второй аспект публичных данных – это их эффективное описание, которое в конечном итоге превращается в метаданные. Если для внутренних или защищаемых при передаче данных этот аспект может быть на какое-то время упущен из виду, то для данных, которые размещаются в сети открыто и бесплатно – это очень важно для их последующего эффективного использования.Например, открытые государственные данные всегда сопровождаются минимальным, и обязательным набором метаданных
Во-первых, это наименование набора данных. Во-вторых, приводится предметное описание датасета. В-третьих, присутствует паспорт набора открытых данных включающий в том числе указание на формат, актуальность, размер, состав.
Для целостной передачи публичных данных, самый лучший способ – это сохранять метаданные «внутри» самих данных. То есть таким образом записывать оригинальные цифровые данные, чтобы они параллельно сопровождались некоторыми атрибутами, а структура записи позволяла алгоритмам извлекать заложенные в неё метаданные.
Что достаточно хорошо можно делать, например, в рамках XML-нотации: где разметка уже определяет тип элемента (узел, атрибут, документ), а применение атрибутов и имен пространств открывает возможности для внедрения метаданных. Однако чтение данных совмещенных с их описанием, как минимум, требует овладения более сложными компетенциями и инструментами. Гораздо понятней и очевидней для большинства пользователей получать чистые данные с наименованием и заголовками. Но это в свою очередь вызывает свои проблемы в чтении и понимании данных. До выработки единых и понятных стандартов в этом направлении пока далеко.
Метаданные должны включать:
- Описание смысла данных:
- a. наименование
- b. краткое описание
- c. описание предметной области
- d. точка зрения
- e. цель сбора и представления данных
- f. уровень переработки данных
- g. ограничения по использованию с точки зрения предметной области
- h. иллюстративные модели и схемы для сложных данных
- i. тезаурус понятий, связанных с данными (или отсылка к валидному тезаурусу)
- j. ссылки на источники данных (первичные данные) и на способ сбора данных
- k. маркировка данных по времени, месту, актуальности, зависимости, значимости и т.д.
- l. отсылки к контекстным цифровым данным или иным полезным сведениям
- m. возможные проблемы со смысловой целостностью данных и рекомендованные пути их решения
- Описание структуры данных:
- a. базовые элементы структуры (целостные и неделимые)
- b. принципы группировки и связывания элементарных и производных единиц данных
- c. приоритетные и вторичные валидные взаимозависимости элементов структуры данных
- d. наличие и возможные базовые типа элементов структуры
- e. отсылка или формализация принципов построения структуры данных или её трансформации
- f. допустимость внешних ссылок на элементы, входящие в структуру данных
- g. применяемые стандарты для построения структуры
- h. ограничения по структуре данных
- i. возможные проблемы со структурной целостностью данных и рекомендованные пути их решения
- Описание формата данных:
- a. применяемый формат кодирования данных (ссылка или описание)
- b. применяемый формат нотации данных (ссылка или описание)
- c. применяемый формат схемы данных (ссылка или описание)
- d. рекомендуемые инструменты для работы с форматом данных (алгоритмы, спецификации, протоколы, программные пакеты, сервисы и др.)
- e. особенности применения формата данных
- f. возможные ошибки и проблемы применения формата данных
- g. обоснование применения формата данных (по необходимости)
- h. предусмотренные (проверенные) варианты конвертации в другие форматы
- i. техническая оценка качества соответствия данных заданному формату (особенно в тех случаях, когда данные могут содержать ошибки форматирования)
- j. возможные проблемы с целостностью данных на уровне формата и рекомендованные пути их решения
Чем больше и полней формируются метаданные сопровождающие пакет цифровых данных, тем мощнее будет их последующее использование для извлечения полезных знаний и тем результативнее будет обратный эффект от новых знаний на систему, которую описывают исходные данные.
Как минимум, пользователю надо обозначить состав и назначение данных, а также дать указание на машинный формат их записи и хранения. Кроме того, хорошо, если метаданные включают оценку качества данных.
Для понимания того, что следует включать в метаданные, можно рассмотреть операции, в которых они фактически применяется или требуются к применению. Вот наиболее важные семь из них с точки зрения двух непосредственно взаимодействующих ролей в рамках public-схемы трансфера данных:
1. Идентификация данных
- Поставщик назначает наименование и определяет предметную область для набора данных
- Получатель восстанавливает название, назначение, предметную область и систему взаимодействующих объектов, которую описывает набор данных
2. Аутентификация данных
- Поставщик задает факторы возможной и допустимой проверки подлинности и качества (в т.ч. релевантности, актуальности, адекватности) публикуемого набора данных
- Получатель понимает возможный способ проверки подлинности и качества (в т.ч. релевантности, актуальности, адекватности) набора данных и, в случае необходимости, осуществляет проверку
3. Авторизация данных
- Поставщик определяет и формализует кто является по отношению к набору данных автором, владельцем и издателем, а также устанавливает кому доступны публикуемые данные, на каких условиях и для чего
- Получатель проверяет и оценивает кто создал, владеет и поставляет набор данных, а также проходит проверку на возможность и целесообразность их использования
4. Оценка данных
- Поставщик измеряет количество данных (в рамках выбранной структуры и формата) и дает оценку качества данных
- Получатель изучает установленные объемы данных (в рамках указанной структуры и формата) и проверяет выданную оценку качества данных на предмет возможного использования
5. Ограничения данных
- Поставщик задает различные ограничения (по смыслу, структуре и формату) для публикуемого набора данных и издает данные в соответствии с ограничениями
- Получатель выясняет какие ограничения (по смыслу, структуре и формату) наложены на набор данных и работает с данными с их учетом
6. Передача данных
- Поставщик комплектует данные в целостный набор и в рамках установленных условий (контракта трансфера данных) передает их напрямую или открывает к ним доступ
- Получатель принимает напрямую или загружает из открытого доступа скомплектованный целостный набор данных по установленным условиям
7. Обработка данных
- Поставщик предварительно (перед публикацией) обрабатывает данные в набор в соответствии с имеющейся задачей публикации
- Получатель обрабатывает принятые данные для своих целей в рамках известных ему обстоятельств публикации
Чтобы проиллюстрировать важность метаданных стоит заметить, что предметные аналитики данных большую часть времени и усилий тратят на работу не с самими наборами цифровых данных, а с метаданными
Они определяют формат набора, особенности применения формата, схему данных, кодировку, организующую структуру, назначение и особенности состава, предметную область и применимость данных к той или иной тематической задаче, проверяют качество данных и их актуальность и делают ещё много разных подобных вещей. Например, даже тексты SQL-запросов можно делать, имея только схему таблиц и не имея непосредственно данные из этих таблиц.
Качество публичных данных начинается с качества их метаданных.
Окружение данных
Особую роль в отдельных ситуациях начинает играть третий аспект публичных данных – окружение.
Это наиболее сложный из трех рассматриваемых (другие два – содержание и метаданные) – но он наиболее ценный для стратегического и тематического развития аналитики и поиска знаний, особенно с подключением смежной проблематики.
В пространстве публичных данных – контекстом для заданного набора будут являются все иные данные с которыми их смогут корректно связать аналитики по тем или иным основаниям.
Правильно указать контекст можно только если для основных данных правильно задана предметная область и их назначение.
Контекстные связываются с основными данные несколькими способами:
- Прямое ссылочное связывание – через указание прямых ссылок на сторонние наборы данных, которые публикуются тем же издателем или публикуются иными лицами в открытом доступе. Контекст служит в этом ключе официальным расширением данных. Очевидно, что прямое связывание публичных данных с закрытыми или платными является примером не совсем добросовестного издателя.
- Косвенное предметное связывание – через определение для основных данных названия, тематики, назначения, релевантности и актуальности. Пользователь самостоятельно изучает заданную предметную область и осуществляет поиск данных, которые составляют интересующий его контекст. Кроме очевидных примеров предметного связывания, стоит упомянуть варианты математического связывания: по показателям распределения, частотности или иным. А также варианты связывания по сходным атрибутам или по идентичным основаниям.
- Связывание имплементацией – через включение в основные данные фрагментов других данных в результате чего устанавливается неочевидная ссылочная или предметная связь. Если получатель достаточно четко понимает «внедрение» контекста в основу, то он также четко понимает суть контекстных данных. Достаточно часто подобный способ связывания основан на включении в основные данные уникальных или условно-уникальных идентификаторов контекстных данных. В отличии от прямого ссылочного связывания, связывание имплементацией не предусматривает включение явной адресации на элементы контекстных данных и категорически не предусматривает какие-либо ссылки на контекстные наборы. А в отличии от косвенного предметного связывания, имплементация все-таки предусматривает указание определенных идентифицирующих фрагментов контекста в основу.
Любые данные можно с той или иной точки зрения считать контекстом по отношению к основным. Это субъективный аспект аналитики. Весь вопрос заключается в решаемых задачах и целесообразности.
Постоянное разукрупнение анализируемого массива данных путем поиска и подключения к нему дополнительного окружения не может считаться нормой, если является самоцелью. Поэтому рациональным подходом можно назвать обстоятельную работу по тщательному планированию исследования данных в рамках которого обозначают и придерживаются ограниченного набора. Вопрос «а какие данные ещё нужны?» должен задаваться на ключевых этапах анализа в случаях, когда действительно требуется расширить смысловой фронт исследований.
Контекст редко принимается во внимание при публикации данных или при их использовании, либо воспринимается как некое само собой разумеющееся действие по увеличение массива данных. Однако именно неограниченная возможность расширения основы контекстом и многочисленные варианты комбинирования данных позволяют получить преимущество публичного использования данных перед закрытым. В этой связи приоритетным является развитие хранилищ общедоступных и общезначимых цифровых данных, которые составляют контекст для любых данных в заданной предметной области. Например, при работе с экономическими данными может оказаться крайне полезным иметь в свободном доступе общеприменимые справочники, классификаторы, каталоги (например ОКВЭД, КЛАДР, БИК, ЕГРЮЛ и т.п.)
В этих же целях крайне полезны создаваемые и развиваемые тематические «порталы» и «хабы» открытых данных.
Программа | Платформа | Лицензия | Последняя версия | Год последнего выпуска | Размер, МБ | Описание | Количество[t 1] | Поддерживаемые стандарты метаданных[t 2] | Поддерживаемые форматы файлов[t 3] | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
EXIF | GPS | IPTC | XMP | Maker | Прочие | JPG | TIF | RAW | Прочие | ||||||||
Auto ISO Tool[3] | Windows | Бесплатная | 2007 | 0.2 | Графический интерфейс для ExifTool для извлечения информации о светочувствительности из файлов камер Canon. | 0 | З | — | — | — | Ч | — | Да | — | — | — | |
AvPicFaceXmpTagger[4] | Windows Linux | Бесплатная | 1.7 | 2010 | 3.7 | Записывает информацию о распознавании лиц программы Picasa в файлы в виде XMP. | 0 | — | — | — | ЧЗ | — | — | Да | — | — | — |
Description Explorer[5] | Windows | Бесплатная | 0.5.2 | 2009 | 10.7 | Пакет утилит для обработки XMP метаданных. | 15 | — | — | — | РЗ | — | — | Да | — | — | — |
Daminion[6] | Windows | Бесплатная и Условно-бесплатная | 4.0 | 2015 | 41.2 | Инструмент, который может обновлять метаданные (EXIF/IPTC/XMP/ID3/Office) в векторных и растровых изображениях, видео и аудиофайлах, офисных документах. Использует ExifTool и собственные библиотеки для работы с метаданными. | >70 | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | Ч | ЧРЗ | Да | Да | Да | Да |
DBGallery[7] | Windows | Условно-бесплатная | 7.0 | 2015 | 78 | Программа для управления изображениями, которая может обновлять IPTC и XMP метаданные в изображениях, видео и аудиофайлах. Использует Adobe XMP Toolkit для чтения/записи метаданных. | 32 | Ч | ЧРЗ | ЧРЗ | ЧРЗ | — | — | Да | Да | Да | Да |
Easy Exif Delete[8] | Windows | Бесплатная | 1.0 | 2010 | 0.8 | Удаляет Exif данные из файлов изображений. | 0 | У | У | — | — | — | — | Да | — | — | — |
EXIF-O-Matic[9] | Windows MacOS Linux | Бесплатная | 1.2 | 2012 | 0.2 | Просмотр Exif тегов. | 0 | Ч | Ч | — | — | — | — | Да | — | — | — |
ExifAuto[10] | Windows | Бесплатная | 2.2 | 2007 | 0.4 | Графический интерфейс для ExifTool для выполнения простейших операций. | 5 | РЗ | — | — | — | — | — | Да | Да | — | — |
EXIF Browser[11] | Windows | Бесплатная | 0.9 | 2007 | 0.9 | Просмотр Exif тегов. | 0 | Ч | Ч | — | — | — | — | Да | Да | Да | Да |
Exif Copier[12] | Windows | Бесплатная | 0.9 | 2010 | 5.0 | Копирует метаданные между файлами с помощью ExifTool. | 0 | З | З | З | З | З | З | Да | Да | Да | Да |
ExifCleaner[13] | Windows | Условно-бесплатная | 1.6 | 2011 | 1.2 | Позволяет удалять метаданные. | 0 | У | У | У | У | У | У | Да | — | — | — |
EXIF Date Changer[14] | Windows | Условно-бесплатная | 2.52 | 2011 | 3.7 | Позволяет изменять информацию о дате и времени, сохранённую в метаданных файлов. | 7 | РЗ | — | РЗ | — | — | — | Да | Да | Да | Да |
ExifDropper[15] | Windows | Бесплатная | 0.9 | 2009 | 0.1 | Графический интерфейс для ExifTool с поддержкой перетаскивания и параметрами командной строки. | >200 | РЗ | РЗ | РЗ | РЗ | РЗ | РЗ | Да | Да | Да | Да |
ExifMixer[16] | Windows | Бесплатная | 0.50 | 2008 | 0.4 | Графический интерфейс для ExifTool с параметрами командной строки. | >200 | РЗ | РЗ | РЗ | РЗ | РЗ | РЗ | Да | Да | Да | Да |
Exif Pilot[17] | Windows | Условно-бесплатная | 4.4 | 2011 | 2.1 | Программа для просмотра, редактирования и создания метаданных. | 26 | ЧРЗ | ЧРЗ | ЧРЗ | Ч | Ч | Ч | Да | Да | Да | Да |
Exif Stats[18] | Windows | Бесплатная | 2006 | 2.0 | Извлекает метаданные с помощью ExifTool. | 0 | Ч | Ч | Ч | Ч | Ч | Ч | Да | Да | Да | Да | |
Exif Tag Remover[19] | Windows | Условно-бесплатная | 4.3 | 2012 | 3.8 | Позволяет легко удалять все метаданные. | 0 | У | У | У | У | У | У | Да | Да | Да | Да |
ExifTool[20] | Windows MacOS | Бесплатная | 11.14 | 2018 | 6.0 | Мощная утилита, работающая в командной строке. | >200 | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | Да | Да | Да | Да |
ExifTool GUI[21] | Windows | Бесплатная | 5.16 | 2015 | 1.3 | Графический интерфейс для ExifTool с возможностью выполнения некоторых операций редактирования. | 64 | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | Ч | Ч | Да | Да | Да | Да |
EXIFutils[22] | Windows MacOS Linux | Условно-бесплатная | 3.1.4 | 2011 | 3.5 | Пакет утилит для командной строки, позволяющий извлекать, вводить, удалять, копировать и заменять метаданные. | >200 | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | Да | Да | Да | Да |
ExifyMe[23] | Windows | Бесплатная | 1.0 | 2010 | 3.3 | Восстанавливает Exif метаданные из оригинального изображения. | 0 | З | З | — | — | — | — | Да | Да | Да | Да |
Exiv2[24] | Windows Linux | Бесплатная | 0.22 | 2011 | 1.6 | Утилита, работающая в командной строке. | >200 | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | — | Да | Да | Да | — |
ExposurePlot[25] | Windows | Бесплатная | 1.14 | 2009 | 0.6 | Анализирует использование фокусных расстояний объективов, светочувствительности, выдержки и диафрагмы. | 0 | Ч | — | — | — | — | — | Да | — | — | — |
Free EXIF Eraser[26] | Windows | Бесплатная | 1.1 | 2011 | 0,8 | Позволяет легко и эффективно удалять все Exif/IPTC/XMP метаданные из файлов изображений. | 0 | У | У | У | У | У | У | Да | — | — | — |
GUI2[27] | Windows | Бесплатная | 1.3 | 2010 | 15.7 | Графический интерфейс для ExifTool. | 12 | Ч | ЧРЗ | Ч | Ч | Ч | Ч | Да | Да | Да | Да |
Image Info Toolkit[28] | Windows MacOS | Условно-бесплатная | 3.0 | 2012 | 4.9 | Редактор IPTC и XMP метаданных. | 36 | Ч | Ч | ЧРЗ | ЧРЗ | — | — | Да | Да | — | Да |
ImBatch[29] | Windows | Бесплатная | 4.0 | 2015 | 12.85 | Утилита для пакетной обработки изображений. Кроме возможности пакетной обработки метаданных имеет инструмент для редактирования метаданных в отдельном файле. | >100 | ЧРЗУ | ЧРЗУ | ЧРЗУ | ЧУ | У | — | Да | Да | Да | Да |
IPTC-PLUS Photo Metadata Toolkit[30] | Windows | Бесплатная | 4 | 2011 | 1.2 | Редактор IPTC и PLUS метаданных с помощью Adobe CS3 до CS5. | 150 | — | — | ЧРЗ | ЧРЗ | — | — | Да | Да | — | Да |
iTag[31] | Windows | Условно-бесплатная | 478 | 2011 | 9.1 | Утилита, позволяющая вводить заголовок, описание и ключевые слова. | 10 | — | — | ЧРЗ | ЧРЗ | — | — | Да | Да | Да | Да |
JExifViewer[32] | Windows Linux | GPL | 1.8 | 2010 | 5.3 | Позволяет читать Exif информацию из файлов формата JPG. | 0 | Ч | Ч | — | — | — | — | Да | — | — | — |
JPEG & PNG Stripper[33] | Windows | Бесплатная | 1.5.4 | 2012 | 0.1 | Утилита для удаления нежелательных метаданных. | 0 | У | У | У | У | У | У | Да | — | — | Да |
JPEG Comment Editor[34] | Windows | Бесплатная и Условно-бесплатная | 1.0 | 2015 | 1.0 | Программа для создания, просмотра, редактирования и сохранения метаданных в виде текстовых файлов. | 0 | — | — | — | — | — | — | Да | — | — | — |
MAT[35] | Linux MacOS | GPLv2 | 0.5.3 | 2015 | 3.1 | Набор инструментов, состоящий из приложения с графическим интерфейсом, консольного приложения и библиотеки, предназначенных для удаление метаданных. | 0 | У | У | У | У | У | У | Да | Да | Да | Да |
MetadataFox[36] | Windows | Условно-бесплатная | 1.1 | 2010 | 0.4 | Утилита для исследования файлов по их XMP метаданным. | 0 | — | — | — | Ч | — | — | Да | — | — | Да |
MetadataTouch[37] | Windows | Условно-бесплатная | 5.2 | 2011 | 0.6 | Утилита для просмотра и редактирования IPTC и XMP метаданных. | 70 | — | — | РЗ | РЗ | — | — | Да | — | — | Да |
MetaEditor[38] | Windows | Бесплатная | 3.3.4.0 | 2017 | 6.3 | Позволяет читать и редактировать метаданные цифровых фотографий. | >200 | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | — | — | Да | Да | — | — |
Металит[39] | Windows | Условно-бесплатная | 10.00 | 2018 | 16 | Позволяет читать и редактировать метаданные. Основная особенность — возможность одновременного редактирования любого числа файлов. | >200 | ЧРЗ | ЧРЗ | ЧРЗ | ЧРЗ | — | Ч | Да | Да | Да | Да |
Opanda PowerExif[40] | Windows | Условно-бесплатная | 1.22 | 2013 | 1.6 | Утилита с возможность пакетной обработки Exif/GPS данных. Также может удалить полностью все данные (включая Exif) с изображений. | >130 | ЧРЗУ | ЧРЗУ | У | У | У | — | Да | Да | — | |
PhotoME[41] | Windows | Бесплатная | 0.8 | 2014 | 3.3 | Мощное средство для просмотра и редактирования метаданных графических файлов. Благодаря хорошо организованному пространству и интуитивному управлению, возможны анализ и модификация Exif и IPTC-NAA метаданных, а также анализ ICC профилей. | >200 | ЧРЗ | ЧРЗ | ЧРЗ | — | ЧРЗ | Ч | Да | Да | Да | Да |
PowerExif[42] | Windows | Условно-бесплатная | 1.2 | 2010 | 1.6 | Утилита для редактирования Exif данных. | ~100 | ЧРЗ | ЧРЗ | — | — | — | — | Да | Да | — | — |
XnView[43] | Windows MacOS Linux | Бесплатная | 2.46(Windows) 1.70 (MacOS, Linux) | 2018 | 4.4 | Мощная программа для просмотра изображений, поддерживающая просмотр более 400 и сохранение (конвертирование) до 50 различных графических и мультимедийных форматов файлов. | 36 | Ч | Ч | ЧРЗ | — | — | — | Да | Да | Да | Да |
|
Формат метаданных — это… Что такое Формат метаданных?
Метаданные, в общем случае
- Метаданные это информация о данных[1].
- Информация об информации. Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (т.е как информативная часть в бинарном файле) и т. п.
- Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими[2].
- набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых помочь найти объект[3]. Термин используется в контексте поиска объектов, сущностей, ресурсов.
- Данные из более общей формальной системы, описывающей заданную систему данных.
Иерархии метаданных
Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).
Различие между данными и метаданными
Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:
- Что-то может являться как данными, так и метаданными. Так, заголовок статьи можно одновременно отнести как к метаданным (как элемент метаданных — заголовок), так и к собственно данным (поскольку заголовок является частью самого текста).
- Данные и метаданные могут меняться ролями. На стихотворение, рассматриваемое как данные, может быть написана музыка, в этом случае всё стихотворение может быть «прикреплено» к музыкальному файлу и в этом случае рассматриваться как метаданные. Таким образом, отнесение к одной или другой категории зависит от точки зрения (или, пространства имен, системы отсчета).
- Возможно создание мета-мета-…-метаданных (см. аксиома выбора). Поскольку, в соответствии с обычным определением, метаданные являются данными, то можно создать метаданные на метаданные, метаданные на метаданные на метаданные и так далее. На первый взгляд это может показаться бесполезным, но на самом деле это является очень существенным и полезным свойством данных и метаданных.
Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).
Использование
Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.
В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.
Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.
Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.
Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».
Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате
Классификация метаданных
Метаданные можно классифицировать по:
- Содержанию. Метаданные могут либо описывать сам ресурс (например, название и размер файла), либо содержимое ресурса (например, «в этом видеофайле показано как парень играет в футбол»).
- По отношению к ресурсу в целом. Метаданные могут относиться к ресурсу в целом или к его частям. Например, «Title» (название фильма) относится к фильму в целом, а «Scene description» (описание эпизода фильма) отдельное для каждого эпизода фильма.
- По возможности логического вывода. Метаданные можно подразделить на три слоя: нижний слой — это «сырые» данные сами по себе; средний слой — метаданные, описывающие эти данные; и верхний слой — метаданные, которые позволяют делать логический вывод, используя второй слой.
Формат метаданных
Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.
Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).
Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.
Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ANSI и т. п.)
Классификация форматов метаданных по описываемой предметной области:
- DCMI является одним из наиболее распространённых в интернет форматов метаданных для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов). Другие форматы метаданных, предназначенные для описания архивов и электронных ресурсов GILS, EAD.
- для описания персон и организаций FOAF
- для описания библиографических ресурсов предназначены форматы семейства MARC для решения задач интеграции данных был разработан формат MODS.
- для описания музейных и исторических ценностей используется формат CDWA
- для описания издательской продукции используются PRISM и ONIX
- для кристаллографической информации
- для работы с изображениями со спутников VICAR
- для описания новостей NewsXML
и т. д.
См. также
Примечания
- ↑ Воройский Ф.С. Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах). — 2-е изд., перераб. и доп.. — М.: Издательство Либерия, 2001. — С. 536. — ISBN 5-85129-134-6
- ↑ Task Force on Metadata. Summary Report. // American Library Association. — 1999. — Т. June.
- ↑ D. C. A. Bultermann Is It Time For a Moratorium on Metadata? // IEEE MultiMedia. — 2004. — Т. Oct-Dec.
Wikimedia Foundation. 2010.
Международный стандарт обмена данными SDMX (Statistical Data and Metadata eXchange) / Habr
В русскоязычном интернете весьма мало информации о SDMX, несмотря на то, что этот стандарт давно используется для публикации и обмена данными многими странами и международными организациями. Инициатива разработки стандарта была запущена семью международными организациями, работающими со статистическими данными, которые стали спонсорами разработки. Основной целью было упрощение обмена статистическими данными между такими организациями, создание стандарта такого обмена и описание бизнес-процесса по внедрению данного стандарта. Единый подход не только позволяет упростить доступ к статистическим данным, но и с помощью метаданных (данные о данных) делает более доступным понимание их смысла и содержания.
Основным сайтом инициативы SDMX выступает сайт sdmx.org, там же содержится перечень утвержденных междоменных концептов, справочников и классификаторов. Каждая организация, присоединяющаяся к стандарту, может его расширить и дополнить, используя специальную административную процедуру регистрации.
Стандарт не является жестким руководством к действию, организации сами выбирают, какие элементы SDMX они будут использовать и для каких целей.
Немного истории
Первая версия стандарта позволяла обмениваться статистическими данными и метаданными в форматах GESMES/TS (собственный SDMX формат, чем-то напоминающий CSV с разделителем, позже был переименован в SDMX-EDI) и XML формат данных SDML-ML.
Версия 1.0 была одобрена в сентябре 2004 года и принята как техническая спецификация ISO (ISO/TS 17369:2005) в апреле 2005 года.
В ноябре 2005 года была готова и одобрена версия 2.0, которая полностью совместима с версией 1.0, но добавила возможность обмена ссылочными(описательными) метаданными.
Версия 2.1 (текущая на 2018 год) была выпущена в мае 2011 года и в 2013 году была издана как международный стандарт ISO 17369.
Позднее были описаны стандарты обмена в форматах CSV и JSON.
Описание стандарта SDMX содержит следующие компоненты:
- Информационная модель (Information Model)
- XSD-схемы описания структуры, модели содержания и типов данных
- Руководящие принципы по информационному наполнению (Content-oriented Guidelines)
- Набор программ и инструментов для работы с SDMX
Информационная модель SDMX — основа стандарта. Она представлена концептами (CONCEPT), ограничениями (CONSTRAIN), правилами, операциями для определения формата и состава статистических данных, раскрываемых организацией. В рамках данной статьи не планируется полностью описать все SDMX-сущности, только основные компоненты.
Информационная модель SDMX
Чем статистические данные отличаются от обычных данных? Да в общем-то ничем.
Статистические данные — совокупность упорядоченных, классифицированных данных о некотором массовом явлении или процессе. Характеризуются набором измерений (концептов, в терминах SDMX), в качестве одного из которых обычно выступает временной период. Для обработки и анализа таких данных обычно используют BI инструменты.
Статистическое наблюдение – это набор конкретных значений концептов, однозначно характеризующих каждую единицу совокупности массива данных.
Число «208,36» представляет собой статистическое наблюдение, определяемое набором концептов (все данные вымышленные)
В SDMX концепт является базовым объектом структуры и представляет собой качественную характеристику статистических наблюдений. Значениями концепта может быть число, строка, дата или значения из справочников кодов (CODELIST). Это представление может быть переопределено в структуре данных (Data Structure Definition), когда концепт будет использован как измерение или атрибут.
Справочники кодов представляют собой простой список «ключ-значение». В списке перечисляются множество значений, которые будут использоваться в представлении: показатели, атрибуты и другие элементы структурной части SDMX. Они дополняются другими структурными метаданными, которые могут отражать специфичное для разных языков описание и иерархическую организацию кодов.
Принцип кодирования структурных объектов SDMX определен в стандарте: допустимы латинские символы в верхнем регистре, цифры и знак подчеркивания. Кроме того, поддерживается версионность структур.
Описание структуры данных Data Structure Definition (DSD) определяет соответствующий состав и порядок концептов для формирования конечного набора данных (DATASET). Каждому концепту, входящему в структуру, дается определение его роли в наборе данных:
- Измерение (DIMENSION) – основной идентификатор данных. Набор значений всех измерений, кроме временного, формирует уникальный код (CODE) серии в рамках одной структуры данных.
- Атрибут (ATTRIBUTE) — предоставляет дополнительное описание либо для набора данных, либо для конкретного наблюдения. Примером атрибута может быть единица измерения или статус наблюдения (предварительное, прогнозируемое, пересмотренное и т.д.).
- Непосредственно значение (MEASURE) наблюдения.
Таким образом, пример выше можно описать следующей структурой данных:
Концепт | Роль | Тип данных |
Периодичность | Измерение | Справочник |
Страна | Измерение | Справочник |
Функциональная категория | Измерение | Справочник |
Период | Измерение времени | Дата |
Единица измерения | Атрибут | Справочник |
Значение | Значение | Число |
Набор данных (DATASET) — это коллекция однородных данных, имеющих общую структуру DSD. Может содержать временные серии (time series) или же нескольких серий в определенный момент времени (перекрёстные данные – Cross-Sectional Data).
Связь CONCEPTS, CODELISTS, DSD и DATASET
Пример набора данных с сайта Европейского центрального банка. В поле «Key» указан набор измерений для каждой временной серии, разделенные точкой они образуют уникальный ключ
Данные временной серии
Метаданные
В SDMX метаданные (Metadata) разделены на две группы:
- Структурные метаданные (Structural metadata) – это набор концептов, используемых для описания и идентификации статистических данных и метаданных
- Ссылочные (или поясняющие) метаданные (Reference metadata) – большой набор концептов, которые определяют и квалифицируют наборы данных и которые обычно описывают не наблюдение или серию данных, но весь набор данных или даже организацию, которая предоставляет данные. Ссылочные метаданные обычно имеют текстовый или HTML-формат и используют концепты, описывающие содержание, методологию и качество данных.
Описание структуры метаданных Metadata Structure Definition (MSD) включает информацию о том, как организованы наборы метаданных, содержащие ссылочные значения (аналогично DSD). В частности, MSD описывает, что входит в обмен метаданными и как концепты соотносятся друг относительно друга, как они будут показаны (в виде текста или значения из справочника) и с каким типом объекта (agency, dataflow, data provider, dataset и др.) они связаны.
Набор ссылочных метаданных (METADATASET) — это информация, непосредственно описывающая статистический подход, организацию, предоставляющую данные или структуру данных, календарь публикаций, качество данных и прочее, в соответствии со структурой метаданных.
Представление ссылочных метаданных на сайте Европейского центрального банка
Руководящие принципы по информационному наполнению
Руководящие принципы по информационному наполнению (Content-oriented guidelines) — это набор рекомендаций в пределах SDMX стандарта. Их цель — максимальная совместимость в обмене данными и метаданными между организациями. Их использование между статистическими организациями поощряется насколько это возможно. Основными документами являются:
- Список междоменных концептов
- Статистические предметно-ориентированные области
- Общий словарь метаданных
Список междоменных концептов (Cross-Domain Concepts) содержит перечень статистических концептов, которые относятся к статистическому процессу и качеству данных. Этот перечень базируется на концептах, используемых международными организациями- спонсорами. Он не исчерпывающий и будет дополняться в будущем.
Концепты могут быть использованы как для данных, так и для метаданных. Каждый концепт имеет уникальный код и описание контекста, в котором данный концепт может быть использован, а также презентацию в SDMX-стандарте.
Статистические предметно-ориентированные области (Content-Oriented Domains) — классификация верхнего уровня, основанная на работе Европейской экономической комиссии ООН (UNECE) о статистических областях. Классификация предлагает стартовую точку в организации обмена статистических данных и метаданных.
Общий словарь метаданных Metadata Common Vocabulary (MCV) содержит концепты и связанные с ними измерения, используемые в структурных и ссылочных метаданных международных организаций и национальных агентств. MCV — словарь который рекомендует использовать общую терминологию с целью упростить коммуникации и понимание. MCV тесно привязана к междоменным концептам и также содержит все эти концепты, указывая их определение и описание контекста.
IT-инструменты для работы с SDMX
Перечень инструментов для работы с SDMX представлен на сайте sdmx.org.
Основным инструментом для работы со структурными метаданными является разработка компании Metadata Technology — Fusion Registry. Работает как веб-приложение. Существует в двух версиях – Community (бесплатная версия с ограничениями по возможностям) и Enterprise Edition (платная). Данное программное обеспечение в качестве единого регистратора (единой точки сбора и распространения данных и метаданных) использует Международный валютный фонд sdmxcentral.imf.org. Также этот программный продукт использует SDMX-комьюнити — registry.sdmx.org.
В Fusion Registry последних версий практически полностью реализован весь функционал стандарта. Приложение также может работать как SDMX регистратор. К сожалению, отсутствует возможность формирования данных и метаданных в SDMX формате.
Data Structure Wizard — Java-приложение для создания структурных метаданных версии 2.0 и 2.1, поддерживает создание всех основных SDMX сущностей.
SDMX converter — основной инструмент для работы с SDMX данными, созданный Евростатом. Позволяет сформировать набор данных (но не метаданных) из файлов формата Excel, CSV, FLR, а также конвертировать данные между различными форматами SDMX.
Вместо заключения
Стандартизация статистической информации в рамках стандарта SDMX существенно упрощает распространение и анализ данных. Использование web-сервисов позволяет упростить процессы обработки массивов информации и обеспечить подключение смежных систем, предоставляя любому пользователю возможность получить и сравнить интересующие его макроэкономические показатели по разным странам мира. Указанные преимущества стандарта SDMX лежат в основе реализуемого в настоящее время в России межведомственного проекта по внедрению стандарта в практику распространения статистических данных как в рамках информационного обмена с международными организациями, так и в рамках предоставления данных неограниченному кругу пользователей с использованием портальных технологий.
Метаданные – это что?
Существует множество баз данных. Чтобы понять, что они собой представляют, необходимо рассматривать их содержимое. Но есть одна маленькая полезная деталь – метаданные. Это то, что обобщает всю имеющуюся информацию. Для чего они были разработаны и зачем используются?
Что такое метаданные?
Следует отметить, что единой формулировки данного понятия не существует. Итак, метаданные – это общее название информации о базе данных.
В основном используется четыре обозначения данного термина:- Могут подразумевать субканальную информацию про используемые данные.
- Так называют характеристики, описывающие сущность. Они необходимы, чтобы искать, идентифицировать, оценивать и управлять значениями в БД. Ещё таким образом называют важный набор определённого количества структурированных описаний, предоставленных в допустимой форме и доступных в явном виде, благодаря чему можно найти необходимый объект. Подобная формулировка применяется в случаях, когда необходимо искать сущности, ресурсы и объекты.
- Данные из общей формальной системы, которые описывают свойства конкретного хранилища информации.
- Информация про характеристики веб-страницы (когда была создана, кто её автор).
Различие между данными и метаданными
Как их отличают? Дело в том, что провести однозначное разделение обычно невозможно. Почему? Давайте рассмотрим более детально на примере:
- Что-то может выступать в обеих ролях. Например, заголовок статьи может рассматриваться и как элемент метаданных, и в качестве информации, что передаётся читателю.
- Возможность меняться местами. Допустим, кто-то написал стихотворное произведение. Оно представляет собой данные. Композитор, опираясь на слова, создал музыкальную композицию и прикрепил данный текст. В таком случае он превращается в метаданные. Всё зависит от использования. Вообще, подобные случаи возможны из-за восприятия определённой точки зрения на основании своих суждений (тут играет роль пространство имён и система отсчёта).
- Возможность создания мета-…-метаданных ориентируясь на аксиому выбора. Это вытекает из того, что почти на любую информацию может быть создана своя система характеристик.
Метаданные файлов в компьютерах
Своё применение они нашли и в автоматизированных рабочих потоках. Если какая-то программа умеет работать с содержимым и структурой данных, то они могут быть преобразованы в другой тип информации, что позволяет освобождать пользователей от множества неудобных и рутинных действий.
Примером могут служить разработки, которые позволяют просматривать графические изображения с разными расширениями. Также можно вспомнить и о различных записях звука, фильмов и многих других вещах.Метаданные в мировой сети
В интернете с их помощью осуществляется поиск необходимой полезной информации среди огромных массивов данных. С этой точки зрения, метаданные, которые создаются вручную, представляют большую ценность ввиду своей осмысленности. В качестве подобного типа информации могут выступать ключевые слова, теги и ряд других элементов. Метаданные – это то, что кратко рассказывает о сайте. При проведении анализа поисковыми системами нескольких сайтов, если они выявят на них одинаковые тематические слова, то их взаимное указание друг на друга будет иметь большее значение, чем с обычных сайтов.
Классификация метаданных
Как их различают? В основном классификация проводится по одному из двух принципов:
- Содержание. Метаданные используются, чтобы описывать файл, ресурс или его содержимое (к примеру, заголовок – «как готовить картошку»).
- По принадлежности. Метаданные могу использовать, чтобы информировать о чем-то целом или его составляющей. Так, название фильма относится ко всему нему, а описание эпизода информирует только об определенной части.
- «Сырые» данные. Основа информационного обеспечения.
- Метаданные, описывающие содержимое. Они, в свою очередь, тоже используются.
- Метаданные, с помощью которых можно сделать логический вывод.
Такие типы метаданных существуют.
Три наиболее востребованных класса
Предлагаем ознакомиться с тремя классами, которые сейчас широко применяются:
- Внутренние метаданные. Это информация, которая описывает составные части вещей, их структуру и что она собой представляет. В качестве примера можно привести размер и формат файла.
- Административные метаданные. Требуются для процессов обработки информации, а также для назначения вещи. Например, кто автор, редактор, когда был создан файл.
- Описательные метаданные. Используются, чтобы охарактеризовать природу файла и его признаки (к какой категории относится, с чем ещё связан).
Формат метаданных
Так называют стандарт, который используется, чтобы проводить формальное описание какой-то категории ресурсов (сущностей, объектов и тому подобного).
Классифицируются по охвату и подробностям описываемых ресурсов.
Возможные проблемы
Когда может возникать ошибка метаданных? Отсутствие необходимой информации или ограничение доступа – вот основные причины возникающих проблем.
Также ошибка загрузки метаданных появляется в тех случаях, когда файл есть, но он повреждён. Основных причин такого состояния насчитывают три: износ техники, вредоносное влияние отдельных программ (как правило, компьютерных вирусов) и неправильное завершение работы с документом, по причине чего данные сохранились некорректно.Соответственно, значение метаданных в классификации и систематизировании сетевой информации трудно переоценить. Поэтому желающим оптимизировать собственный сайт просто необходимы знания о них.
MetaData. Метаданные — самая большая проблема в музыкальной индустрии
Недавно один музыкант, подписавший контракт с крупным инди-лейблом, узнал, что издатель должен ему 40 тысяч долларов роялти за музыкальные треки, но выплатить их он не может. Речь идет не о какой-то одной песне — дело касалось 70 треков, выплаты за которые не осуществлялись как минимум последние шесть лет.
Проблема, по словам представителей лейбла, заключалась в метаданных. В музыкальной индустрии метаданные чаще всего относятся к тегам песен, их можно увидеть в онлайн-сервисах Spotify или Apple Music. Но в метаданных также содержится вся основная информация о проигрываемой песне или альбоме: название, имена авторов и продюсеров, издатель, лейбл и многое другое. Эти сведения должны быть одинаковы во всех отраслевых базах данных. Только тогда при воспроизведении трека выплаты пойдут именно правообладателю. Но очень часто этого не происходит.
Метаданные в музыке традиционно воспринимаются как что-то скучное и неважное. Но, как оказалось, это один из самых важных, сложных и плохо организованных моментов, из-за чего многие музыканты не могут получить гонорар за свою работу. «Каждую минуту из-за отсутствующих данных я лишаюсь пусть небольших, но денег», — заявил музыкант, пожелавший остаться анонимным.
Вроде бы несложно заполнить несколько строк правильной информацией о песне, но проблемы с метаданными мучают музыкальную индустрию на протяжении десятков лет. Мало того, что не существует единых стандартов и правил для сбора и отображения таких данных. Никак не проверяется их точность перед выпуском песни и нет единого места, где хранились бы все музыкальные метаданные. Вместо этого разрозненные фрагменты хранятся в сотнях разных мест по всему миру.
Проблема намного шире, чем неправильное название трека в сервисе Spotify. Незаполненные или ошибочные метатеги в песне, по некоторым оценкам, привели к тому, что несколько миллиардов долларов так и остались невыплаченными музыкантам, честно заработавшим эти деньги. И поскольку объемы записываемой и скачиваемой музыки постоянно растут, ситуация еще больше запутывается.
Важно понимать, что метаданные используются не только для поиска песни или альбома. На основании этой информации делаются выплаты всем правообладателям, когда песня воспроизводится, покупается или скачивается. Это важное свидетельство работы исполнителя и всех, кто ему помогал в работе над треком, потому что «Это поможет получить новое предложение о сотрудничестве», — говорит Джошуа Джексон, руководитель отдела по развитию бизнеса в австралийской компании Jaxsta, которая занимается аутентификацией музыкальной информации.
Ошибки возникают по нескольким причинам. Не существует единого формата метаданных, информация часто игнорируется или вводится неправильно, базы данных принадлежат и поддерживаются разным правообладателям.
База данных студии звукозаписи отличается от базы данных Spotify, а она, в свою очередь, сильно отличается от баз данных обществ правообладателей — ASCAP (Американское общество композиторов, авторов и издателей) и BMI (Broadcast Music, Inc.), которые выплачивают авторам роялти за публичное воспроизведение песен. «Частично проблема заключается в том, что таблицы и поля с записями в базах данных разные, — объясняет Джефф Беккер, юрист по вопросам шоу-бизнеса. — Когда в базу данных поступает, например, запрос с фамилией звукорежиссера, а в ней нет такого поля, то ее владелец обрабатывает его вручную. Но чаще такой запрос просто игнорируется, и никаких выплат не происходит».
Каждая база данных имеет свой набор правил. Например, если Ariana Grande, Nicki Minaj и Jessie J вдруг выпустят новый сингл, он будет размещен в сервисе Apple Music, в одной строчке будут указаны имена всех исполнителей. Это приведет к тому, что Apple Music и Spotify называют «ошибкой нескольких исполнителей». Ввод имени в качестве «фамилии, имени» также приведет к ошибке. Существуют способы встраивания метаданных в файл песни, чтобы обеспечить совместимость всей информации, но распространители, как правило, требуют удалять такие данные, поскольку это может вызвать проблемы с загрузкой.
Вторая серьезная проблема заключается в том, что в теги часто заносятся некорректные данные. В записи песни могут принимать участие несколько авторов, продюсеров и звукорежиссеров, и каждый новый участник повышает вероятность ошибок. Чем длиннее цепочка участников, тем больше вероятность того, что часть информации окажется неверной.
По словам Никласа Молиндера (Niclas Molinder), основателя компании музыкальных метаданных Auddly (теперь она называется Session), обычно над одним треком работает несколько человек. В 2016 году среднюю по популярности песню записывали четыре автора и шесть издателей. Это создает много рисков для некорректной отправки метаданных. А если чье-то имя отсутствует, написано с ошибкой или оформлено не по правилам, это может привести к сбоям в оплате для всех участников процесса. Считается, что до 25 процентов роялти не выплачиваются совсем или выплачиваются не тем правообладателям.
«В одну базу данных легко ввести корректные данные, — говорит Молиндер. — Но если вы не получите полностью корректную информацию от других правообладателей, а они не получат такие же данные от вас, то никто не получит деньги».
Теоретически, когда песня записана, метаданные заполняются исполнителем или продюсером. Потом они передают эти данные лейблу, дистрибьютору или издателю. В реальности этот процесс нервный и запутанный: исполнители и лейблы торопятся выпустить трек, а метаданные много раз корректируются и дополняются. «Много информации поступает уже после записи песни, правки приходится делать постфактум», — говорит Джо Коньерс, соучредитель платформы управления цифровыми правами Songtrust.
Ошибки в метаданных можно исправить и позже, но сделать это придется в каждой базе данных, где она появляется. И даже если все ошибки исправлены, это не означает, что исполнитель получает все выплаты, которые ему положены, — у каждой компании и общества правообладателей свои сроки «хранения» невостребованных выплат. Один музыкант не получил гонорар на сумму 40 000 долларов, потому что из-за сбоя в двух базах исчезли данные о его интеллектуальной собственности. Музыкант был не виноват, но прошло слишком много времени, поэтому в выплате ему отказали.
«Считается само собой разумеющимся, что можно найти всю информацию о любом фильме или телепередаче на сайте IMDb — это база данных о кинематографе. Там указаны все авторы, вплоть до ассистентов режиссера, — сказал Джексон, организовавший отдельную дискуссию по проблемам метаданных на конференции Music Biz 2019 в Нэшвилле. — Но изменения в музыкальных метаданных и стандартах происходят очень медленно».
Джексон предлагает по подобию IDMb создать сайт-справочник для музыкальной индустрии. На первый взгляд, это простая задача, но уже на протяжении десятилетий музыкальные корпорации не могут ее реализовать. Причин много, основная — развитие стриминговых сервисов.
«Произошел не только рост количества записей, но и изменение самой концепции альбома, — объясняет Вики Науман, консультант музыкальной технологической фирмы CrossBorderWorks. — Если раньше в год мы выпускали 100 000 альбомов на компакт-дисках, то сейчас в стриминговые сервисы ежедневно загружается 25 000 цифровых треков».
Кроме того, в настоящее время музыка потребляется и монетизируется способами, которых не существовало двадцать лет назад. «Еще недавно люди покупали компакт-диски, где было записано несколько песен-хитов, — говорит Саймон Деннетт, продакт-менеджер издательской компании Kobalt. — Сегодня популярными могут быть сотни различных версий какой-нибудь песни: ремиксы, кавер-версии, сэмплы, записи на других языках и т. д. Они могут генерировать триллионы транзакций. Объем данных, которые теперь нужно обрабатывать и учитывать, превратился в серьезную проблему», — считает Деннетт.
Попытки создать единую централизованную базу метаданных предпринимались несколько раз, но всегда заканчивались неудачей. Вот некоторые причины: борьба между различными направлениями музыкальной индустрии, разные законы об авторском праве, проблемы с финансированием, разные языки, а также культуры и традиции музыкальной индустрии в разных странах.
Нет организации, занимающейся сбором и корректировкой музыкальных метаданных. Некоторые считают, что компании-дистрибьюторы цифровой музыки, например TuneCore или DistroKid, могли бы обучать авторов, исполнителей и продюсеров заполнять метаданные во время записи песни. Другие считают, что сами стриминговые сервисы могли бы улучшить работу с метаданными и показывать больше информации о песне, что заставило бы правообладателей проверять ее чаще. «В долгосрочной перспективе это только облегчит нашу работу, когда мы станем получать сведения от авторов как можно раньше», — говорит Джексон.
Но многие исполнители даже не знают ни о метаданных, ни о том, как ошибки в них могут повлиять на выплаты, потому что сама структура роялти очень сложная и запутанная. Многие стартапы пытаются научить исполнителей работать с метаданными, но это очень тяжело. Бесплатное мобильное приложение Splits позволяет музыкантам создавать цифровое соглашение, назначать соавторов и выделять доли собственности. Существует также технология Creator Credits для комплекса программ Pro Tools, она добавляет метаданные в файлы Pro Tools.
Ситуация понемногу сдвигается с мертвой точки, но предстоит еще большая и долгая работа. «Я не забываю размещать информацию в TuneCore. Раньше этот сервис не запрашивал никаких метаданных — только название песни», — говорит Дуг Митчелл, директор по работе с клиентами музыкальной компании Exactuals. — Теперь запрашивается название, исполнитель и жанр». Это только начало.
Есть мнение, что идея создания централизованных и стандартизированных метаданных уже устарела. Но эксперты считают, что отказываться от нее не стоит. Кроме устранения ошибок при ведении записей это поможет не допустить выплат посторонним музыкантам и свяжет их с деньгами, которые им причитаются. «Сбор разрозненных данных о владельцах и их объединение в одну глобальную базу данных — сложная, но очень нужная задача», — уверен Деннетт. А Джо Коньерс выражается проще: «Это утопия».
Источник.
Метаданные — это… Что такое Метаданные?
метаданные — Сведения о данных. [ГОСТ Р 52438 2005] метаданные 1. Данные о данных. Метаданные представляют собой описание структуры данных и методов их обработки. Кроме того, в метаданных может содержаться дополнительная информация о базах данных, являющихся… … Справочник технического переводчика
Метаданные — формализованная совокупность описаний каких либо информационных объектов, общая для всех объектов определенного типа… Источник: ПОСТАНОВЛЕНИЕ Правительства Москвы от 14.06.2005 N 439 ПП О ДАЛЬНЕЙШЕМ ПРОВЕДЕНИИ РАБОТ ПО СОЗДАНИЮ МОСКОВСКОГО… … Официальная терминология
Метаданные — (Metadata) — сведения о составе данных, их содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования и т.д … Экономико-математический словарь
Метаданные — Эта статья или раздел нуждается в переработке. Пожалуйста, улучшите статью в соответствии с правилами написания статей. Метаданные … Википедия
метаданные — 3.10 метаданные (metadata): Данные, описывающие контекст, содержание, структуру документов и управление ими. Источник: ГОСТ Р ИСО 15489 1 2007: Система стандарто … Словарь-справочник терминов нормативно-технической документации
метаданные — metaduomenys statusas Aprobuotas sritis kartografija apibrėžtis Duomenys, kuriais apibūdinami erdvinių duomenų rinkiniai ir paslaugos ir kurie reikalingi šiems dalykams surasti, įvertinti ir naudoti. atitikmenys: angl. metadata vok. Metadateien;… … Lithuanian dictionary (lietuvių žodynas)
метаданные — метад анные, ых … Русский орфографический словарь
метаданные — мн., Р. метада/нных … Орфографический словарь русского языка
метаданные — метада/нные, ых … Слитно. Раздельно. Через дефис.
МЕТАДАННЫЕ — согласно ГОСТ Р ИСО 15489–1 2007 «Системы СИБИД. Управление документами. Общие требования», – данные, описывающие контекст, содержание, структуру документов и управление документами в течение времени … Делопроизводство и архивное дело в терминах и определениях