ИНФОРМАЦИОННЫЕ РЕСУРСЫ - ОПРЕДЕЛЕНИЕ, ОСНОВНЫЕ ПОНЯТИЯ

Ошибки идентификации


Как правило, возникновение ошибок идентификации начинается на этапе поиска информации.

Исследования, связанные с изучением различных указателей документальных источников информации, свидетельствуют о том, что значительные искажения вводятся составителями документов за счет ошибок в написании имен авторов (коллективных и индивидуальных, а также наименований объектов. Например:

  • Создавая в течение 10 лет сводную картотеку коллективных авторов на основе фондов государственной библиотеки "Прусский культурный фонд" (Зап.Берлин), немецкой библиотеки во Франкфурте-на-Майне и Боварской библиотеке в Мюнхене, выявили 207 тыс. авторов и 402 тыс. написаний их фамилий [РЖ 6И202,1985].
  • Варианты написания фамилии автора-венгерского математика Georgt Polia в различных изданиях имеют следующие формы представления [Д.Пойя. Математическое открытие. Решение задач: основные понятия, изучение, преподавание.-М.: Наука, Гл. ред. физ.- мат.лит., 1970]: Дж.Пойа, Георг Полиа (немецкий вариант), Дьердь Пойа(венгерский вариант), Д.Пойя.
  • По данным [ЭИ Информатика,#9,1984, Исследование достоверности библиографических ссылок] в опубликованных журнальных статьях от 10 до 13% библиографических ссылок содержит ошибки. Анализ 2500 ссылок на одну из работ за 1976-1981 гг. показал: 180 авторов одновременно сослались и на статью о книге и книгу; из них в 148 указано заглавие статьи, причем 114-верно, а в 34 случаях(23%) с той же ошибкой, что в книге. Более подробный анализ показал (в данном примере), что лишь малое число авторов может быть обвинено в некорректном цитировании(4-5%). Значительная часть ошибок относится к тем данным, которые задают номера томов, страниц, что существенно затрудняет поиск требуемых источников и, соответственно, контроль приведенной в источниках информации.
  • Ошибки, связанные с ложным отождествлением однофамильцев в качестве одного и того же лица. Последствия различны: от неправильной идентификации уровня доверия к информации и области деятельности и уровня квалификации, до неправильной оценки достоверности и надежности источника информации.

  • Особо следует рассмотреть вопросы, связанные с идентификацией марок изделий и наименований фирм и предприятий.

    В ряде технических заданий на разработку баз данных по изделиям и организационным единицам обычно используются следующие посылки:

  • Марки изделий являются, в сущности, не лексическими единицами естественного языка, а однозначно заданными (для каждого изделия) условными обозначениями. В связи с этим неоднозначность их написания и интерпретации в системе маловероятна (?!). Необходимо только не допускать отклонений от обозначений, установленных производителями изделий. Какая-либо дополнительная нормализация употреблений марок изделий является излишней.


  • Предприятия и фирмы также могут быть однозначно идентифицированы по их официальным названиям, установленным самими фирмами и используемыми в научно-технической литературе. Как и другие наименования, эти названия не переводятся на другие языки. Возможно, правда, применение транслитерации.


  • Приведенные утверждения некорректны. В действительности идентификация изделий, фирм и предприятий по их наименованиям является достаточно сложной проблемой. Это обусловлено следующими причинами:



  • многие объекты имеют несколько имен, каждое из которых используется в конкретных условиях;


  • существуют родовые имена, под которыми группируется некоторое подмножество однородных, но не тождественных по своему назначению, свойствам, функциям и характеристикам объектов;


  • одни и те же имена могут принадлежать принципиально различным объектам;


  • перенос наименований в иную языковую среду ведет, как правило, к появлению имен заменителей, которые после прохождения через несколько языковых преобразований порождают имена-идентификаторы, которые не могут быть однозначно идентифицированы с исходным объектом, что ведет к появлению "объектов-фантомов".


  • Трудности идентификации объектов по их наименованиям пытаются обойти с помощью использования "записи их имен на языке оригинала".

    Но такой подход реально осуществить далеко не просто, т.к.



    он не может быть реализован без наличия в системах полного алфавита ВСЕХ языков, на которых ведется обработка информации.

    Но и это не избавит от ложных отождествлений объектов. Ибо абсолютно идентичное по написанию имя собственное, может принадлежать принципиально различным объектам.

    Поэтому утверждения типа: в настоящее время в информационных изданиях (например, ВИНИТИ, система МОСФИтракторостроения (одна из подсистем бывшего МЦНТИ стран-членов СЭВ) ) сложилась традиция записи названий предприятий и фирм на языке оригинала; -необходимо рассматривать как прием, используемый в действующих системах, но одновременно необходимо понимать, что данный прием в действительности не дает решения проблемы однозначной идентификации объектов по их именам.

    Одним из методов повышения качества идентификации имен собственных (принадлежащих самым различным объектам: фамилий, географических наименований, наименований фирм) является транслитерация.

    Именно этим вызвана разработка систем и правил транслитерации различных имен (географических наименований, наименований фирм, предприятий, имен собственных), представленных на различных языках, использующих различные алфавиты на основе латиницы, кириллицы и других графических представлений символов.

    Создание правил, соответствующих зачастую противоречивым, сложившимся под воздействием различных факторов традициям передачи иноязычных имен собственных в русских текстах крайне затруднительно. В нашей стране этой проблеме не уделялось должного внимания, что существенно затрудняло обработку данных в полиязычных информационных системах. Проведенные в 80-х годах работы по разработке стандартов по транслитерации латиницы в кириллицу создавали определенную базу нормирования представления латинизированных текстов русским алфавитом.

    Однако процессы суверенизации республик разрушили достигнутые договоренности, а их переход на национальные языки еще более осложнил вопросы однозначной идентификации имен объектов.

    Сложность идентификации усиливается рядом дополнительных факторов:



  • смена алфавита, проведенная в ряде республик, влечет изменение норм написания, как на языке оригинала, так и на языках перевода. Например: Кыргызстан, Башкаркостан;


  • массовым переименованием объектов учета (фамилий, географических наименований и др.);


  • разрушением сложившихся норм перевода на другие языки;


  • появлением огромного числа новых слов в базовых языках. Данная ситуация будет особенно характерна для всех новых государственных образований на территории бывшего СССР.


  • В принципе, перед разработчиками информационных систем республик возникла еще более сложная проблема создания многоязычных и многоалфавитных перечней наименований изделий, фирм, предприятий и других имен собственных, и каждая республика теперь будет решать эти проблемы самостоятельно и далеко не всегда успешно, что существенно осложнит проблемы идентификации объектов по их именам.

    =




    Содержание раздела