КЛАССИФИКАЦИЯ
(системно-морфологический подход)

Кузнецов С.В., Титов В.В.


5.2. Классификаторы ВНИИКИ

В России большинство задач классификации статистической информации Правительством возложено на Всероссийский научно-исследовательский институт классификации, терминологии и информации по стандартизации и качеству (ВНИИКИ) Госстандарта. Цель этого мероприятия очевидна: обеспечить оперативную компьютерную обработку всей текущей технико-экономической и социальной информации о стране. Перечень классификаторов общероссийского значения [7] содержит 25 наименований иерархических классификаторов (из них 12 ведет ВНИИКИ) плюс 20 общесоюзных классификаторов, сохранивших силу до настоящего времени; кроме того, имеются два громадных фасетных классификатора: профессий и информации о населении.

Все классификаторы ВНИИКИ однотипны: они заявлены как иерархические структуры с 3-4 уровнями деления и цифровым кодированием; кроме информативных цифр код содержит еще контрольную цифру, предназначенную для защиты кодовой информации от сбоев считывания. Условие “от трех до семи” практически не используется, на верхних уровнях классификаторов иногда оказывается по нескольку десятков позиций.
При поверхностном анализе кажется, что при формировании рубрик классификаторов ВНИИКИ, предназначенных в первую очередь для компьютеризованного статистического анализа информации, нарушение принципа “от трех до семи” не столь существенно, так как компьютер не страдает ограниченностью числа одновременно анализируемых объектов. Однако это справедливо лишь на этапе обработки уже расклассифицированной информации. А первой стадией является как раз определение места этой информации в классификации, и его можно выполнить или вручную (и тогда вступает в игру фактор “от трех до семи”), или с помощью компьютерной программы, но тогда в программу надо заложить алгоритм распознавания ключевых признаков информации и сопоставления этих признаков с соответствующими признаками всех ячеек классификатора. Риторический вопрос: “Если нужно сделать выбор среди ряда альтернатив, то в каком случае это сделать легче: когда число вариантов три или тридцать?” однозначно приводит к выводу, что принцип “от трех до семи” удобен не только для “ручного” выбора, но гораздо важнее он для компьютерного: если при формировании классификатора на каждом этапе четко формулировать основание логического деления, то все проблемы с компьютерным размещением объектов в классификацию решаются элементарно, причем особенно просто это реализуется в диалоговом режиме, когда процесс выбора предлагает компьютер, а реализует человек, оператор.

Впрочем, и для полностью “безлюдного” размещения новой информации в классификацию проблема решается, если методами смыслового анализа полнотекстовой информации весь классификатор будет “прошит” соответствующими запросами автоматического поиска. В настоящее время эта проблема в принципе решена, на рынке существует несколько программ распознавания смысла русскоязычной полнотекстовой информации, дело только за составлением соответствующих запросов (правда, это довольно тонкая и кропотливая работа).

Перекраивание всей системы классификации - процесс очень болезненный и непростой, тем более, что основное человеческое свойство - привычка - безусловно вызовет массовое неприятие принципиально нового способа классификации. Однако есть сравнительно несложный способ “плавного” перехода к новой структуре классификаторов. Дело в том, что все наименования ячеек существующих классификаторов легко опознаваемы, соответствуют реальным объектам и отказываться от большинства этих устоявшихся наименований нет никакого смысла. Поэтому новый классификатор можно строить из старого так же, как новый дом - из кирпичей разобранного старого. Новым здесь является только принцип навигации в классификаторе: вместо того, чтобы ломать голову над очередным неохватным пасьянсом рубрик, оператору ведь менее утомительно ответить на простые вопросы, появляющиеся на экране компьютера (и даже не ответить, а просто выбрать из трех - семи уже готовых ответов). А то, что наряду со старым хорошо знакомым классификатором где-то в недрах компьютера заложен новый, то об этом оператор может и не знать.

Такой способ мог бы путем незначительного “косметического” ремонта наименований рубрик старых классификаторов полностью исключить основные их болезни - неоднозначность выбора ячеек и консервативность (трудность расширения и введения новых рубрик), одновременно и сохранив все уже наработанное (т.е. наполнение существующей классификации), и переведя “на новые рельсы” всю работу по классификации.



Патентная классификация

Оглавление

Классификаторы материальных объектов и услуг