Термин тезаурус. Тезаурус: что это такое
кафедры ТАОИ КемГУКИ
Информационно-поисковые тезаурусы:
структура, назначение и порядок разработки
1. Тезаурус как способ систематизированного представления знаний и
разновидность идеографического словаря.
2. Информационно-поисковые тезаурусы: сущность и назначение
3. Структура ИПТ
4. Порядок разработки, экспертизы, регистрации и ведения ИПТ.
Список литературы
1. ГОСТ 7.74 – 96. Информационно-поисковые языки. Термины и определения [Текст]. – Введ. 1997-07-01. – Минск: Межгосударственный совет по стандартизации, метрологии и , 1997. – 34 с. (Система стандартов по информации библиотечному и издательскому делу) ТК 191.
2. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, и форма представления [Текст]. – ГОСТ 7.25-80; Введ. 2002-07-01. – М.: ИПК Изд-во стандартов, 2001. – 16 с. МТК 191.
3. ГОСТ 7.24-2007 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – Взамен ГОСТ 7.24-90; введ. 2008-07-01. / Межгосударственный совет по стандартизации, метрологии и сертификации. – М.: Стандартинформ, 2008. – 7 с. (Система стандартов по информации, библиотечному и издательскому делу)
4. Баранов, О. С. Идеографический словарь русского языка / О. С. Баранов. – М.:Издательство ЭТС, 1995. – 820 c
5. Жмайло, С. В. К вопросу об определении тезауруса [Текст] / С. В. // НТИ. Сер. 1 Организация и информационной работы. – 2003. – №12. – С.20 – 25.
6. Жмайло, С. В. К разработке современных информационно-поисковых тезаурусов [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. –2004. – №1. – С.23 – 31.
Так, в идеографическом словаре русского языка О. С. Баранова (4) выделены 12 высших разделов идеографического словаря, среди которых: «порядок, природа, деятельность, культура» и др., каждый из которых делится на группы, подгруппы, отделы, разделы. Все слова в этом словаре собраны в гнезда по смыслу и группируются некоторого понятия, с которым они связаны чаще всего видовыми отношениями. Гнезда в свою группируются в подразделы и т.д. На данный момент в словаре 5923 гнезд, 7 уровней деления (по данным www.rifmovnik.ru/thesaurus.htm на 16.02.2010 г.). Приведем пример словарной статьи из этого словаря:
178.4.7 аромат ▲ - приятный запах (например, запах цветов, травы, сена. нежный #. пьянящий #). ароматизация . . . амбре. фимиам.
Код слова «аромат» отражает принятую в данном идеографическую классификацию, в частности, соотнесенность данного слова с категорией «178- Ощущения».
Таким образом, термины «тезаурус», «идеографический словарь», «словарь типа тезаурус», в первую очередь означают, что совокупность слов языка в них представлена таким образом, что в одну группу слов входят слова, близкие по смыслу. Основное назначение идеографических словарей - совокупности лексических единиц, объединённых общим понятием; это облегчает читателю наиболее подходящих средств для адекватного выражения мысли и способствует активному владению языком.
Из истории тезаурусов
КУРТКИ 2302 в Изделия костюмные Изделия пальтовые Изделия швейные н Куртка двубортная Куртка комбинированная Куртка спортивная в Меры упаковочные Остатки материала Отходы материала |
Лексическое примечание; Аскрипторы или дескрипторы-синонимы; Вышестоящие дескрипторы; Нижестоящие дескрипторы; Ассоциативные дескрипторы; Дескрипторы, связанные другими видами отношений. Внутри каждой группы ЛЕ, связанных с заглавным дескриптором одним видом парадигматических отношений, должен быть алфавитный порядок расположения. Например: АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ с языки алгоритмические машиноориентированные языки проблемноориентированные языки в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ФОРМАЛЬНЫЕ ЯЗЫКИ н АВТОКОДЫ а АЛГОРИТМЫ ПРОГРАММИРОВАНИЕ ср искусственные языки Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов. Приведем примеры аскрипторных статей: Алфавитно-цифровые знаки исп а ФОРМАЛЬНЫЕ ЯЗЫКИ ЕСТЕСТВЕННЫЕ ЯЗЫКИ см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ Словарная статья может также включать: Частоту использования дескриптора; Кодовый номер дескриптора; Код дескриптора по систематическому указателю; Классификационные индексы; Дополнительные семантические и лексикографические пометы; Иноязычные эквиваленты. Качество лексико-семантического указателя определяется полнотой включенных в него лексических единиц. понимается как вероятность вхождения в тезаурус любого информативно-значащего слова для данной тематической области. Полнота лексико-семантического указателя, а, следовательно, и всего тезауруса оказывает существенное на результаты индексирования документов и запросов. Дополнительные части могут включать в свой состав систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц. Систематический указатель – это указатель, в котором дескрипторы сгруппированы согласно принятой в ИПТ рубрикации. Систематический указатель определяет тематическое направление тезауруса, раскрывает его содержание и отражает те отрасли науки и техники, по которым можно с той или иной глубиной детализации проводить поиск. Необходимость его как части ИПТ обусловлена тем, что он дает наглядное представление об общем состоянии терминологии в той или иной области знаний, позволяет построить стройную терминологическую модель и по возможности все термины и понятия, которые должны найти место в тезаурусе. Он предназначен для облегчения поиска терминов при составлении поисковых образов документов и запросов путем упорядочения множества дескрипторов и аскрипторов по предметному признаку. Систематический указатель, по существу, представляет собой классификационную схему наполнения тезауруса терминологией, так как он строится путем упорядочения множества дескрипторов по предметно-тематическим областям. Систематические указатели ИПТ подразделяют на три типа: Тематические, Смешанные. Такое деление отражает принцип построения классификационной схемы систематического указателя. Основные функции, выполняемые систематическим указателем ИПТ: Использование в качестве вспомогательного при индексировании, обеспечивающее, всего, поиска дескрипторов для индексирования понятий, не представленных в тезаурусе в явном виде (поисковая функция); Использование в процессе ведения тезауруса (функция ведения ИПТ); Использование в качестве структурной основы ИПТ, как управления его разработкой (конструктивная функция). В соответствии с ГОСТ 7.25-2001 (2) при построении систематического указателя тематического и смешанного типов в его тематической части следует использовать рубрики Межгосударственного рубрикатора НТИ или рубрикатора конкретной АСНТИ, совместимого с Межгосударственным рубрикатором НТИ. При построении систематического указателя категориального и смешанного типов в его категориальной части следует следующие общие категории: Названия дисциплин и отраслей деятельности; Предметы, материалы; Методы, процессы, операции, явления; Свойства, величины, параметры, характеристики; Отношения, структуры, модели, законы, правила, абстрактные понятия. Иерархический указатель. Иерархический указатель – указатель, в котором дан перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. Он отражает полную структуру иерархических отношений в ИПТ. После каждого дескриптора приведе-ны непосредственно дескрипторы с указанием их уровня в иерар-хии путем применения нумерации либо графического обозначения уровня: Необходимость разработки иерархического указателя ИПТ бывает вызвана тем, что в словарных статьях ИПТ не закрепляется вся система подчиненности понятий, т.к. это повлекло бы за собой значительное увеличение лексико-семантического указателя. возникает необходимость разработки самостоятельного раздела ИПТ – иерархического указателя, который бы отражал всю иерархическую цепочку подчиненности дескрипторов донизу. Пермутационный указатель – указатель, в котором в алфавитном порядке перечислены все отдельные слова, входящие в компоненты словосочетаний, обозначающих дескрипторы и для каждого из них указаны все дескрипторы, в состав которых входят эти слова. Следовательно, каждый термин встречается в пермутационном указателе столько раз, сколько значащих слов он содержит. Назначение пермутационного указателя – обеспечивать поиск дескрипторов-словосочетаний по любому слову, входящему в их состав, в том числе и по тем, которые не стоят в начале лексической единицы. Он позволяет группировать в одном месте однокоренные слова. Как правило, пермутационный указатель составляется автоматизированным способом и имеет обычно вид указателя типа KWIC (Key Word – In Context – «Ключевые слова в контексте»), в котором все значащие слова – терминов – располагаются в алфавитном порядке. в пермутационный указатель находится в центре колонки, которую образуют микроконтексты элементов терминов, а неуместившаяся часть терминов переносится в левую часть той же строки:
|
3.1. Понятие тезауруса
Тезаурус (от греч. θήσαϋροξ - сокровище, запас) или идеографический словарь (от греч. idea - понятие, представление, идея и grapho - пишу, описываю) - в современной лингвистике: 1) особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения между лексическими единицами; 2) словарь для поиска какого-либо слова по его смысловой связи с другими словами; 3) определенный способ организации (расположения) слов в словаре; 4) способ организации лексического состава, который позволяет экономно «моделировать мир».
В первом, исконном, значении - хранилище, сокровище термин тезаурус использовал Л.В. Щерба в статье «Опыт общей лексикографии» (противоположение третье: thesaurus - обычный (толковый или переводной) словарь). Ученый пишет: «Когда говорят thesaurus, то нынче у нас чаще всего имеют при этом в виду «Thesaurus linguae latinae», предприятие пяти немецких академий, начатое еще в 1900 г. и до сих пор доведенное с пропусками лишь до буквы М. Характерная особенность этого типа словарей состоит в том, что в них приводятся все решительно слова, встретившиеся в данном языке хотя бы один раз, и что под каждым словом приводятся решительно все цитаты из имеющихся на данном языке текстов. В основе вышеуказанного противоположения - thesaurus -обычный (толковый или переводной) словарь - лежит противоположение «языкового материала» и «языковой системы» - понятия, которые я пытался обосновать в своей статье «О трояком аспекте языковых явлений и об эксперименте в языкознании» .
Второе значение этого термина связано с имеющим широкую известность словарем-тезаурусом «Тезаурус английских слов и выражений» П.М. Роже (Roget"s Thesaurus of English Words and Phrases, 1852) и его продолжением, словарем О.В. Баранова.
В этой трактовке термин тезаурус обозначает определенный способ организации, расположения лексического состава в словаре (см. третье значение термина).
Четвертое значение термина тезаурус связано с всеобщим признанием такого способа организации лексического состава, который позволяет экономно «моделировать мир». С этой точки зрения тезаурус-словарь представляет собой «систематическое упорядочение лексики какой-либо научной или технической области, а в наиболее общем виде - общелитературной лексики, и более того, всей лексики данного языка».
Согласно Ю.Н. Караулову, общеязыковой тезаурус, фиксируя в структуре и взаимоотношениях своих рубрик, разделов, зон, областей широкие возможности невербального соединения идей, обеспечивает учет человеческих ценностей .
А.Н. Баранов и Д.О. Добровольский в предисловии «От редакторов» к своему «Словарю-тезаурусу современной русской идиоматики» дают тезаурусу следующее определение - особый вид словаря, отличающийся от других (в частности, толкового, двуязычного и др.) способом организации языкового материала. В тезаурусе языковые единицы представлены не в алфавитном порядке, как в обычном словаре, а сгруппированы на основании их значения .
Л.П. Крысин называет тезаурус (идеографический словарь) толковым словарем особого рода, словарем «наоборот». «Если в толковом словаре, пишет ученый, «входом» в словарную статью является слово, а содержанием словарной статьи - толкование смысла этого слова, то в идеографическом словаре «входом» служит смысл, идея (отсюда и название этого вида словарей - идеографические), а содержанием словарной статьи - перечень слов, выражающий данный смысл. И если толковый словарь - незаменимый инструмент при понимании текста, то идеографический может быть использован при порождении текста: очень часто человек хочет выразить определенную мысль, но не может найти подходящих для этого слов; идеографический словарь облегчает эти поиски. Различают два основных вида тезаурусов:
лингвистический тезаурус - словарь, содержащий перечень слов естественного языка, отобранных в результате содержательного анализа текстов и систематизированных в соответствии с принятой классификационной системой;
статистический тезаурус - информационно-поисковый словарь, содержащий перечень слов, отобранных в результате статистического анализа текстов по какой-либо определенной тематике и сгруппированных в словарные статьи на основе частоты совместной встречаемости этих слов в одних и тех же текстах.
Информационно-поисковые тезаурусы (ИПТ) облегчают поиск информации при ее автоматической обработке. ИПТ максимально раскрывают семантические отношения между лексическими единицами. Как сказано в ГОСТе по ИПТ, «тезаурус информационно-поисковый одноязычный - контролируемый и изменяющийся словарь лексических единиц, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для обработки и поиска информации».
Основной единицей ИПТ являются термины-дескрипторы. Алфавитная, лексико-семантическая часть ИПТ представляет собой свод дескрипторных статей.
Дескриптивные словари предназначены для полного описания лексики определенной сферы и фиксации всех имеющихся там употреблений; в них фиксируются все имеющиеся релевантные случаи. Типичным примером дескриптивного словаря является «Толковый словарь живого великорусского языка» В.И. Даля (первое издание в четырех томах выходило в 1863- 1866 гг.). Цель его создателя заключалась не в нормировании языка, а в полном описании всего многообразия великорусской речи - в том числе ее диалектных форм просторечия.
Каждая дескрипторная словарная статья начинается дескриптором, при котором ниже в пределах статьи по ГОСТу приводятся синонимы этого дескриптора, а также другие лексические единицы, связанные с основным дескриптором родо-видовыми или ассоциативными отношениями.
Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.
В чистом виде тезаурус встречается редко. В реальных тезаурусах происходит упрощение исходной идеи или добавление посторонней, но потенциально необходимой пользователю информации. Наиболее известными сегодня являются «Русский семантический словарь» Ю.Н. Караулова, «Словарь идентичного названия» Н.Ю. Шведовой, «Тематический словарь русского языка» Л.Г. Смеховой и др.
Резюме. Термин тезаурус Л.В. Щерба употребил применительно к словарю, который фиксировал по возможности все контексты, в которых встречается данное слово. Характерная особенность тезаурусов состоит в том, что в них приводятся все слова, встретившиеся в данном языке хотя бы один раз, и под каждым словом приводятся все цитаты из имеющихся на данном языке текстов. Содержание словаря-тезауруса составляет языковой материал, а обычного словаря - языковой материал и языковая система (термины Л.В. Щербы).
Данная характеристика дополняется перекрестными связями самого разного рода - чаще парадигматическими (синонимическими или антонимическими), которые указывают на общность или противопоставление значений. Кроме того, различного рода ассоц. связями (т.е. синтагм. связями).
Таким образом, задача тезауруса (идеографического словаря) - дать представление о смысловой организации некоторого среза языкового материала, показав основные семантические поля, их внутреннюю структуру и внешние связи. Тезаурус является наглядной демонстрацией системного характера языка, позволяя увидеть множество типов отношений, связывающих отдельные языковые единицы и группы единиц .
3.2. История представления концептуального знания о мире в виде тезауруса
Необходимость в расположении слов по сходству, смежности, аналогии их значений ощущалась на всем протяжении обозримой истории человеческой мысли.
Проследить путь зарождения идеи представления концептуального знания о мире в виде тезауруса нам поможет обращение к истории составления тезаурусов (идеографических словарей).
Так, на заре цивилизации, когда люди могли выразить свои мысли на письме лишь при помощи идеограмм и символов, единственно возможным словарем был, вероятно, такой, в котором слова располагались по тематическим группам. Лексикографу в то время просто трудно было найти иной критерий для классификации слов, кроме отношений, существующих в самой действительности.
К сожалению, у нас нет свидетельств того, действительно ли народы, пользовавшиеся идеографическим письмом, располагали подобными словарями. Среди наиболее древних из известных нам попыток идеографической классификации называют Attikai Lexeis греческого грамматика, директора Александрийской библиотеки Аристофана Византийского (умер в 180 году до н. э.).
Во II в. н. э. появляется капитальный труд «Ономастикон», составленный на материале греческого языка лексикографом и софистом Юлием Поллуксом (настоящее имя Полидевк), уроженцем египетского города Навкратис. Ю. Поллукс написал несколько сочинений, но до нас дошел лишь «Ономастикон» (Поллукс Ю. Ономастикон. М., 1956).
Ономастикон состоит из 10 книг. Книги по существу являются отдельными трактатами и содержат в себе наиболее важные слова, относящиеся к той или иной теме. Так, в первой книге говорится о богах и царях; во второй - о людях, их жизни и физиологическом строении; в третьей - о родстве и гражданских отношениях и т. д. Слова, помещенные в словаре, сопровождаются краткими толкованиями. В новое время словарь был впервые опубликован в 1502 г. в Венеции.
Между II и III вв. н. э. в свет выходит замечательный санскритский словарь «Амаракоша» (Амаракоша. Париж, 1839). Его автором является древнеиндийский поэт, грамматик и лексикограф Амара Сина, которого называли «одной из девяти жемчужин, украшающих трон Викрамадитье» . Амаракоша в переводе на русский язык означает сокровищница Амара. Словарь содержит 10 тыс. слов. Для лучшего запоминания толкования значений слов словарные статьи построены в форме стихов. Весь материал словаря разбит на 3 книги. Каждая книга включает в себя несколько глав, а глава в свою очередь при необходимости разбивается на ряд секций. Первая книга посвящена небу, богам и всему тому, что имеет к ним непосредственное отношение. Во второй книге приводятся слова, относящиеся к земле, поселениям, растениям, животным и человеку (сначала человек рассматривается как живое существо, а затем как существо общественное; перед нашими глазами предстает вся кастовая структура современного автору общества; жрецы как поверенные бога находятся на самом верху, а ниже идут военные и цари, еще ниже - землевладельцы, а в самом низу ремесленники, жонглеры, слуги и т.п.). Третья книга является собственно языковой, что явствует из названий шести ее глав.
Словарь стал известен европейским ученым лишь в конце XVIII в., когда в 1798 г. в Риме была опубликована его первая часть. Полностью он был издан с переводом на английский язык в 1808 г. английским санскритологом Г.Т. Коулбруком (Н.Т. Colebrooke). В 1839 г. появился и его французский перевод, выполненный А.Л. Делоншаном (A.L. Deslongchamps). Дальнейшее развитие идеи смысловой классификации лексики связано с проблемой так называемого всемирного языка.
Резюме. Таков в самых общих чертах первый этап развития традиции идеографической классификации лексики. Этот этап можно назвать предысторией идеографических словарей. Теперь целесообразно обратиться к современной классификации словарей-тезаурусов.
Нетрудно заметить, насколько непохожи описанные труды на алфавитные словари. Если в алфавитных словарях подача слов регулируется таким условным и в высокой степени нейтральным инструментом, как алфавит, то при построении идеографического словаря решающее значение приобретает мировоззрение самого лексикографа .
3.3. Принципы классификации словарей-тезаурусов
Как уже было показано выше, проблема составления классификации тезаурусов не нова и в течение нескольких десятков лет привлекала внимание ряда отечественных и зарубежных лингвистов (К. Марелло, В.В. Морковкин, Л.П. Ступин, В.В. Дубичинский и др.). Результатом исследований в этой области стало создание альтернативных классификаций указанных лексикографических произведений. В основу одной из последних классификаций положены следующие критерии: а) тип смысловых связей между единицами словника; 2) объем словника; 3) генерализованность словника; 4) разработка значения лексем; 5) грамматико-стилистическая квалификация лексем; 6) демонстрация функционирования лексем; 7) количество представленных языков; 8) тип семиотических средств, используемых для семантизации лексем. Названная классификация основывается на созданных ранее классификациях О.М. Карповой и И. Бурханова (Burchanov I. On the Ideographic Description of Stylistically and Pragmatically Relevant Aspects of Lexical Meanings. London, 1996); терминология, используемая в классификации, введена в лексикографический аппарат
В.В. Морковкиным , Ю.Н. Карауловым , К. Марелло . Критерии классификации сформулированы О.М. Карповой . В то же время К. Марелло выделяет три типа тезаурусов:
кумулятивные, представляющие собой группировки слов без определения их значений;
дефинитивные, толкующие каждую лексическую единицу группировки слов;
дву- и многоязычные тезаурусы для путешественников (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).
Кумулятивные тезаурусы не только представляют возможность найти более понятное, точное, стилистически верное слово в ситуации нахождения в определенном семантическом поле, но и становятся основой для формирования тематических компьютерных банков данных.
Дефинитивные тезаурусы могут включать, наряду с определением значения, этимологическую информацию и цитаты из литературных произведений, что показывает непосредственную энциклопедическую направленность этого вида тезаурусов. Кроме того, словари данного вида вводят пользователя в необходимую систему концептов, разъясняют сущность, сходства и различия понятий, их парадигматические и синтагматические связи, иногда дают информацию о произносительных, грамматических, словообразовательных и других возможностях лексических единиц, обозначающих эти понятия.
Дву- и многоязычные тезаурусы для путешественников создаются обычно по тематическим разделам: числа, еда, транспорт, гостиница и т.д. с приведением переводных эквивалентов двух и более языков.
Для максимально полного отображения типов существующих словарей-тезаурусов создается многоуровневая классификация. Во-первых, по типу смысловых связей между единицами словника тезаурусы подразделяются на три крупных класса:
1. Ассоциативный тезаурус (терминология Ю.Н. Караулова
2. Аналогический тезаурус (терминология В.В. Морковкина
3. Идеографический (идеологический) тезаурус (терминология Л.В. Щербы, В.В. Морковкина. Названные три типа тезаурусов отражают следующие виды смысловых связей лексем соответственно:
1. Семантико-синтаксические связи, на основании которых
слова объединяются в группы или пары, предопределенные в своем возникновении и существовании двойными связями: смысловыми и синтаксическими. Смысловые связи слов устанавливаются, главным образом, между глаголами и прилагательными, выполняющими предикативную функцию в предложении, и существительными, например:
а) между действием и органом (инструментом), при помощи которого оно совершается: хватать - рука, видеть - глаз, плыть - лодка и т.д.;
б) между глаголами действия, требующими одного субъекта, и субъектом: лаять - собака, ржать - лошадь и т.д.; в) между глаголами и определенным грамматическим дополнением, которого первые требуют: рубить - дерево, есть - еда и т.д.
Отсюда ассоциативный тезаурус - это словарь-тезаурус, организующий лексические единицы на основании существующих между ними смысловых и синтаксических связей и располагающий группы в соответствии с графической формой слов-центров.
2. Лексико-семантические связи. Объединение в группы с таким типом связи происходит по основному для слов признаку - лексическому значению. При этом также учитываются лексико- грамматические связи, в форме которых реализуются отдельные значения слов.
Таким образом, аналогический тезаурус - это лексикографический справочник, основной единицей макроструктуры которого является лексико-семантическая группа; группы систематизированы в порядке алфавитного следования смысловых доминант.
3. Предметные или тематические связи, где объединение слов в одну группу происходит в силу сходства или общности функций обозначаемых словами предметов и процессов: предметы
домашнего обихода, части тела, виды одежды, постройки и т.д.
Таким образом, идеографический тезаурус - это лексикографическое произведение, представляющее лексические единицы в составе предметных (тематических) групп и организующее их в иерархическую структуру, предназначенную для репрезентации концептуализированного знания о мире.
В рамках того же критерия проводим дальнейшее подразделение типов. Так, идеографический тезаурус представлен 4-мя следующими типами:
Собственно идеографический тезаурус.
Тематический словарь.
Систематический словарь.
Тематико-систематический словарь
Собственно идеографический тезаурус - это особый тип идеографического словаря, макроструктура которого организуется в соответствии с синоптической картой a priori, наложенной на лексический состав языка. В отличие от других типов идеографического словаря, собственно идеографический тезаурус характеризуется логичной и строго упорядоченной классификационной структурой, созданной на основе научной таксономии, даже если лексикографическому описанию подвергается общая лексика (New Webster" Thesaurus. Landoll, 1991).
Тематический словарь - это особый тип идеографического тезауруса, основной единицей макроструктуры которого является тематическая группа, включающая лексемы, объединенные на основе классификации их денотатов (референтов) и рассматриваемые с точки зрения соответствия определенной теме.
Систематический словарь - это особый тип идеографического тезауруса, классификационная структура которого предназначена для представления действительных семантических отношений, существующих между лексическими единицами языка. По своей сути классификационная структура представляет лексико-грамматическую классификацию вокабуляра, иными словами, его парадигматическую структуру, описанную с точки зрения подчинения и сочинения .
Тематико-систематический словарь - это особый тип идеографического словаря, представляющий собой сочетание тематического и систематического словаря .
Резюме. Рассмотренная классификация лингвистических тезаурусов включает в себя следующие виды словарей: аналогический тезаурус (терминология В.В. Морковкина); идеографический (идеологический) тезаурус (терминология Л.В. Щербы и В.В. Морковкина); ассоц. тезаурус (терминология Ю.Н. Караулова). Далее будут представлены поп. тезаурусы и раскрыты их особенности.
3.4. Популярные тезаурусы и их особенности
Наиболее известный из имеющихся словарей-тезаурусов, которому обязан своим существованием и сам этот термин, создан на материале английского языка; это постоянно переиздаваемый тезаурус П.М. Роже Roget"s Thesaurus of English Words and Phrases (1852).
Важно отметить, что автор «Тезауруса английских слов и выражений» в полной мере использовал имеющийся к этому времени опыт. «Принцип, которым я руководствовался, классифицируя слова, - пишет П.М. Роже, - является тем же самым, который используется при классификации особей в различных областях естественной истории. Поэтому разделы, выделенные мной, соответствуют естественным семьям ботаники и зоологии, а ряды слов сцементированы теми же отношениями, которые объединяют естественные ряды растений и животных»
П.М. Роже считал, что убедительная классификация слов по их смыслам невозможна до тех пор, пока должным образом не изучены и не организованы объекты действительности, называемые этими словами. Поэтому он начинает свою работу с расчленения понятийного поля английского языка на четыре больших класса: абстрактные отношения, пространство, материю и дух (разум, воля, чувства). Эти классы разбиваются в дальнейшем на ряд родов, которые в свою очередь распадаются на определенное число видов.
К числу недостатков идеографического словаря П.М. Роже ученые относят следующие: 1) не совсем убедительная номенклатура основных понятийных классов; 2) абстрактная логичность превалирует над естественными связями слов; 3) относительное неудобство пользования (в значительной мере данный недостаток исправлен в последующих изданиях).
В современной русской лексикографии имеется несколько словарей, которые должны быть отнесены к разряду словарей-тезаурусов (идеографических словарей). Это, например, созданный под руководством Ю.Н. Караулова «Русский семантический словарь» , «Русский семантический словарь» под редакцией Н.Ю. Шведовой , «Тематический словарь русского языка» Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина , «Словарь лексико-семантических групп русских глаголов» под ред. Э.В. Кузнецовой , «Идеографический словарь русского языка» О.С. Баранова , «Концептосфера внутреннего мира человека в русском языке» В.И. Убийко , комплексный учебный словарь «Лексическая основа русского языка» под руководством В.В. Морковкина .
Познакомимся с некоторыми из них.
Словарь-тезаурус современной русской идиоматики» под редакцией А.Н. Баранова и Д.О. Добровольского включает четыре основные части: 1) синопсис; 2) легенду; 3) основной корпус Словаря-тезауруса; 4) указатели. Цель Синопсиса - дать общее представление о структуре Основного корпуса Тезауруса. В нем указаны все таксоны с подтаксонами и соответствующими парадигматическими отсылками. Основной корпус Словаря-тезауруса представляет собой совокупность словарных статей, объединенных в группы (таксоны) и подгруппы (подтаксоны) в соответствии со значением описываемых в них идиом. Каждая статья содержит идиому и примеры ее употребления в современном русском языке. Синопсис, Легенда, Указатели - служебные части вышеназванного Словаря-тезауруса, обеспечивающие пользователю возможность быстро и эффективно работать. Легенда используется в тех случаях, когда не нужны примеры употребления идиом, т.к. она воспроизводит всю информацию, кроме примеров. Фактически, это словник Словаря. Единицами словника являются леммы. Лемма в данном случае представляет собой идиому в исходной (словарной) форме и включает по возможности все ее существенные варианты. Например, идиома стоять на месте входит в состав леммы топтаться на месте, стоять на месте, буксовать на месте.
Словарь содержит два указателя. В конце книги помещена статья «Теоретическая концепция Словаря-тезауруса современной русской идеоматики», в которой подробно анализируются научные особенности данного проекта.
«Русский семантический словарь», созданный под руководством Ю.Н. Караулова включает 10 тыс. русских слов, которые разнесены по 1600 понятийным группам. В основе выделения групп - повторяющиеся элементы толкований слов в толковых словарях: например, «действие», «свойство», «инструмент» и т.п.
«Русский семантический словарь», созданный под руководством академика Н.Ю. Шведовой, основывается на несколько иных принципах, характерных для составления как идеографических, так и толковых словарей. Во-первых, все слова языка разделены здесь на четыре класса: 1) единицы указующие (местоимения), 2) именующие (знаменательные слова), 3) собственно связующие (союзы, предлоги, глаголы-связки), 4) классифицирующие (модальные слова, частицы, междометия). Во-вторых, внутри каждого класса все слова распределены по частям речи. В-третьих, внутри каждой части речи выделены множества и подмножества на основании тематической близости или, наоборот, противопоставленности значений слов.
DUDEN - это книга с картинками (чертежами) на левой стороне (по разным ПО) с пронумерованными деталями (до мельчайших). На правой стороне этот нумерованный список сопровождается названиями (даже на двух языках). Например, на целой странице нарисованы железнодорожная техника, станции, пути. Справа - названия стрелок, семафоров, костылей и т.п.
«Тематический словарь русского языка» Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина содержит 25 тыс. лексических единиц, сгруппированных по трем крупным классам: «Человек», «Общество», «Природа», которые ступенчато ветвятся на более мелкие подклассы. Например, в классе «Человек» выделяются подклассы «Тело и организм человека», «Жизнь человека», «Внешний вид, наружность человека», «Эмоциональный вид человека» и др. Каждый из подклассов в свою очередь разбивается на еще более частные: «Эмоциональный мир человека» - «Психические свойства человека» - «Темперамент», «Характер» - «Общие черты характера» и т.д. Значение и употребление слов, относящихся к каждому классу, иллюстрируются наиболее употребительными словосочетаниями. Например, слово «смех», находящееся в подгруппе «выражение чувств, эмоций» класса «Человек», сопровождается указанием таких сочетаний с этим словом, как веселый смех, радостный смех, смех ребенка, заливаться смехом и др.
Резюме. Одним из действенных инструментов описания отдельных предметных областей, особенно в электронном формате, являются тезаурусы.
Термин тезаурус уже давно широко используется в лингвистике для обозначения специального типа словарей, в той или иной степени отражающих «картину мира», «языковую модель мира» (по Ю.Н. Караулову). Тезаурус как «сокровищница» вырос в своем смысловом объеме, получил новое значение. Им стали называть словарь, не просто вбирающий в себя все лексические богатства языка, а упорядочивающий их определенным логико-системным образом. В словаре-тезаурусе слова сводятся в группы, а объединение это происходит на основе способности того или иного слова передавать определенное понятие.
Тезаурус-словарь всегда рассматривался в лингвистике как некоторая универсальная система, обеспечивающая хранение коллективного (для того или иного социума) знания о мире в вербальной форме. В отличие от других словарей в тезаурусе-словаре это знание хранится в структурированной форме, отражающей наши представления о «структуре мира».
Наиболее известными и популярными тезаурусами в настоящее время являются английский Тезаурус Роже, Идеографический словарь русского языка О.В. Баранова, Русский семантический словарь Ю.Н. Караулова, Русский семантический словарь академика Н.Ю. Шведовой, DUDEN, Тематический словарь русского языка Л.Г. Саяховой, Д.М. Хасановой и В.В. Морковкина.
Раздел очень прост в использовании. В предложенное поле достаточно ввести нужное слово, и мы вам выдадим список его значений. Хочется отметить, что наш сайт предоставляет данные из разных источников – энциклопедического, толкового, словообразовательного словарей. Также здесь можно познакомиться с примерами употребления введенного вами слова.
Значение слова тезаурус
тезаурус в словаре кроссвордиста
Толковый словарь русского языка. С.И.Ожегов, Н.Ю.Шведова.
тезаурус
[тэ], -а, м. (спец.).
Словарь языка, ставящий задачу полного отражения всей его лексики.
Словарь или свод данных, полностью охватывающий термины, понятия какой-н. специальной сферы.
прил. тезаурусный, -ая, -ое.
Новый толково-словообразовательный словарь русского языка, Т. Ф. Ефремова.
тезаурус
Словарь какого-л. языка, представляющий его лексику в полном объеме.
Полный систематизированный набор данных о какой-л. области знания, позволяющий человеку или вычислительной машине в ней ориентироваться (в информатике).
Энциклопедический словарь, 1998 г.
тезаурус
ТЕЗАУРУС (от греч. thesauros - сокровище)
словарь, в котором максимально полно представлены слова языка с примерами их употребления в тексте (в полном объеме осуществим лишь для мертвых языков).
Словарь, в котором слова, относящиеся к каким-либо области знания, расположены по тематическому принципу и показаны семантические отношения (родо-видовые, синонимические и др.) между лексическими единицами. В информационно-поисковых тезаурусах лексические единицы текста заменяются дескрипторами.
Тезаурус
(от греч. thesaurós ≈ сокровище, сокровищница), множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических (см. Семантика) отношений. Т. фактически определяет семантику языка (национального языка, языка конкретной науки или формализованного языка для автоматизированной системы управления). Первоначально Т. рассматривали как одноязычный словарь, в котором семантические отношения определяются группировкой слов по тематическим рубрикам. Например, английский Т. (автор П. М. Роджет), изданный в 1962 (1-е издание 1852), содержит 1040 рубрик, по которым распределено около 240 000 слов. Указатель (ключ) к этому Т. содержит алфавитный перечень слов с указанием рубрик и подрубрик, к которым относится каждое слово. Существуют традиционные общеязыковые Т. (описания семантических систем отдельных языков) для английского, французского, испанского языков. К Т. весьма близки одноязычные словари, задающие выражения основных семантических параметров каждого слова, например словарь русского языка С. И. Ожегова.
В 70-х гг. 20 в. получили распространение информационно-поисковые Т. В этих Т. выделены специальные лексические единицы ≈ дескрипторы, по которым можно осуществлять автоматический поиск документальной информации. С каждым словом такого Т. сопоставляется синонимичный дескриптор (см. Синонимия), и для дескрипторов явным образом указываются семантические отношения: род ≈ вид, часть ≈ целое, цель ≈ средство и т. д. Обычно принято разделять родо-видовые (иерархические) и ассоциативные отношения. Так, «Информационно-поисковый тезаурус по информатике», изданный в СССР в 1973, для каждого дескриптора предусматривает словарную статью, где отдельно указаны синонимичные ключевые слова, родовые, видовые и ассоциативные дескрипторы. Для лучшей ориентации в ассоциативных связях между дескрипторами к этому Т. приложены семантические карты тематических классов. При автоматизированном информационном поиске ищутся документы, у которых индекс содержит не только дескрипторы запроса, но и те дескрипторы, которые находятся с ними в определённых семантических отношениях. Иногда бывает полезно выделять в Т. конкретные ассоциативные отношения, специфичные для данной тематической области: болезнь ≈ возбудитель, прибор ≈ назначение (или измеряемая величина) и т. п. Положение лексической единицы (слова, словосочетания) в Т. характеризует его смысл в языке; знание системы семантических отношений, в которые вступает данное слово (в том числе и рубрик, куда оно входит), позволяет судить о смысле этого слова.
В широком смысле Т. интерпретируют как описание системы знаний о действительности, которыми располагает индивидуальный носитель информации или группа носителей. Этот носитель может выполнять функции приёмника дополнительной информации, вследствие чего изменяется и его Т. Исходный Т. определяет при этом возможности приёмника при получении им семантической информации. В психологии и при изучении систем с искусственным интеллектом рассматривают свойства Т. индивидуумов, проявляющиеся при восприятии и понимании информации. В социологии и теории коммуникаций изучают свойства Т. индивидуумов и коллективов, обеспечивающие возможность взаимопонимания на основе общности Т. В этих ситуациях в Т. приходится включать сложные высказывания и их семантические связи, определяющие запас сведении, которыми располагает сложная система . Т. фактически содержит не только информацию о действительности, но и метаинформацию (сведения об информации), обеспечивающую возможность приёма новых сообщений.
Лит.: Черный А. И., Общая методика построения тезаурусов, «Научно-техническая информация. Сер. 2», 1968, ╧5; Варга Д., Методика подготовки информационных тезаурусов, пер. [с венг.], М., 1970; Шрейдер Ю. А., Тезаурусы в информатике и теоретической семантике, «Научно-техническая информация. Сер. 2», 1971, ╧ З.
Ю. А. Шрейдер.
Википедия
Тезаурус
Теза́урус , в общем смысле - специальная терминология , более строго и предметно - словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины специальной области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации; в современной лингвистике - особая разновидность словарей, в которых указаны семантические отношения (синонимы , антонимы , паронимы , гипонимы, гиперонимы и т. п.) между лексическими единицами. Тезаурусы являются одним из действенных инструментов для описания отдельных предметных областей.
В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться для наполнения баз знаний систем искусственного интеллекта.
В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.
Также термин тезаурус употребляется в теории информации для обозначения совокупности всех сведений, которыми обладает субъект.
В психологии тезаурус индивидуума характеризуют восприятие и понимание информации. Теория коммуникации также рассматривает общий тезаурус сложной системы, благодаря которому взаимодействуют её элементы.
Тезаурус (значения)
Тезаурус :
- Тезаурус - словарь, собрание сведений, охватывающие понятия, определения и термины специальной области знаний или сферы деятельности.
- Тезаурус Роже - один из первых в истории и наиболее известных на сегодня идеографических словарей.
Примеры употребления слова тезаурус в литературе.
Для восприятия и сотворчества необходим некий оптимальный тезаурус , не малый, но и не слишком большой.
При неограниченно большом количестве поступающей информации, существенно превышающем тезаурус , ее ценность от этого количества не зависит и целиком определяется тезаурус ом.
Многосторонность, системность искусства приводит к неравномерности восприятия произведения в целом: для восприятия одних аспектов стиха тезаурус оптимален, для других-недостаточен или слишком велик.
Так как тезаурус растет и меняется, повторное знакомство с произведением может означать получение новой ценной информации.
Стремление ребенка многократно перечитывать полюбившуюся ему сказку понятно: его тезаурус быстро возрастает и его способность к сотворчеству, к ассоциативному фантазированию особенно велика.
Эта сторона дела более переменчива и субъективна, чем тезаурус , и в поисках объективной эстетической оценки произведения ее должно свести к минимуму.
Он проникает в тезаурус поэта и адресует перевод тезаурус у иноязычного читателя.
Это самое главное заключается в том, чтобы определить, насколько велик твой тезаурус , т.
Нет, просто его собственный багаж - мизерный, он неразвит, его тезаурус находится в зачаточном состоянии, и если он не поймет, что тезаурус должен быть увеличен, то, во всяком случае, этой женщине с ним придется несладко.
Богатый тезаурус , основанный на истинном знании, позволяет человеку в общении с другим человеком, в том числе и в самом близком общении с самым близким человеком, правильно реагировать на все, что ни случится.
Очевидно, что падение ценности информации с ростом тезауруса должно зависеть от отношения тезауруса к количеству получаемой информации.
Очевидно, что оптимальная ценность художественной информации соответствует близости тезауруса читателя и тезауруса поэта.
Можно сказать, что сотворчество, подобно творчеству, требует вдохновения, то есть включения тезауруса в широком смысле этого слова.
Такое внутреннее повторение яркой образности и яркого звучания, оставаясь в рамках имеющегося тезауруса , обогащает его тем же эстетическим моментом повтора.
В этом пункте тезауруса антиподами Платонова надо было бы считать Набокова и Пришвина, а сходным с ним можно признать Марину Цветаеву.
Одним из новых основных понятий, появившихся в результате разработки машинных методов обработки информации, в частности, при переводе с одного языка на другой, поиска научно-технической информации и создания информационной модели предприятия в автоматизированных системах управления, явилось понятие тезауруса информационной системы. Термин «тезаурус» подразумевает совокупность знаний о внешнем мире - это так называемый тезаурус мира Т. Все понятия внешнего мира, выраженные с помощью естественного языка, составляют тезаурус, из которого можно выделить частные тезаурусы путем иерархического деления с учетом соподчинения отдельных понятий или путем выделения частей общего тезауруса мира. Тезаурус в информационно-поисковых системах играет важную роль в поиске нужного документа по ключевым словам. Поэтому построение тезауруса является сложной и ответственейшей задачей. Но эта задача также может быть автоматизирована.
Классификация в ее наиболее общем определении есть разбиение и упорядочение множеств. Ею называют распределение предметов по классам на основании общего признака, присущего данным явлениям или предметам и отличающего их от предметов и явлений, составляющих другие классы. При необходимости каждый класс может делиться на подклассы. Рубрикатор является особой разновидностью классификации . Поэтому они созданы на основе общих положений:
научная основа построения классификации;
отражение современного уровня развития науки;
наличие системы ссылок и отсылок, а также ссылочно-справочного аппарата (ССА).
Однако рубрикатор является прагматической классификацией, создающейся на основе информационных потоков и потребностей специалистов . В этом его отличие от априорных классификаций, таких как УДК и МПК.
Основными функциями классификаций и, в частности, рубрикатора можно назвать следующие:
тематическое разграничение информационных подсистем;
формирование информационных массивов по любым признакам;
систематизирование информационных материалов и изданий;
текущий и ретроспективный поиск;
индексирование документов и запросов;
связь с другими классификационными схемами;
нормативные функции.
Они строятся путем деления понятий - объектов классификации на основе установленных связей между признаками этих объектов в соответствии с определенными логическими принципами. Признак, по которому производится классификация, получил название основания деления классификации. В классификациях широко используются методы дедукции и индукции для фиксации групп, классов и выявления связей между ними. Это характерно для иерархических классификаций. Глубина классификации (количество уровней иерархии) может быть различной в зависимости от назначения. Одним из широко используемых рубрикаторов является государственный рубрикатор научно-технической информации (ГРНТИ).
Рубрикатор ГРНТИ разработан так, что возможно его совместное использование с другими классификациями типа УДК и МПК. Универсальная десятичная классификация (УДК) существует более 70 лет, но до сих пор не знает себе равных по широте распространения и используется во многих странах мира. УДК охватывает весь универсум знаний и успешно применяется для систематизации и последующего поиска самых разнообразных источников информации.
Помимо УДК на практике широко используется библиотечно-библиографическая классификация (ББК). ББК построена на принципах логической соподчиненности и представляет классификацию прикладного типа.
В Российской Федерации для классифицирования изобретений и систематизации отечественных фондов описаний изобретений используется международная патентная классификация - достаточно сложная многоаспектная классификация, построенная по функционально-отраслевому принципу. Одни и те же технические понятия могут находиться в МПК или специальных классах (по отраслевой принадлежности) или в функциональных классах (по принципу действия). Отраслевой принцип распределения понятий предполагает классифицирование объектов в зависимости от применения в той или иной исторически сложившейся отрасли техники, технологии.
Сравнительная характеристика рубрикатора ГРНТИ, УДК, ББК и МПК, приведена в таблице 1.
Таблица 1
Характеристика рубрикатора ГРНТИ, УДК, ББК и МПК
Наименование |
Структура |
Принцип расположения делений |
Схема построения разделов |
Иерархическая |
Отраслевой |
От общего к частному |
|
Иерархическая |
Тематический |
||
Иерархическая |
Функционально-отраслевой |
От общего к частному |
|
ББК для научных библиотек |
Иерархическая |
Отраслевой |
От общего к частному, по видовому признаку |
Таким образом, можно выделить главные отличительные особенности рубрикаторов и классификаторов:
им свойственен прикладной характер и отраслевая направленность;
это открытые системы, зависящие от развития науки и техники, потребностей и запросов специалистов;
неорганичные системы, так как объекты возникают и развиваются в окружающей среде и из нее поступают в них. Элементы способны существовать самостоятельно вне системы. Эта черта тесно связана со второй особенностью;
минимальным элементом является понятие, связанное со средой. Понятие представляет систему определений;
между понятиями возникают связи как по «вертикали» (род-вид, целое-часть), так и по «горизонтали» (вид-вид, часть-часть), что свидетельствует об иерархичности систем.
Следовательно, структура и принципы организации классификаций и рубрикаторов делают возможным автоматизировать процесс построения тезаурусов предметной области, используя метод дедукции. Алгоритм построения тезауруса по методу дедукции приведен на рис. 1.
Основой для формирования тезауруса является поисковый образ документа, задание или заявка на поиск информации, заполняемая оператором. Следовательно, первым шагом становится исследование и анализ заявки. На первом этапе оператор указывает интересующую тему или проблему, возможные ключевые слова и их синонимы. В результате этого получаем поверхностное представление о предметной области.
Рис. 1. Алгоритм построения тезауруса по методу дедукции
Кроме того, формируется тезаурус ключевых слов КС по методу дедукции, для чего необходимы:
массив КС, который задает сам пользователь, обозначенный на рисунке 1 как MP;
массив КС, извлеченный из задания на поиск соответственно MZ.
Однако для более полного и глубинного представления о предметной области используем существующие рубрикаторы и классификационные схемы (ГРНТИ, УДК, ББК, МПК). С целью максимального охвата предметной области необходимо просмотреть все, имеющиеся в наличии. Массив рубрикаторов представляет MR. Алгоритм поиска по методу дедукции состоит из двух шагов:
1. Нахождение родовых понятий (рис. 2);
2. Нахождение внутри родовых понятий видовых терминов (рис. 3).
Рис. 2. Обработка родового понятия
Загружаем из массива первый рубрикатор и организуем цикл проверки наличия в рубрикаторах КС, введенных пользователем. Каждое КС ищется в рубрикаторе и сравнивается с родовым понятием или «гнездом», а затем проверяется условие - есть ли ссылка на видовые термины. Если такая ссылка имеется, то КС сравнивается с видовыми терминами. В случае если ссылки не обнаружено, переходим к следующему родовому понятию. Когда ключевые слова КС, введенные оператором, просмотрены, переходим к массиву КС, извлеченных из задания. Процедура проверки аналогична - ищем КС, соответствующие родовым понятиям, а затем их ссылки на видовые термины.
Рис. 3. Обработка видовых терминов
Отметим, внутри каждого родового понятия важно просмотреть все имеющиеся видовые термины с целью получения максимального представления о проблемной области. Результатом этих действий является формирование массива ключевых слов КС, представляющего собой полный тезаурус, соответствующего заданию на поиск информации или поисковому образу документа.
На базе полного набора поисковых образов документов (обозначим) можно создать отраслевые тезаурусы и единый классификатор библиотеки. Очевидно, что полный набор сам представляет простейший тезаурус.
Однако, используя критерий отбора
, (1)
можем построить отраслевые тезаурусы. При этом множество всех отраслевых тезаурусов образует полный тезаурус
, (2)
разделы которого могут быть иерархически структурированы в соответствии с требованиями ГОСТов по основным классификаторам (ГРНТИ, УДК, ББК, МПК) или по внутреннему единому классификатору.
Автоматизация процесса построения тезауруса и классификации позволяет максимально облегчить труд оператора, работающего с распределенными информационными ресурсами.
Помимо построения тезауруса, на основе поискового образа документа предложенный подход можно использовать при автоматическом реферировании документа и кластеризации текстов.
Реферирование документов является одной из задач, направленных на обеспечение специалистов-экспертов достоверной информацией, необходимой для принятия управленческого решения о ценности полученных из сети Интернет документов. Реферированием называется процесс преобразования документальной информации, завершающийся составлением реферата, а реферат - это семантически адекватное изложение основного содержания первичного документа, отличающееся экономной знаковой оформленностью, постоянством лингвистических и структурных характеристик и предназначенное для выполнения разнообразных информационно-коммуникативных функций в системе научной коммуникации . Алгоритм реферирования документов представлен на рис. 4.
Рис. 4. Алгоритм реферирования документов
В общем случае алгоритм включает следующие основные этапы.
1. Производится выделение предложений из документа, закаченного из сети Интернет и находящегося в хранилище данных, путем выделения знаков препинания и сохраняем его в массиве.
2. Каждое предложение разбивается на слова путем выделения разделителей, и сохраняем их в массив, причем для каждого предложения массив разный.
3. Для каждого предложения, для каждого слова этого предложения считаем количество слов в других предложениях (до и после). Сумма повторов для каждого слова (до и после) и будет весом данного предложения.
4. Заданное число предложений с максимальным весовым коэффициентом и выбираем в реферат в порядке появления в тексте.
Предложенная модель построения тезауруса и тематических каталогов информационной системы представляет собой теоретическую основу для автоматизации смыслового поиска и позволяет специалисту-эксперту не только проводить поисковые работы, но и в автоматизированном режиме, реферировать документы, полученные в результате поиска в распределенных информационных системах сети Интернет.
Литература:
1. Барушкова Р.И. Классификационные схемы научно-технической информации. Учеб. пособие. - М., 1981. - 80с.
2. Барушкова Р.И. Рубрикатор как классификационная схема научно-технической информации. Методическое пособие. - М., 1980. - 38с.
3. Трусов А.В., Бабарыкин Е.П. Оценка границ области тематического информационного запроса в распределенных информационных системах. Материалы Всероссийской (с международным участием) конференции «Информация, инновации, инвестиции», 24-25 ноября 2004 года, г.Пермь /Пермский ЦНТИ. - Пермь, 2004. - С.76-79.
4. Яцко В.А. Логико-лингвистические проблемы анализа и реферирования научного текста. - Абакан: изд-во Хакасского гос. ун-та, 1996. - 128 с.