Информационный поиск в тексте



Информационный поиск в тексте.

Информационный поиск

Процесс отыскания в некотором множестве текстов (документов) всех таких, которые посвящены указанной в запросе теме (предмету) или содержат нужные потребителю факты, сведения. И. п. осуществляется посредством информационно-поисковой системы (См. Информационно-поисковая система) и выполняется вручную либо с использованием средств механизации или автоматизации. Непременным участником И. п. является человек. В зависимости от характера информации, которая содержится в выдаваемых информационно-поисковой системой (ИПС) текстах, И. п. может быть документальным, в том числе библиографическим, и фактографическим. И. п. нужно отличать от логической переработки информации, без которой невозможна непосредственная выдача человеку ответов на задаваемые им вопросы. При И. п. отыскиваются — и могут быть найдены — такие и только такие факты или сведения, которые были введены в ИПС. Перед вводом в ИПС текста (документа) определяется его основное смысловое содержание (тема или предмет), которое затем переводится и записывается на одном из информационно-поисковых языков (См. Информационно-поисковый язык) (см. также Индексирование). Эта запись называется поисковым образом текста. Так же поступают и когда в ИПС вводят определённым образом записанные факты, сведения. Поступивший запрос также переводится на информационно-поисковый язык, образуя поисковое предписание. Поскольку поисковые образы текстов и поисковые предписания записаны на одном и том же языке, выражения на котором допускают только одно истолкование, то возможно сравнивать их формально, не вникая в смысл. Для этого задаются определённые правила (критерии соответствия), устанавливающие, при какой степени формального совпадения поискового образа с поисковым предписанием текст следует считать отвечающим на информационный запрос и подлежащим выдаче.

Техническая эффективность И. п. характеризуется двумя относительными показателями — коэффициентом точности (отношением числа текстов, отвечающих на информационный запрос, к общему числу текстов в данной выдаче) и коэффициентом полноты (отношением числа текстов, отвечающих на информационный запрос, к общему числу таких текстов, содержащихся в данной ИПС). Необходимые значения этих показателей зависят от специфики информационных потребностей. Например, при поиске патентных описаний с целью проведения экспертизы патентной заявки на новизну необходима 100%-ная полнота выдачи; при поиске, ориентированном на обычного исследователя или инженера, очень хорошей считается точность выдачи около 80% , полнота — около 50%.И. п. может быть двух типов — избирательное (или адресное) распространение информации и ретроспективный поиск. При избирательном распространении информации И. п. производится по постоянным запросам некоторого числа потребителей (абонентов), осуществляется периодически (обычно один раз в неделю или в две недели) и выполняется лишь в массиве текстов, поступивших в ИПС за этот период времени. Между ИПС и потребителями (абонентами) устанавливается эффективно действующая обратная связь (абонент сообщает, в какой степени этот текст соответствует запросу и нужна ли ему копия полного текста, о степени соответствия этого текста его информационной потребности), которая позволяет уточнять потребности абонентов, своевременно реагировать на изменения этих потребностей и оптимизировать работу системы. При ретроспективном поиске ИПС отыскивает содержащие требуемую информацию тексты во всём накопленном массиве текстов по разовым запросам.Дальнейшее развитие И. п. направлено на его механизацию и автоматизацию. Для этого используются перфокарты ручного обращения (с краевой перфорацией, щелевые и просветные), счётно-перфорационные машины, электронные цифровые вычислительные машины, а также специальные технические средства — микрофотографические, с магнитной и видеомагнитной записью информации и т. д.

Автомати́ческая обрабо́тка те́кста —

преобразование текста на искусственном или естественном языке с помощью ЭВМ. Прикладные системы и теория А. о. т. начали создаваться в конце 50х гг. 20 в. (США, СССР, Франция, ФРГ и др.) и развивались в нескольких различных приложениях: в системном программировании, издательском деле и в вычислительной лингвистике. В системном программировании, предметом которого является создание программного обеспечения функционирования ЭВМ и работы пользователей, развивались инструментальные средства разработки программ, т. е. текстов на алгоритмических языках (см. Искусственные языки). В издательском деле А. о. т. — одно из направлений автоматизации редакционно-издательских процессов. В этих областях термин «А. о. т.» употребляется, как правило, в относительно узком смысле как преобразование формы. В вычислительной лингвистике, предметом которой является автоматический лингвистический анализ и синтез текста, а также лингвистические аспекты общения с ЭВМ на естественном языке, термин «А. о. т.» понимается в более широком смысле, охватывающем и процедуры анализа содержания и синтеза (по заданному содержанию понятного человеку) текста.

В зависимости от целей различают несколько видов А. о. т. Преобразование текста при автоматизированном редактировании заключается во внесении в текст, находящийся в памяти ЭВМ, исправлений и дополнений; форматирование текста заключается в выделении заголовков, формировании строк и страниц нужного формата, выделении и оформлении разделов и подразделов текста для его воспроизведения на устройствах печати ЭВМ. В процессе автоматического набора и вёрстки текст, введённый в ЭВМ, преобразуется в представление (код), воспроизводимое полиграфическим оборудованием (например, фотонаборным автоматом). При лексикографической обработке текст преобразуется в лексикографическое представление, в котором каждому словоупотреблению соответствует определённая информация в формируемом к этому тексту словаре. В автоматическом лингвистическом анализе текст последовательно преобразуется в его лексемноморфологическоесинтаксическое и семантическое представления. В процессе автоматического синтеза производятся обратные преобразования: от семантического представления через синтаксическое и лексемно-морфологическое к собственно текстовому.

Системы автоматизированного редактирования (текстовые редакторы) и автоматического форматирования (форматеры), называемые вместе системами А. о. т. в узком смысле (англ. text processing или word processing systems), с конца 70х гг. входят в состав системного программного обеспечения практически всех типов ЭВМ. Управление текстовыми редакторами и форматерами осуществляется через дисплей (устройство для ввода с помощью алфавитно-цифровой клавиатуры и отображения на экране электронно-лучевой трубки обрабатываемого текста). Изменения и дополнения в обрабатываемый текст могут быть внесены непосредственно с помощью указателя позиции в тексте (курсо́ра), с помощью алфавитно-цифровой клавиатуры дисплея, а также с помощью специальных команд, воспринимаемых системой редактирования. В последнем случае одно и то же изменение может быть внесено одновременно во все места текста, где оно необходимо (например, изменение написания собственного имени, расшифровка сокращения или, наоборот, сокращение определённого словосочетания). Текстовые редакторы и форматеры широко используются как средства подготовки и ввода в ЭВМ программ, программной документации, научных отчётов и других данных.

В издательской практике системы автоматизированного редактирования используются, как правило, совместно с системами автоматического набора и вёрстки. В качестве составных частей в такие системы входят и некоторые лингвистические программы, например программы переноса слов в соответствии с орфографией данного языка, проверки и исправления орфографии, транслитерации и транскрибирования, выделения имён собственных и ключевых слов для автоматического составления именных и предметных указателей (в последнем случае используются также программы лемматизации, т. е. преобразования текстовых форм слов в словарные).

Автоматизированные лексикографические системы, т. е. системы автоматизации подготовки и использования словарей, включают в себя программы и справочные данные, необходимые для лексикографической обработки текстов. В них используются текстовые редакторы для ввода и коррекции программ, данных и запросов к системе, программы контроля орфографии и разметки входного текста, программы сегментации текста на слова,словосочетанияпредложения и фрагменты словарных статей, программы лемматизации и подсчета статистики словоупотреблений, программы загрузки, поиска и коррекции данных и др. Введённые в систему тексты и/или словари размещаются в базах данных и снабжаются словоуказателями и другими индексами, позволяющими по слову или его характеристикам находить его контексты или словарные статьи, в которых оно описано. Результатом А. о. т. в автоматизированных лексикографических системах являются частотные словари, конкордансы (словоуказатели с контекстами), автоматические моно- и многоязычные словари, размещаемые в базах данных и используемые программами лексикографических систем в качестве справочного материала при обработке новых данных. Поэтому такие системы являются развивающимися системами. Автоматические словари используются в системах автоматического перевода, а также в информационных системах и системах общения с ЭВМ на естественном языке в качестве справочников при подготовке и расширении словарей и уточнении грамматик этих систем.

В составе лингвистического обеспечения автоматизированных информационных систем различают три группы функций А. о. т.: автоматическое индексирование входных документов, автоматическое составление поисковых предписаний по тексту запросов и автоматизированное ведение словарей системы. Ядром лингвистического обеспечения автоматизированных информационных систем являются информационно-поисковые тезаурусы, в терминах которых производится индексирование вводимых в систему текстов. Индексирование текста заключается в составлении к нему поискового «образа», в котором указываются понятия, описываемые в тексте, и отношения между ними. Аналогично обрабатываются и запросы к системе. Сравнением поисковых предписаний с поисковыми образами документов осуществляется выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автоматически строятся словоуказатели к вводимым текстам.

Наиболее полно функции А. о. т. развиты в системах автоматического перевода и системах человеко-машинного общения, где основным является синтаксический, а в системах общения с ЭВМ — семантический анализ. Эти наиболее сложные формы А. о. т. целиком опираются на формальный аппарат, развитый в рамках математической лингвистики и вычислительной лингвистики. Здесь А. о. т. осуществляется сложными программами, называемыми языковыми, или лингвистическими, процессорами (NLP — Natural Language Processor). Центральной функцией языковых процессоров является грамматический разбор (parsing). Программы грамматического разбора (parser) используют в качестве справочных данных формальные грамматики и словари того языка, тексты которого служат объектом анализа или синтеза. В качестве формальных грамматик используются расширенныеграмматики непосредственных составляющих (контекстно-свободные грамматики), трансформационные грамматики, грамматики расширенных сетей переходов, являющиеся системами грамматик непосредственных составляющих, и др. В качестве формальных словарей используются прикладные (инженерные) варианты толково-комбинаторных словарей, т. е. специальных форм семантико-синтаксических словарей, имеющих подробную информацию о вариантных формах слов, об их семантике и о сочетаемостных возможностях на лексическом, семантическом и синтаксическом уровнях с учётом морфологических ограничений. В некоторых языковых процессорах систем автоматического перевода и систем общения с ЭВМ такие словари могут быть использованы как для анализа, так и для синтеза текстов. Обычно языковые процессоры содержат морфологическую, синтаксическую, семантическую (или синтактико-семантическую) и словарную компоненты (подсистемы программ и данных), каждая из которых реализует динамическую модель языка на соответствующем уровне. Языковые процессоры систем общения с ЭВМ опираются, как правило, на некоторую систему представления знаний и взаимодействуют с ней, осуществляя функции логического (дедуктивного) вывода. Знания часто представляются в виде так называемых фреймов — языковых моделей определённых фрагментов действительности или семантических сетей и образуют так называемые базы знаний, хранимые в ЭВМ. Эти функции используются также и как средство раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафорических связей в тексте и в других сложных случаях лингвистического анализа.



С 70х гг. наблюдается тенденция к интеграции всех подходов к конструированию систем А. о. т. в рамках искусственного интеллекта — направления в информатике (computer science), связанного с созданием сложных человеко-машинных и робототехнических систем, моделирующих человеческую деятельность в различных сферах и предметных областях. В таких системах текст на естественном или искусственном языке является как источником накопления знаний системы, так и источником данных для выбора её поведения, а также средством взаимодействия системы с человеком. Здесь функции редактирования всё больше сливаются с функциями содержательной обработки, образуя единый аппарат понимания текста. Это открывает возможности для автоматизации наиболее сложных областей человеческой деятельности, требующих затрат прежде всего интеллектуального труда, таких, как редакционно-издательские процессы, извлечение информации из текстов, медицинская и техническая диагностика, экспертная деятельность. проектирование машин и сооружений, изготовление проектной документация, управление социально-экономическими системами. Во всех этих случаях А. о. т. играет первостепенную роль. Однако в таких массовых, «промышленных» применениях А. о. т. должна опираться на мощную информационную поддержку в виде автоматизированных словарных картотек, автоматических словарей, грамматик и других форм представления лингвистических данных в ЭВМ. Разработка таких систем приобретает формумашинных фондов национальных языков, национальных автоматизированных лексикографических служб и т. п.

Автоматическое индексирование

 Edit 0 4

Индексирование документа — это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа).Различают ручное и автоматическое индексирование.1) При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов.Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы.2) При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову.Задачами морфологического анализа текста являются:

выделение из текста словоформ;

распознавание слов или их сочетаний;

нормализация словоформ (приведение слова к словарному виду);

распознавание грамматических признаков словоформ (часть речи, падеж и т.п.).



Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа:1) словари, используемые для распознавания словоформ и их нормализации (словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний). Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке насчитывается десятки миллионов понятий, а слов — около миллиона. Поэтому большая часть понятий выражена комбинациями слов.2) информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами.В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.Сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и автоматический синтаксический анализ текста.Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания, систем машинного перевода.Результаты синтаксического анализа текста обычно представляются в виде дереву отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.В начале 90-х гг. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология “адаптивного распознавания образов”, при которой каждая словоформа представляется в виде своего двоичного кода, который является ее “образом”. При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов.

Преимуществом этой технологии является значительное увеличение скорости индексирования и поиска информации, минимизация объема индекса.

Недостатком — снижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов.В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.При статистическом анализе текста рассчитывают различные количественные оценки:

число вхождений слова в документ;

общее число вхождения слова в документы,

относительная частота вхождения слова в документ и др.

Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых операций, получить сведения о данной лексической единице в документе или массиве документов. B тоже время использование только статистических методов при определении информативности слов не всегда приводит к адекватным результатам. Например, удаление часто встречающихся терминов уменьшает полноту, а удаление редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.В современных информационно-поисковых системах часто предусмотрено и ручное и автоматическое индексирование.










sitemap
sitemap