Одним из важнейших вопросов развития средств информации на современном этапе
человеческой культуры является проблема автоматизации преобразования информации,
сжатия информации, извлечения из текста заданной информации. Это особенно важно
сейчас, когда поток информации буквально захлестывает человечество. Изучение
исторических систем письма можно рассматривать прежде всего как задачу извлечения
из неизвестного нам текста информации о структуре самого текста, что является
основой дешифровки исторических систем письма.
Имеется осмысленный текст, записанный на неизвестном языке. Нужно, исходя
в первую очередь из самого текста, выяснить свойства неизвестного языка и уже
затем путем сопоставления с известными языками и привлечения с большой осторожностью
внетекстовой информации (археологических, исторических, филологических и иных
сведений) передать смысл неизвестного текста. Возможность исследовать текст
формальными методами перерастает в необходимость, если мы хотим максимальным
образом исключить субъективный анализ текста. Нас интересует именно этот аспект
дешифровки, поскольку он допускает точную постановку задачи, хотя это только
одна из подзадач при изучении неизвестных текстов.
Прежде чем перейти к уточнению задачи дешифровки исторических систем письма,
сделаем два замечания.
Часто дешифровка исторических систем письма ассоциируется с дешифровкой секретных
шифров, что приводит к мысли о применении методов последней для исследования
неизвестных письменных источников. От этого необходимо всячески предостеречь.
Задачи, решаемые криптографией и дешифровкой исторических систем письма, почти
противоположны, и методы первой могут весьма ограниченно применяться во второй.
Действительно, в криптографии предполагается, что исходный, незакодированный
текст написан на известном языке, причем обычно либо этот язык хорошо известен,
либо круг кандидатов на эту роль из числа хорошо известных языков весьма невелик.
Последним обстоятельством объясняется успех американской разведки, которая для
передачи секретных сообщений использовала редкий язык американских индейцев,
мало кому известный, так что сообщения передавались без зашифровки.
Хотя язык текста и криптографии предполагается известным, зашифрованный текст
может быть весьма сложным образом связан с исходным текстом. Цель криптографии
состоит в восстановлении исходного текста по зашифрованному тексту, в котором
всякого рода статические распределения элементов текста могут очень сильно отличаться
от соответствующих распределений элементов в исходном тексте.
В задачах криптографии известен язык исходного текста, но неизвестно преобразование,
благодаря которому возник исследуемый текст. В задачах дешифровки исторических
систем письма неизвестен язык, на котором написан текст, но сам текст не подвергался
специальной обработке, имеющей целью затруднить чтение текста; текст записан
в соответствии с нормами орфографии данного языка.
Из всего сказанного видно, что методы криптографии могут быть применены для
целей исследования исторических систем письма весьма ограниченно. Они могут
быть рассмотрены лишь как набор статистических методик обработки текста. В дальнейшем
мы не будем касаться вопросов криптографии, и поэтому употребление термина "дешифровка"
будет иметь однозначный характер.
Так как при дешифровке объем статистической обработки текста весьма велик,
то естественно возникает вопрос, можно ли применить вычислительную технику.
В конца 50-х годов специалисты в области дешифровки исторических систем письма
стали придавать большое значение машинной обработке изучаемых текстов. В широкой
прессе появилось выражение "машинная дешифровка". В некоторых популярных
статьях утверждалось даже, что вычислительная техника, получив неизвестный текст,
может "выдать" его транскрипцию (например, латинскими буквами), а
заодно и перевод.
Следует отметить, что широко разрекламированные возможности и надежность "машинной
дешифровки" исторических текстов сильно преувеличены. В настоящее время
не существует программ, на основе которых электронно-вычислительные машины (ЭВМ)
могли бы устанавливать чтение знаков неизвестного текста, а тем более его переводить.
Тем не менее использование вычислительной техники при дешифровке неизвестных
текстов имеет большой смысл, так как позволяет осуществить очень громоздкую
обработку, которая "вручную" заняла бы много времени. Разбивка нерасчлененного
текста на блоки, составление прямых и обратных словарей, выявление формальной
грамматики, безусловно, могут и должны (если позволяет размер текста) вестись
с помощью вычислительной техники.
Неизвестный текст вводится в вычислительную машину в цифровой транскрипции,
которая составляется вручную. Ошибки, допущенные при составлении цифровой транскрипции,
могут сильно исказить результаты машинной обработки и привести к ложным заключениям.
Результаты, полученные при машинной обработке неизвестного текста, целиком зависят
от программ, которые составляет не сама машина, а специалист-программист. Недостатки
или ошибки программы, естественно, отражаются в полученных данных. До настоящего
времени целью машинной обработки было получение исходных материалов для филологов.
Разумеется, ошибки филолога, сделанные при лингвистической интерпретации машинных
материалов, никоим образом не дают основания отвергать машинную обработку текстов
вообще, если она правильно проведена.
В дешифровке, как и в других отраслях знаний, бытуют мифы об "озарениях",
приведших к открытиям. Здесь и наитие Г. Гротефенда при дешифровке древнеперсидских
клинописных знаков, и озарение Б. Грозного при работе над хеттскими надписями,
так же как история о яблоке Ньютона вкупе с ванной Архимеда. Но при этом забывают,
что знаменитое восклицание "Эврика" означает "Нашел!", т.
е. что Архимед искал и имел цель поиска. Ньютон, наверное, видел не раз, как
падают яблоки с яблони, и трудно предположить, чтобы открытию им законов тяготения
не предшествовала предварительная большая работа. Также трудно поверить в озарение
Б. Грозного и наитие Г. Гротефенда.
Отличие открытий с помощью "озарений", "наитий" от стандартных
открытий лишь в том, что в первом случае не был опубликован "алгоритм открытия"
ни до, ни после него, а при стандартных открытиях так или иначе алгоритм хоть
частично публиковался - например, в виде сведения проблемы к серии подпроблем,
допускавших более легкое решение, чем вся проблема.
Все это говорится лишь для одной цели: ждать "озарения" без разработки
программы нельзя - не будет озарения. "Озарение" может возникнуть
лишь иногда при случайном переборе. Нужен общий план поиска, который может уточняться,
изменяться в процессе решения, в процессе отбрасывания путей, не ведущих к решению.
Кстати, всякое негативное решение задачи, т.е. указание тех случаев, где задача
не может быть решена, имеет огромную ценность, так как тем самым сужается область
поиска решения задачи. все эти рассуждения становятся особенно актуальными теперь,
когда пытаются иногда фетишизировать вычислительную технику, а иногда, что почти
то же, полностью отрицать разумность применения ее при решении проблем дешифровки.
Все зависит от человеческого разума и его применения.
Используя средства вычислительной техники, нужно знать, для чего, для какой
цели применяются машины и где и как будут использоваться данные машинной обработки.
Делать "просто так", "когда-нибудь пригодится кое-что из"
не только не экономично, но приводит к такому обилию материалов, что разобраться
в них труднее, чем работать без них. Например, если исследуются звукосочетания
в тексте, то бессмысленно получать сведения о всех возможных звукосочетаниях
по три знака. Ведь даже при алфавите в 30 знаков количество тройных сочетаний
будет оцениваться тысячами (их 27 000, но не все могут быть реализованы в тексте).
Из них могут быть нужны лишь звукосочетания с некоторыми знаками, звукосочетания
определенной структуры и т. п.
Перед тем как выполнить некоторую работу с помощью средств вычислительной
техники, нужно твердо знать, как будут использоваться полученные результаты,
иначе они могут оказаться ненужными или даже могут затруднить работу исследователя.
В этой связи вспоминается высказывание Б. Паскаля, который, сравнивая математику
с жерновом на мельнице, заметил, что от того, как поставлен жернов, зависит,
что получится - мука или труха.
Выше отмечалось, что одна из основных задач дешифровки текста состоит в выяснении
структуры текста, принципов его построения и построении формальной грамматики
языка текста. Отсюда ясно, как велико значение дешифровки в общем цикле семиотических
проблем, таких, как формализация перевода текста с одного языка на другой, формализация
процессов реферирования, сжатия текста и информационного поиска и т. п.
Под формальной грамматикой текста мы понимаем набор структурных элементов,
выделенных в тексте, подобных знакам алфавита, морфемам, словоформам, и выведение
законов взаимодействия внутри наборов и между наборами, правил преобразований
и построений.
При исследовании текста формальными методами можно получить формальное описание
структуры текста и формальную грамматику (насколько позволяют объем и характер
текста), но нельзя установить смысл текста. Это можно сделать, привлекая материалы
известных языков.
Прежде чем перейти к изложению общих принципов изучения неизвестных систем
письма, нужно уточнить, что мы понимаем под терминами "знак текста"
и "текст".
Первой задачей исследования лингвистического текста является составление каталога
знаков текста, выявление аллофонов и т. п. При этом возникает вопрос: что же
считать знаком текста? Для того чтобы сформулировать формальное понятие "знак
текста", выясним, что мы обычно вкладываем в это понятие. Интуитивно мы
предполагаем, что текст является последовательностью некоторых частей, причем
"самые мелкие" части текста, из которых состоят другие конструкции
текста (морфемы, словоформы, предложения), и есть знаки текста. Но эти "мелкие
части" текста еще достаточно велики, чтобы появляться в тексте самостоятельно,
без постоянного сопутствующего набора других таких же частей текста.
Таким образом, знаком текста мы будем называть элемент такого разбиения всего
текста, при котором будут выполняться два условия:
а) каждый элемент разбиения текста имеет самостоятельное распределение в тексте,
т. е. появление знака в тексте не может однозначно предсказать появление в тексте
соседних с ним других знаков;
б) если разбить текст на более мелкие части, то последние не обладают самостоятельным
распределением (иначе говоря, при фактическом самом мелком разбиении текста
на части каждый элемент разбиения должен иметь самостоятельное распределение
в тексте).
Очевидно, что судить о распределении частей текста в нем самом можно достаточно
надежно, если текст достаточно велик, т. е. если объем текста - общее число
частей, на которое разбился весь текст, - на порядок больше числа различных
частей текста.
Мы все время говорили "знак текста", считая, что нельзя поставить
знак тождества между понятиями "знак текста" и "знак системы".
В системе, например, текстов, написанных на русском языке, мы под знаком понимаем
знаки русского алфавита. Но в небольшом тексте некоторые знаки могут встречаться
только в паре, и тогда за знак текста нужно принять именно пару, хотя каждый
из знаков пары может являться знаком системы текстов, т. е. иметь в ней самостоятельное
распределение.
Данное выше определение знака текста как наиболее мелкой части текста, имеющей
самостоятельное распределение, представляется разумным по следующим соображениям.
В неизвестном тексте из-за весьма небольших объемов не всегда легко проверить
самостоятельность распределения частей текста. Поэтому лучше, если есть колебания
между более крупным и более мелким разбиениями текста, принять за знак элемент
более крупного разбиения и проводить исследования текста, взяв за основу крупное
разбиение. Если же исследование покажет, что появление одного и того же знака
в тексте может оцениваться по-разному, если учитывать части знака, и что введение
в рассмотрение более мелких частей помогает в изучении текста, то мы можем дополнительно
изучить распределение мелких частей и более крупных. Если же идти от более мелкого
разбиения к более крупному, то можно получить такое обилие данных, разобраться
в котором затруднительно, и, кроме того, все то, что изучалось при более мелком
разбиении, может оказаться излишним в случае, если знаком окажется элемент более
крупного разбиения текста.
Для лингвистических текстов характерно линейное построение текстов в отличие,
например, от живописных или музыкальных. Наличие в тексте конструкции, структуры
означает, что между знаками или группами знаков текста имеются функциональные
соотношения, которые и определяют конструкцию текста. Для лингвистических текстов
характерно, что большинство этих функциональных соотношений имеет локальный
характер, т. е. связи между элементами текста в большинстве случаев относятся
к "близким" по последовательности элементам (самим знакам или группам
знаков): элементы текста, связанные функциональными соотношениями, находятся
в большинстве случаев недалеко друг от друга в тексте.
Система, с которой связан текст, задает не только конструкцию, способы построения
текста, но и все виды, способы преобразования текста, или, как говорят, способы
допустимых преобразований текста, после которых получается снова текст в той
же системе.
Все ранее сказанное о тексте относится к тому, как он устроен, но не к его
смыслу. Конечно, нельзя считать, что между текстом и конструктивно-функциональной
структурой того же текста нет связи. Но это не такая связь, с помощью которой
можно, зная одно (конструкцию или смысл), найти другое (смысл или конструкцию).
Это - соответствие между двумя системами, одна из которых определяет конструктивные
и функциональные свойства текстов, а другая - смысл и содержание заданных текстов
и взаимоотношения между содержанием различных текстов. Большинство простейших
морфологических преобразований слов и предложений мало меняют смысл преобразуемого
объекта. Например, такие преобразования, как изменение слова по падежам, родам,
по лицам или по временам, и сходные переходы от одних форм слова к другим мало
меняют содержание самого слова. аналогичным образом ведут себя и такие элементарные
преобразования предложения, как конверсия и изменение порядка следования, например
существительного и согласованного определения к нему. Такое небольшое изменение
смысла отличает элементарные преобразования, но уже для композиции элементарных
преобразований (сложных, составных преобразований) это нехарактерно. Но, по-видимому,
нет преобразований в языке, которые хоть в самой малой степени не затрагивали
бы, не изменяли смысла преобразуемого объекта.
Из всего этого следует, что хотя и есть определенная коррелятивная зависимость
между конструктивной и смысловой стороной текста, но нельзя по конструкции определить
полностью смысл текста, и наоборот.
Подводя итоги, можно сказать, что лингвистический текст есть некоторая линейная
последовательность знаков, построенная по правилам определенной системы, причем
текст обладает смыслом, несводимым к правилам построения текста.
Задачи дешифровки касаются обоих аспектов, но исследование должно проводиться
по этапам: на первых этапах нужно выяснить как можно полнее структуру исследуемого
текста и построить, насколько возможно, формальную грамматику языка, на котором
написан текст. Затем, используя и факты сравнительного языкознания, и дополнительные
внетекстовые данные, нужно конкретизировать грамматику неизвестного языка и
только затем переходить к изучению смысла текста.
Нам представляется, что такое разделение общей задачи изучения текста на этапы
вызывается не только наличием двух аспектов текста, но и другими причинами.
Данные внетекстового характера об исследуемом письменном памятнике в большинстве
случаев не обладают достаточной достоверностью. Для успешного изучения нужно
иметь некоторые бесспорные данные о тексте, с помощью которых можно было бы
отбросить лишние, недостоверные сведения. Таким "решетом" для отсеивания
и одновременно каркасом для дальнейшего изучения может служить формальная грамматика.
В чисто методическом плане представляется весьма затруднительно составить
план исследований по дешифровке, не отделив исследования по грамматике от исследований
по выяснению содержания письменного памятника.
Необходимость общего плана изучения неизвестных текстов вызывается также и
очевидной целесообразностью использовать средства вычислительной техники в силу
обилия возникающих при этом задач типа перебора. Но, как уже говорилось ранее,
использование средств вычислительное техники должно проводиться при заранее
известном решении о том, как будут использованы полученные результаты. Ни в
коем случае нельзя допускать такую ситуацию, чтобы после машинной обработки
текстов получалось большое обилие данных, из которых трудно выделить важные
и нужные сведения.
Рассматривая вопрос об изучении текста как некоторую совокупность связанных
между собой задач, нужно учитывать, что возможность решения отдельных задач
определяется объемом и структурой исследуемого текста.
Например, возможности исследования знаменитого Фестского диска весьма ограниченны:
в надписи на нем всего около 250 знаков, и ставить вопрос о построении формальной
грамматики и определении языка на основе этой надписи было бы прожектерством.
Исследование протоиндийских текстов, объем которых порядка 10 000 знаков,
может быть проведено в весьма ограниченном объеме, так как основным объектом
исследования являются тексты на печатях, содержащих в среднем пять-шесть знаков.
Невозможно говорить о построении полной формальной грамматики языка протоиндийских
текстов на основе таких коротких текстов.
Мы не случайно говорим лишь о формальной грамматике, а не о смысловой интерпретации
и переводе неизвестного текста. Мы считаем, что сам текст может лишь дать возможность
выделить различные классы единиц текста и ряд отношений между классами, части
речи и предложения, но без сравнения с другими языками нельзя перейти к выяснению
смысла отдельных словоформ и всего текста.
Основным методом изучения неизвестных текстов мы считаем позиционную статистику.
Обычно при дешифровке широко используются такие простые статистические методы,
как составление частот знаков алфавита, частотные словари и т. п., т. е. такие
приемы, которые дают частотные характеристики знаков, морфем, словоформ в тексте,
не связывая частотные характеристики хотя бы и с простейшей структурой текста.
Такого рода частотные характеристики могут лишь ответить на вопрос "чего
больше?", но по ним почти нельзя судить о зависимостях, соотношениях, имеющихся
в тексте между различными единицами текста.
Под позиционной статистикой текста мы понимаем такие частотные характеристики,
которые связывают единицы текста с некоторой структурой текста, с положением,
занимаемым этими единицами в тексте. Мы полагаем, что такого рода частотные
характеристики позволяют выяснить закономерности, имеющиеся между различными
элементами текста.
Действительно, если для двух единиц текста известны данные позиционной статистики,
т. е. определены позиция в тексте и известно распределение частот этих единиц
по позициям в тексте, то можно выяснить, сравнивая распределения, находятся
ли эти единицы в определенной позиции в тексте и вообще как появление одной
единицы в определенной позиции в тексте предсказывает появление другой единицы
в определенной позиции.
Примером позиционной статистики знаков текста может быть распределение частот
знаков текста в зависимости от положения - позиция знака внутри слова. На основе
таких статистических данных можно выявить характерные позиции знака внутри слова
(инициальная, медиальная, финальная) и наметить подходы для выявления морфологии.
Если аналогичным образом исследовать морфемы внутри слова, то можно выявить
сочетаемость морфем между собой, функциональное соотношение между ними. Применение
такого же приема к исследованию слов внутри предложения может привести к выяснению
закономерностей сочетания слов внутри предложения. Но что в таком случае считать
позицией в тексте?
Под позицией в тексте мы понимаем любой способ, указывающий на место в тексте.
Например, для знака в тексте позицией знака может быть порядковый номер знака
от начала или от конца текста, указание на порядковый номер слова и расстояния
знака внутри слова от концов слова и много других способов. Очевидно, что, чем
больше система, определяющая позицию, связана со структурой текста, тем больше
сведений о тексте об определяющих его соотношениях мы можем получить на основе
позиционной статистики. Поэтому ценность даных позиционной статистики в значительной
мере зависит от того, насколько удачно выбрана система, определяющая позицию
в тексте.
Основная задача состоит в выяснении законов построения текста, в выяснении
соотношений, определяющих текст. Как уже отмечалось ранее, мы рассматриваем
текст как некоторую совокупность единиц, связанных определенными соотношениями:
это связи внутри слова между фонемами, морфемами, между словами в предложении
и т. д. Причем для текста характерно, что эти связи действуют в большинстве
случаев "на небольшом расстоянии", для "близких по тексту"
единиц текста (мы не исследуем, как связаны между собой, например, слова, находящиеся
в далеких частях текста). Исходя из того, что мы рассматриваем текст как структуру
связей, действующих для близких элементов, мы и должны выявить в первую очередь
эти "близкие" связи. Для каждого интересующего нас элемента текста
существенно знать, какие элементы находятся рядом или поблизости от него и каково
разнообразие окружений данного элемента в разных местах данного текста. Для
этого нужно уметь определять позицию элемента в тексте. Отсюда становится ясным,
почему мы считаем таким важным инструментом исследования неизвестных текстов
позиционную статистику.
Для многих недешифрованных текстов характерно, что они весьма небольших объемов.
При таких объемах, особенно если мы сталкиваемся с алфавитом в несколько сот
знаков, очевидно, что статистика отдельных единиц становится совершенно ненадежной
и малодоказательной. Но в таких случаях сведения о совместном распределении
знаков, групп знаков становятся весьма важным показателем даже при низких частотах.
Поэтому для текстов малых объемов позиционная статистика становится, по сути
дела, единственным способом получения надежной информации о структуре текста.
Трудно надеяться, что для текстов малых объемов можно полностью решить каждую
задачу, на которые распадается исследование текста (морфологический анализ,
синтаксический анализ и т. п.). Для таких текстов мы должны решать задачу лишь
для надежных элементов и полученные сведения использовать для уточнения сведений
предыдущих этапов. Исследование неизвестных текстов лишь малых объемов требует
дополнительных приемов, которые могут стать излишними для больших объемов.
Изучение текстов малых объемов приводит сразу к двум трудностям:
1. Всякого рода статистические сведения об изучаемом тексте являются для многих
показателей весьма ненадежными, и в процессе исследования необходимо тщательно
следить за постоянством "уровня" надежности.
2. Многие, если не сказать все, задачи, на которые распадается исследование
неизвестных текстов, вряд ли можно решить полностью, для всех частей текста.
Малые объемы текста позволяют лишь для некоторых единиц текста выделить нужные
показатели, а именно лишь для тех, чьи характеристики по тексту мы можем считать
"надежными в нужных пределах". Так обстоит дело при попытках дать
членение слов на морфемы: лишь для немногих слов удается дать морфемное деление,
исходя лишь из текста и не используя данные о синтаксисе, о структурах парадигм
и другие сведения, которые можно получить также из текста путем дополнительного
исследования.
В силу сказанного выше, мы приходим к необходимости решения отдельных задач
не изолированно друг от друга, а путем последовательных приближений. Решая конкретную
задачу, разумно выделить лишь те объемы, для которых сведения позиционной статистики
являются достаточно надежными (нельзя говорить об абсолютном уровне надежности,
так как в каждой задаче он может быть свой, и определять уровень нужно каждый
раз исходя из решаемой задачи), т. е. решать поставленную задачу только для
таких объемов, а полученные данные использовать для уточнения характера тех
объектов, которые остались не определенными на предыдущих этапах. Для текстов
малых объемов приходится не последовательно решать одну задачу за другой, а,
решив задачу лишь для надежных объектов, возвращаться назад, чтобы с помощью
полученных данных уточнить решение предыдущих задач и затем снова вернуться
к данной задаче и т. д.
Такой итерационный подход дает возможность не смешивать надежные и ненадежные
данные и предохраняет от возможных ошибок. Мы считаем, что все время нужно идти
"на поводу у текста" и на первых этапах исследования не использовать
никаких внетекстовых сведений, кроме самых общих лингвистических концепций о
свойствах человеческих языков. В дальнейшем появляется возможность взаимно корректировать
данные об изучаемом языке, полученные из текста и без обращения к тексту. Нельзя
заранее считать более предпочтительной ту или иную интерпретацию и подгонять
под нее исследование структуры текста, так как такая подгонка может увести слишком
далеко от истины.
В различных методах исследования неизвестных текстов можно выделить несколько
разных направлений. Одни "идут на поводу" у текста, другие - на поводу
у всякого рода побочной информации или вообще используют "интуитивный метод",
в котором на самом деле под словом "интуиция" скрывается просто нечеткая
алгоритмическая постановка задачи. С другой стороны, появилось много работ с
достаточно точными алгоритмами для решения конкретных задач по дешифровке, что
во многих случаях вызвано использованием средств вычислительной техники. Нам
представляется, что методика дешифровки, предложенная Ю.В. Кнорозовым, является
одной из наиболее удобных для решения конкретных задач дешифровки исторических
текстов.
Таким образом, в начале исследования предполагается, что неизвестный текст
записан на некотором, пока для нас неизвестном, но естественном языке, предназначен
для обмена информацией и не подвергался специальным преобразованиям типа зашифровки
с целью затруднить чтение этого текста. Предполагается, что в тексте существует
определенная структура связей, причем для большинства случаев связи в тексте
проявляются на небольшом расстоянии и близкие по тексту элементы находятся в
некотором соотношении. Поэтому основной метод - позиционная статистика. Так
как исследуемые тексты часто бывают весьма небольших объемов, обычные статистические
методы оказываются малоэффективными. Отсюда основной прием при проведении исследований
- итеративный способ поиска решений. В этом случае ищется решение задачи лишь
для наиболее достоверных элементов, затем полученное лишь для части интересующих
случаев решение используется в следующей подзадаче, и решение этой следующей
подзадачи, хотя бы и частичное, используется для уточнения решений подзадач
предыдущих этапов. Такой способ важен еще и тем, что дает возможность получать
данные одного уровня надежности.
Перейдем теперь к описанию конкретных задач, определяемых различными этапами
исследования неизвестных текстов.
Одна из первых задач - разбиение непрерывного текста (написанного без пробелов)
на отдельные блоки, соответствующие в основном словоформам. В проводимых работах
использовался следующий прием. Выбиралась некоторая константа h, и рассматривались
всевозможные отрезки текста, содержащие h знаков. Каждому такому отрезку
текста сопоставлялось множество пересечений данного отрезка со всеми другими
отрезками текста. Каждое пересечение снабжалось адресом. составлялся каталог
всех пересечений в тексте, и выделялись наиболее частотные пересечения. Адреса
давали возможность объединить два пересечения в одно, если они в тексте находились
рядом. Такой метод позволял выделить в тексте устойчивые знакосочетания, обладающие
переменными знаками при сохранении общей структуры знакосочетания. Отсюда появлялась
возможность исследования не только структуры словоформы, но и синтаксической
структуры текста.
Следующая задача - анализ морфологии слова. В эту задачу входят разбиение
каждого блока на отдельные части и классификация их с целью выделения постоянных
и переменных частей, соответствующих корневым и служебным морфемам.
Важной и необходимой задачей, сходной с предыдущей, является выяснение структуры
предложения. На основе полученных данных можно ставить задачу о выявлении классов
блоков как по морфологической, так и по синтаксической структуре. Иначе говоря,
это, с одной стороны, выделение блоков, имеющих одинаковую постоянную часть,
т. е. с одним корнем, а с другой - выделение блоков, имеющих один и тот же набор
переменных частей. На основе самого текста отнести блоки к конкретным традиционным
частям речи без дополнительной внетекстовой информации невозможно, хотя можно
учитывать, например, что во многих языках для глагола характерны большее количество
словоизменительных форм и большая сочетаемость с формами другого класса, а для
существительных - малое количество словоизменительных форм и малая сочетаемость.
Для изучения морфологии очень важно составление прямых и обратных словарей,
а также словарей, ориентированных по произвольному знаку в блоке.
Очень удобным инструментом является составление конкордансов. Выбираются как
бы основные, нечто вроде координат, позиции в тексте и с помощью этих позиций
характеризуется положение единицы. Например, если мы исследуем положение знака
в тексте, а текст разбит на слова и предложения, то мы можем характеризовать
положение знака номером предложения, номером слова и предложения и положением
знака в слове - расстоянием от начала или конца. Аналогично можно говорить не
только про знак, но и про морфему, нечто похожее будет при исследовании слова
в предложении, в абзаце. Используя конкордансы, можно всегда выделить все сочетания
заданной структуры.
При исследовании как структуры словоформы, как и синтаксической структуры
текста удобно использовать прием, названный нами "окружением". В этом
случае для каждого исследуемого элемента текста - это может быть знак текста,
группа знаков и т. п. - указываются группы из n элементов текста, которые
"окружают" в тексте слева и справа исследуемый элемент. Такие окружения
позволяют выявить связи между исследуемым элементом и другими "близкими
к нему" частями текста.
Все указанные приемы являются конкретными вариантами позиционной статистики.
В заключение хотелось бы отметить, что исследования неизвестных текстов интересны
еще и тем, что ставят ряд задач, имеющих и самостоятельное значение. Например,
имеются тексты, записанные двумя разными способами: неизвестным иероглифическим
письмом и известным фонетическим, причем есть вероятность, что хотя они и не
обладают тождественным содержанием, но являются текстами на одну тему, аналогично
вариантам одной и той же сказки или другого вида народного творчества. Можно
ли это выяснить, не зная содержания каждого текста? Такая задача интересна сама
по себе, допускает вполне точную постановку, и для нее может быть составлен
алгоритм. Эта задача возникает и в информатике при выяснении соотношения между
текстом и аннотацией к нему, статьей и ее рефератом и т. д.