СМИ о ФЭБ

ИНФОРМАТИКА И ФИЛОЛОГИЯ
(Проблемы и перспективы взаимодействия)

К. В. Вигурский, И. А. Пильщиков

1

Одна из основных тенденций развития общества в последние десятилетия — небывалый рост производимой информации. Эта тенденция была выявлена еще в «докомпьютерную эру» и дала основание для констатации «информационного кризиса» [Прайс Д. Малая наука, большая наука // Наука о науке: Сб. статей / Пер. с англ. М., 1966. С. 281-384]. Развитие вычислительной техники и информационных технологий заметно усилили эту тенденцию. Производство, распространение и хранение информации в различных видах стало настолько глобальным и настолько стало определять развитие человечества, что позволило говорить о формировании «информационного общества» [Castells M. The Information Age: Economy, Society and Culture. Malden (Mass.), 1996. Vol. 1: The Rise of the Network Society; Иноземцев В.А. За пределами экономического общества: Постиндустриальные теории и постэкономические тенденции в современном мире. М., 1998]. По данным UNESCO Statistical Yearbook, общее число книг, изданных в мире в 2000 г. составило примерно 1 млн. наименований, что почти в два раза превысило количество книг, выпускаемых ежегодно в середине 70-х годов. Всего же в виде печатной продукции в последний год двадцатого века было выпущено около 50 Тб информации. В это число не входят существенно большие объемы информации, содержащейся в нетиражируемых или малотиражных документах (office documents) [см.: How much information?]. Еще более интенсивный рост имеет место в мире электронной информации: число электронных документов в глобальной компьютерной сети в 2000 г. оценивалось примерно в 300 млн., а к концу 2001 г. достигло 3 млрд. [Google Press Release. 11 December 2001]. Несомненно, что работать с такими объемами информации традиционными методами (учитывать, хранить, распространять, искать и т.д.) не только не эффективно, но и невозможно. Решение этой фундаментальной проблемы лежит на пути автоматизации указанных процессов, т.е. на пути использования современных (и будущих) средств вычислительной техники и информационных технологий. Применительно к информации, представленной сегодня в традиционных формах (а именно в них сохраняется наибольшая часть накопленных человечеством знаний) это означает необходимость ее преобразования в форму электронную. С другой стороны, в последние десятилетия наблюдается стремительное увеличение количества информации, существующей только в электронном виде или изначально создаваемой в этом виде для последующего выпуска печатных изданий (а также аудио-, видео- и др. видов продукции). Возникают обширные информационные ресурсы, которые уже осознаются как особого рода национальное достояние: они не уступают по своей значимости другим разновидностям национальных ресурсов — недрам, воде, лесам и т. п. Количество, качество и доступность информационных ресурсов во многом определяют уровень развития страны и ее статус в мире. Поэтому сохранение, развитие и рациональное использование национального информационного ресурса — это задача государственной важности [Stonier T. The Wealth of Information: A Profile of the Post-Industrial Economy. L., 1983].

Частью национального информационного ресурса является культурно-историческая информация. К этой категории можно отнести литературное и философское наследие, музейную и архивную информацию (включая кино-, фоно- и фотоинформацию), фундаментальные справочные сведения (энциклопедии, словари и т. д.) и некоторые другие виды информации. Культурно-историческая информация неразрывно связана с исторической памятью и национальными традициями; возможность ее свободного использования на всей территории страны способствует органическому развитию общества и обеспечивает единство национального самосознания. В России такого рода информация доступна, да и то в недостаточной мере, только в нескольких крупных городах. При таком положении дел не в полном объеме соблюдается право граждан на получение информации и существенно затруднена научно-исследовательская, образовательная и просветительская деятельность. Утрата культурно-исторической информации наносит значительный (правда, далеко не всегда очевидный и осознаваемый) ущерб обществу и государству: восстановление утраченной информации (в тех случаях, когда это вообще возможно) связано с немалыми затратами. Таким образом, нормальное функционирование национального информационного ресурса выдвигает задачи сохранения, распространения и эффективного использования культурно-исторической информации. В проекте Хартии ЮНЕСКО «Сохранение электронного информационного наследия» (2002) подчеркивается, что решение этой проблемы следует искать прежде всего на пути применения современных информационных технологий и создания единого информационного пространства, охватывающего как печатную, так и электронную информацию.

2

Прежде, чем двигаться дальше, нам придется сделать некоторые терминологические уточнения. Это необходимо, поскольку понятия «филология», «информационные технологии» и «информационные ресурсы» в научной литературе трактуются по-разному.

Многозначность термина филология обусловлена развитием и историческими изменениями «совокупности гуманитарных наук, изучающих культуру народа, выраженную в языке и литературном творчестве» [Толковый словарь русского языка / Под ред. проф. Д.Н. Ушакова. М., 1940. Т. IV / Сост. проф. Г.О. Винокуром и доц. С.И. Ожеговым. Стб. 1081]. Дефиниция, принятая в отечественной традиции, восходит к Ф.Ф. Зелинскому и Г.О. Винокуру [Зелинский Ф. Филология // Энциклопедический Словарь. СПб., 1902. Т. XXXVА. С. 812; Толковый словарь русского языка... Стб. 1081; Винокур Г.О. Введение в изучение филологических наук: (Выпуск первый. Задачи филологии) [1944-1946] // Проблемы структурной лингвистики 1978. М., 1981. С. 3-58]: филологией принято называть «содружество гуманитарных дисциплин — лингвистич<еских>, литературовед<ческих>, историч<еских> и др., изучающих историю и выясняющих сущность духовной культуры человечества через языковй и стилистич<еский> анализ письменных текстов. Текст во всей совокупности своих внутренних аспектов и внешних связей — исходная реальность Ф<илологии>» [Аверинцев С.С. Филология // Большая советская энциклопедия. 3-е изд. М., 1977. Т. 27. С. 410; ср.: Он же. Филология // Краткая литературная энциклопедия. М., 1972. Т. 7. Стб. 973]. Специфику филологического знания определяет установка на понимание текста [Степанов Ю.С. Cлово: Из статьи для Словаря концептов («Концептуария») русской культуры // Philologica. 1994. Т. 1. № 1/2. С. 29]. По общему мнению авторов этой статьи, лучшая формулировка принадлежит М.И. Шапиру: «Главный предмет филологии — текст и его смысл»; только филологию интересует «текст как целое <...> то есть уникальное, неповторимое единство смысла во всей полноте и в любых тонкостях его материального воплощения в чувственно воспринимаемой форме» [Шапир М.И. Филология как фундамент гуманитарного знания: Об основных направлениях исследований по теоретической и прикладной филологии // Антропология культуры. М., 2002. Вып. 1. С. 57].

Если представление о филологии менялось с течением веков, то неоднозначность понятия «информационные технологии», напротив, обусловлена его новизной: оно появилось в последней трети ХХ в., а широкое распространение получило только в прошедшие десять лет (Иногда говорят не об «информационных», а об «информационно-компьютерных технологиях». Но поскольку сегодня это понятие почти всегда подразумевает использование вычислительной техники, то определение «компьютерные» можно опустить как само собой разумеющееся.) В основе этого понятия лежит представление о технологии как о целенаправленном процессе, который характеризуется единством объекта и специфичностью методов и способов его обработки, благодаря которым происходит качественное изменение объекта. Процессы обработки информации полностью подходят под это определение [Данилевский Ю.Г., Петухов И.А., Шибанов В.С. Информационная технология в промышленности. Л., 1988]. Основной целью информационной технологии является удовлетворение потребности конечного пользователя (человека или технической системы) в определенной информации. Понятие «информационной технологии», подобно понятию технологии материального производства, может трактоваться в широком и в узком смысле. Этим термином обозначают как процессы переработки информации в целом, так и процесс изготовления конкретного информационного продукта: «Информационная технология — это процесс, использующий совокупность средств и методов сбора, обработки и передачи данных (первичной информации) для получения информации нового качества о состоянии объекта, процесса или явления (информационного продукта)» [Информатика: Учебник / Под ред. Н.В. Макаровой. 3-е перераб. изд. М., 2002. С. 87].

На II Международном конгрессе ЮНЕСКО «Образование и информатика» к «информационным» были отнесены следующие технологии: ввода/вывода, сбора, хранения, передачи и обработки данных; подготовки текстовых и графических документов, технической документации; интеграции и коллективного использования разнородных информационных ресурсов; защиты информации; программирования, проектирования, моделирования, обучения, диагностики, управления (объектами, процессами, системами) [Политика в области образования и новые информационные технологии: Национальный доклад Российской Федерации на II Международном конгрессе ЮНЕСКО «Образование и информатика» // Информатика и образование. 1996. № 5. С. 1-20]. В проекте «Информатизация и Россия-2001: Белая Книга информационных технологий» (2000), подготовленном рабочей группой Экспертного совета по информационным технологиям при Администрации Президента РФ, рассматриваемое понятие трактуется еще шире: в него предлагается включить также все технологии, в совокупности обеспечивающие процессы подготовки, переработки и доставки информации, в частности, технологии микроэлектроники, разработку и производство компьютеров, телефонию и т. д. Учитывая всё вышесказанное, можно принять в качестве базовой краткую и емкую дефиницию: «Информационные технологии — это приемы, способы, методы применения средств вычислительной техники при выполнении функций сбора, хранения, обработки и использования данных» (ГОСТ 34.003-90).

Определение термина информационные ресурсы дает Федеральный закон «Об информации, информатизации и защите информации» (№ 24-ФЗ от 20.02.1995): «Информационные ресурсы — отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других видах информационных систем)». Документом, согласно тому же закону, называется любая идентифицируемая информация, зафиксированная на материальном носителе (вне зависимости от ее знаковой природы). Под это определение подпадают не только письменные тексты, но и фонограммы, изображения и т. п.

Итак, главный предмет филологии — тексты (со всеми их вербальными и, возможно, невербальными компонентами), а бо'льшая часть накапливаемых электронных информационных ресурсов представляет собой наборы текстов. Современные информационные технологии открывают новые возможности для обработки и анализа текстов и предоставляют разнообразные средства создания, распространения, поиска и учета текстовой информации. С другой стороны, возникает задача изучения текстов, бытующих в новой форме, в новой среде и в новых условиях. Можно сделать предварительный вывод: филология и технология заинтересованы в кооперации и взаимопомощи.

3

Филологи (преимущественно лингвисты, но также стиховеды и литературоведы) одними из первых начали применять в своей работе вычислительную технику. Достаточно будет упомянуть исследования по машинному переводу, ведущиеся с 1950-х годов; создание машинных словарных фондов и словарей; разработку методов и алгоритмов морфологического анализа лексики, которые легли в основу программного обеспечения современных поисковых систем; работы по синтаксическому и семантическому анализу текстов и мн. др. [см.: Очерк истории информатики в России. Новосибирск, 1998]. (Ср. также вызывающие неподдельный интерес, хотя и спорные в методологическом отношении попытки атрибуции текстов с применением средств вычислительной техники.) Однако эти пионерские исследования велись отдельными специалистами (иногда из чистого энтузиазма), имели экспериментальный характер и не получили ни широкого применения, ни достаточного развития. Мы вынуждены с сожалением констатировать, что вычислительная техника пока еще не стала привычным инструментом в руках филолога.

Объяснение этому факту найти несложно. До появления персональных компьютеров вычислительная техника и ее программное обеспечение были слишком сложны в эксплуатации и не могли использоваться без привлечения квалифицированных специалистов. ЭВМ были труднодоступны из-за их относительной малочисленности и высокой стоимости машинного времени. Наконец, они были слишком медленными и не обладали достаточной памятью, необходимой для эффективной обработки текстов (нужно ли специально отмечать, что объем памяти и быстродействие современных домашних компьютеров существенно превышают параметры «больших» машин двадцатилетней давности?).

К началу 1990-х годов информационные технологии сделали огромный скачок, позволяющий говорить о возможности и даже необходимости их применения в практике филологических наук. Компьютеры превратились в персональные устройства и стали доступны любому пользователю (как по цене, так и по эксплуатационным характеристикам). Начали интенсивно развиваться текстовые процессоры, средства автоматической проверки орфографии и грамматики, программы оптического распознавания текста (optical character recognition) и другие лингвиcтические и эдиционные компьютерные средства. Память и быстродействие персональных компьютеров достигли таких значений, что появилась реальная возможность создания полнотекстовых информационных систем вне лабораторных условий. Специалисты стали пользоваться компьютерами в повседневной работе — для подготовки публикаций, получения необходимой информации из Интернета, общения с коллегами по электронной почте и решения прикладных задач [Успенский В.А. Языковедение, математика и Первая традиционная олимпиада: Добавление от ноября 2001 г. Новые задачи прикладной лингвистики // Успенский В.А. Труды по нематематике. С приложением семиотических посланий А.Н. Колмогорова к автору и его друзьям: В 2 т. М., 2002. Т. 2. С. 907-924; и др.). Научные институты и гуманитарные вузы приобретают вычислительную технику и программные средства; формируются базы данных для сохранения и обработки лексикографической и библиографической информации. Филологические организации, отдельные коллективы и специалисты-гуманитарии открывают сайты и персональные страницы в Интернете.

К сожалению, при всей их важности и ощутимости эти перемены далеко не повсеместны: и в столице, и особенно в провинции они имеют характер исключения, а не правила. Большинство гуманитариев (особенно представители среднего и старшего поколения) по-прежнему относятся к компьютерам с опаской и рассматривают их как вотчину инженеров и естествоведов [Горный Е. Интернет и филология (Субъективные заметки к годовщине РВБ)]. Подавляющее большинство возможностей, которые обеспечивают современная вычислительная техника и информационные технологии, при этом не используется; принципы работы с текстовым материалом почти не меняются. Филологи как будто ждут, что кто-то предложит им программные продукты, которые смогут удовлетворить их нужды. Между тем создание подобных программ, требующих разработки специальных алгоритмов, становится возможным только при тесном содружестве технологии и филологии. Трудно, например, ожидать, что программисты самостоятельно разработают автоматические средства разметки стихотворных текстов. Но без таких программ стиховедам и через десять, и через двадцать лет придется, как и раньше, размечать тексты вручную.

Таким образом, нужно прямо сказать о необходимости повышения информационной культуры специалистов-филологов. Под «информационной культурой» (information culture) мы понимаем способность индивидуума и общества «эффективно использовать информационные ресурсы и средства информационных коммуникаций, а также применять для этих целей передовые достижения в области развития средств информатизации и информационных технологий» [Нехаев С.А., Андреев И.Л., Кривошеин Н.В., Яскевич Я.С. Словарь прикладной интернетики; ср. Суханов А.П. Информация и прогресс. Новосибирск, 1988. С. 70 и др.; Зубов Ю.С. Информатизация и информационная культура // Проблемы информационной культуры: Сб. ст. М., 1994. С. 6; Информатика. С. 21]. Информационная культура вбирает в себя знания из таких дисциплин, как теория информации, математика, теория проектирования баз данных. Неотъемлемой частью этой культуры являются владение информационными технологиями и умение использовать их как для автоматизации рутинных операций, так и для решения нестандартных проблем [Информатика. С. 22].

4

Результаты освоения филологами современных информационных технологий заметнее всего проявляются в создании профильных интернет-ресурсов. По объему, составу и качеству этих ресурсов, по их функциональным возможностям и ряду других параметров можно составить некоторое представление о нынешнем уровне информатизации филологических наук.

За последнее время в российском секторе Интернета (в Рунете) появилось довольно много информационных ресурсов, имеющих более или менее близкое отношение к филологии (сюда мы относим всё, что представляет хоть какой-то интерес для филолога: коллекции текстов, биографические материалы, результаты научных исследований, библиографическую информацию, электронные версии профильных журналов и т.д.). Однако найти эти web-сайты, за исключением пары десятков самых известных, непросто: в сетевых каталогах сведения о них обычно рассеяны по трем рубрикам («Наука», «Образование», «Литература»), где они теряются среди массы ресурсов нефилологического характера; прямые (лексические) поиски помогают и того меньше. Вывод неутешителен: добраться до большинства существующих филологических ресурсов гуманитариям, не занимающимся проблемами информационного поиска, как правило, не удается.

По нашим оценкам, количество сетевых ресурсов по русской филологии и фольклору в конце 2002 — начале 2003 г. можно оценить в 300—350 [ Каталог сетевых ресурсов по русской филологии и фольклору / Сост. К.В. Вигурский, И.А. Пильщиков]. На первый взгляд, всё не так уж плохо, хотя филологических сайтов в Сети меньше, чем сайтов, посвященных русской истории (около 1000) или психологии (не менее 500). Однако при более пристальном рассмотрении оказывается, что значительная их часть либо малоинформативна, либо носит вспомогательный характер, а число отечественных интернет-ресурсов, действительно заслуживающих внимания специалистов по русской филологии, едва ли превышает 100. В Рунете очень мало публикаций научных работ, нет учебников, мало словарей и справочников, практически отсутствует библиография. Обследование сайтов, содержащих произведения русской литературы и фольклора, проведенное в 1998 и 2000 гг. силами НТЦ «Информрегистр» при участии сотрудников Института мировой литературы (ИМЛИ) РАН, показало почти полное отсутствие достоверных текстов. Дело даже не в их ненадежности с филологической точки зрения, а в элементарном несоответствии электронной копии печатному источнику.

Чтобы не быть голословными, приведем несколько наиболее характерных примеров. (Мы намеренно не указываем сетевые адреса примеров, поскольку речь идет о типичных ошибках.)

Большинство текстов в Сети не идентифицировано: они не имеют описаний или хотя бы элементарных сведений об источнике электронной публикации. В тех же случаях, когда описания есть, они могут вызвать обоснованное недоумение. Например:

    «Текст печатается по изданию: Михаил Булгаков, Избранная проза, М., ИХЛ, 1966, с исправлениями по рукописи».

Пользователь может подумать, что создатели ресурса работали с рукописями. Очевидно, это не так: авторские рукописи использовали не они, а редакторы печатного источника. Ср.:

    «Ф.М. Достоевский, БЕСЫ
    Часть первая
    Воспроизводится по изданию: "Бесы. Роман Федора Достоевского. СПБ. 1873", с исправлениями по журналу "Русский Вестник" 1871, т.т. XCI, ХСII...»

Конечно же, и в этом случае создатели ресурса не воспроизводили издание 1873 г. и не вносили в текст правку по «Русскому вестнику» — эти слова также принадлежат редакторам печатного источника.

Тексты изобилуют орфографическими ошибками. Любопытным свидетельством может послужить такая переписка:

    «Читатель: Сайт замечательный, но хотелось бы обратить внимание (не знаю к кому это замечание нужно отнести) очень много орфографических ошибок в тексте,в частности,"Стандинг или правила хорошего тона" Сан-Антонио (перевод Мигачева А.А.).Читать крайне тяжело.
    Администратор: Спасибо за замечание, многие тексты я просто физически не в состоянии просмотреть... Что шлют, то и выкладываем. Найду лучший перевод — заменю».

Это, увы, не случайность: очень часто символы, лежащие за пределами ASCII, при вычитке просто игнорируются. Вот как может выглядеть эпиграф к «Евгению Онегину»:

    «Pйtri de vanitй il avait encore plus de cette espиce d'orgueil qui fait avouer avec la mкme indiffйrence les bonnes comme les mauvaises actions, suite d'un sentiment de supйrioritй, peut-кtre imaginaire.
             Tirй d'une lettre particuliиre»

А это отрывок из Л. Толстого:

    «Стоит только поправить неверный перевод и слова (((((((, и предлога И((, переве-денного за, и вместо "прелюбодеяния" поставить слово распутство, и вместо за поставить —— по или для, чтобы ясно было, что слова: (м (с И(( ((((((( не могут относиться к жене».

Во времена Пушкина (и даже Толстого) за подобные искажения издателя могли бы вызвать на дуэль.

Нередко тексты, публикуемые в электронной форме, деформируются: выбрасываются фрагменты текста (иногда даже отдельные главы и части), разрушаются стихотворные строки (стихотворный текст воспроизводится как прозаический), в драматических произведениях имена героев и авторские ремарки оказываются не отличимы от реплик и т.д.

Разнообразие и количество ошибок вряд ли может вызвать удивление: такие ресурсы обычно формируются стихийно, благодаря деятельности энтузиастов-добровольцев и редакторов-любителей. Конечно, на этом унылом фоне есть отдельные отрадные исключения, но в целом такого рода информация в русскоязычном Интернете представлена слабо, и понятно отсутствие интереса к ней у большинства специалистов.

Чтобы ситуация изменилась к лучшему, требуется наполнить сайты филологически корректной информацией и качественно каталогизировать существующие ресурсы. Кроме того, программно-информационная составляющая профильных интернет-ресурсов должна создаваться и развиваться в соответствии с реальными потребностями филологической практики. Не секрет, что специалисты-филологи и студенты-гуманитарии, какими бы конкретными вопросами они не занимались, тратят значительную часть своего времени на поиск необходимых изданий и релевантных текстовых сегментов, на составление и проверку библиографических описаний, на многократное переписывание цитат, всевозможные сортировки и т.д. Речь идет о стандартных процессах, выполняемых вручную любым исследователем — даже частичная их автоматизация облегчает и упрощает оперирование текстами. Филологический труд становится более продуктивным: скорость выполнения рутинных процедур повышается в десятки раз, и в результате высвобождается время для активной творческой работы.

Помимо общих задач информатизации филологического знания (поиск и учет информации, бесспорно, относится к их числу), имеется целый ряд задач специальных. Приведем в качестве примеров морфологический анализ текста, грамматическую и стиховедческую разметку, метатекстовую разметку в корпусной лингвистике (включающую информацию об авторе, языке и обстоятельствах создания текста), сравнение текстов и групп текстов по заданным параметрам, построение указателей и списков, проблемы представления шрифтов и др. Многие задачи такого рода не только не решены, но даже не были корректно поставлены. Их постановка и решение требуют проведения фундаментальных исследований, в которых должны на равных принимать участие филологи и специалисты в области программирования и информационных технологий.

Решение рассмотренных выше задач мало что даст при отсутствии репрезентативных и качественных информационных массивов, представляющих русский язык и русскую словесность с древности и до наших дней. В эти массивы должны также влиться результаты филологических исследований и разнообразные справочные материалы — био- и библиографии, словари, справочники, специальные энциклопедии, — то есть та вспомогательная информация, без которой немыслима нормальная работа филолога.

5

Оптимальный путь к решению перечисленных задач лежит через создание специализированных полнотекстовых информационных систем. В зависимости от конкретных целей такие системы могут быть либо совсем простыми, использующими одну-две программные «надстройки», либо комплексными, включающими программные, аппаратные, технологические, организационные и иные компоненты. Мы попытаемся дать перечень основных требований, предъявляемых к информационным системам, рассчитанным на филологическую работу с текстами. Эти требования можно разделить на три группы: общие, информационные и функциональные.

Общие требования таковы: система должна подчиняться ясно сформулированной концепции, в которой отражаются цели и задачи системы, круг ее потенциальных потребителей и способ распространения информации. Все этапы разработки, развития и эксплуатации информационной системы необходимо сопровождать научной редакторской работой, которую берут на себя компетентные специалисты по соответствующим областям знания. Система должна включать вспомогательный справочный аппарат, упрощающий доступ к информации. В архитектонике системы следует предусмотреть дальнейшее развитие ее информационной базы и функциональных возможностей.

К информационным требованиям принадлежат: системность комплектования, исключающая произвол и стихийность в отборе информации; структурность информационной базы; полнота представления информации, необходимой и достаточной для научных исследований; авторитетность информации и соответствие отбираемых материалов современному академическому уровню; идентифицируемость информационных объектов (для словесных текстов это требование сводится к обязательному наличию стандартных библиографических описаний); точность воспроизведения информации (при электронном воспроизведении печатного текста должны быть адекватно отражены структура и пагинация оригинального издания, правописание и пунктуация источника, расположение текста на странице, шрифтовое оформление и ряд других особенностей).

Функциональные требования предполагают наличие развитых функциональных возможностей, к числу которых относятся: навигация (возможность получать сведения о составе и структуре информационной базы и иметь доступ к ее компонентам); лексический поиск (то есть поиск по свободной лексике естественных языков с учетом их морфологии); атрибутный поиск (то есть поиск информационных объектов по значениям их формальных характеристик); комбинированные поиски; сортировка результатов поиска по заданному параметру; просмотр содержания информационного объекта — последовательный (страница за страницей), выборочный (переход на заданную страницу), параллельный (одновременный просмотр нескольких документов); поддержка гипертекстовых связей (их ключевая роль была ясна уже на заре информационной эпохи [Нельсон Т. Информационные системы будущего // Информационный поиск: Сб. материалов / Сокр. пер. с англ. М., 1970. С. 217-228]); экспорт информации с указанием источника.

Наиболее интенсивно развивающейся разновидностью полнотекстовых информационных систем являются электронные издания и электронные библиотеки; можно уверенно утверждать, что они будут занимать всё более значимое положение в мире [Вигурский К.В. Электронные издания и электронные библиотеки как специфический вид автоматизированных информационных систем // Межотраслевая информ. служба. 1999. Вып. 1. С. 7-15; Горный Е., Вигурский К. Развитие электронных библиотек: мировой и российский опыт, проблемы, перспективы // Интернет и российской общество. М., 2002. С. 158-188]. Необходимо отметить, что мы стали свидетелями возникновения принципиально новых, самостоятельных культурных практик: разработка электронных библиотек вовсе не тождественна автоматизации библиотек традиционных, и точно так же электронно-издательская деятельность (electronic publishing) направлена не на автоматизацию редакционно-издательских и полиграфических процессов, а на создание и распространение электронной информации. Вместе с тем, новые направления деятельности не возникают на пустом месте: они теснейшим образом связаны с уже существующими и должны полностью учитывать опыт их развития и накопленные результаты.

6

Одной из попыток реализовать сформулированные выше требования стала совместная работа ИМЛИ РАН и НТЦ «Информрегистр» Минсвязи России по созданию Фундаментальной электронной библиотеки (ФЭБ) «Русская литература и фольклор». ФЭБ представляет собой сетевую многофункциональную информационно-поисковую систему, обеспечивающую сбор, хранение и распространение произведений русской словесности и результатов научных исследований в области русской литературы и фольклора. Принципы построения Библиотеки были изложены ее создателями (в числе которых — авторы этих строк) в докладах и выступлениях на презентации проекта 1 июля 2002 г. [см.: Акимова М.В. Презентация Фундаментальной электронной библиотеки в ИМЛИ РАН // Изв. РАН. Сер. лит. и яз. 2002. Т. 61, № 6. С. 72-75], а также в специальной статье, опубликованной в журнале «Электронные библиотеки» [Вигурский К.В., Горный Е.А., Пильщиков И.А. Фундаментальная электронная библиотека «Русская литература и фольклор»: Первые итоги. Задачи. Перспективы]. Разработчики рассматривают ФЭБ не только как действующий продукт, но и как полигон для экспериментов и исследований, направленных на решение многочисленных и разнообразных задач, связанных с проблемами внедрения современных информационных технологий в сферу гуманитарных наук.

ФЭБ — не единственный проект в ряду работ по использованию современных информационных технологий в интересах филологического знания. Значительная часть таких работ выполняется в академических институтах и вузах. Помимо ИМЛИ сетевые проекты ведут Институт русского языка им. В. В. Виноградова, Институт лингвистических исследований, МГУ, РГГУ, СПбГУ, Казанский, Оренбургский, Петрозаводский университеты и другие вузы. Значительную роль в академической жизни играет сайт «Ruthenia» — совместный проект московского издательства ОГИ и кафедры русской литературы Тартуского университета; под эгидой «Рутении» функционирует целый ряд независимых интернет-проектов филологического профиля. Третий год работает первая в Рунете сетевая библиотека академического типа — Русская виртуальная библиотека (РВБ). РВБ сближает с ФЭБ целый ряд общих принципов отбора и подачи материала; оба проекта пересекаются и в плане персонального состава участников. Среди зарубежных ресурсов по русской филологии следует упомянуть такие ресурсы, как «Балтийский архив» (вильнюсский сайт, посвященный русской культуре Прибалтики), PDF-MP3-библиотеку «ImWerden» и нек. др.

Существенный недостаток этих и подобных работ — их раздробленность. Информационные ресурсы, методы работы с ними, программные средства, созданные в одном научном коллективе, редко становятся достоянием широких заинтересованных кругов научной общественности. Это приводит к неоправданному дублированию при проведении как научных исследований, так и при финансировании дорогостоящих работ (оцифровка информации, разработка программного обеспечения и др.). Следствием указанного положения дел оказывается несогласованность в выборе направления работ по информатизации филологии и неравноценность получаемых результатов.

Важным шагом на пути преодоления отмеченных недостатков призвана стать открытая в начале 2003 г. программа Секции языка и литературы Отделения историко-филологических наук РАН «Филология и информатика: создание системы электронных ресурсов для изучения русского языка, литературы и фольклора», которая сформирована в рамках комплекса программ фундаментальных исследований Российской академии наук. Как заявлено в описании Программы, ее основной целью является «содействие развитию отечественной филологии путем предоставления научным коллективам и отдельным исследователям современных средств и методов ведения научной работы и эффективных способов сохранения и распространения добытых результатов. Программа должна способствовать сохранению и пропаганде, а также освоению в сфере образования языкового и культурного наследия России, стран ближнего и дальнего зарубежья». Основными задачами Программы являются, таким образом, создание качественных и доступных электронных массивов текстов, представляющих русский язык и русскую культуру, а также программного обеспечения, позволяющего специалистам-филологам работать с этими текстами.

Электронные массивы, создаваемые при решении всех конкретных задач, группируются в два больших корпуса: Национальный корпус русского языка и Единый электронный фонд русской литературы и фольклора. На первом этапе своего развития эти корпуса должны реализовываться как совокупность различных информационных систем (электронных библиотек, электронных изданий, отдельных сайтов и т.п.). На последующих этапах предполагается установление информационных и программно-технологических связей между этими системами, а в дальнейшем — их интеграция в единую распределенную систему. Центральными звеньями в этой цепи должны стать Национальный корпус русского языка XIX—XXI вв. (он создается в Институте русского языка РАН силами специальной рабочей группы, в которую входят также сотрудники других учреждений РАН и вузов Москвы и Петербурга) и Фундаментальная электронная библиотека «Русская литература и фольклор».

Особое значение для достижения поставленной в Программе цели и решения перечисленных выше задач имеет отработка методов и средств обеспечения доступа конечных пользователей к представляемой информации, а также сетевое взаимодействие отдельных компонент фонда между собой. Эта отработка должна проводиться в процессе формирования и развития сайтов институтов РАН, участвующих в данной Программе. С другой стороны, профессиональной формирование и ведение таких сайтов будет способствовать пропаганде русской словесности, деятельности указанных институтов и результатов, полученных в рамках Программы.

В соответствии с поставленными задачами, все работы по Программе сгруппированы в семь основных направлений:

  • Создание электронного фонда русской литературы и фольклора.
  • Создание электронной словарно-справочного системы по русской словесности.
  • Создание Национального корпуса текстов русского языка XIX—XXI вв.
  • Синтаксическая и лексико-семантическая разметка корпуса грамматически размеченных русских текстов второй половины XX века
  • Создание корпуса параллельных текстов
  • Создание лингвистического корпуса памятников русской письменности XI—XVII вв.
  • Создание, развитие и поддержка информационных систем открытого доступа.

Всего в Программе представлен 21 проект; эти проекты выполняются шестью институтами РАН и их соисполнителями. Программа и все предусмотренные в ней проекты должны быть реализованы в течение 2003—2005 гг.

Программа предполагает широкое сотрудничество академических институтов с высшими учебными заведениями России. Для выполнения целого ряда исследовательских задач, а также для технической обработки больших массивов текстов будут активно привлекаться преподаватели и студенты вузов Москвы, Санкт-Петербурга, Воронежа, Саратова и ряда других городов России. Такое сотрудничество должно несомненно способствовать повышению научного уровня вузов, обмену опытом и привлечению талантливых студентов к научной работе уже на начальном этапе обучения.

Среди больших проектов и программ необходимо отметить проект Национальной электронной библиотеки РФ (НЭБ), объявленных в начале 2003 г. Российской государственной библиотекой и Министерством культуры РФ. В Концепции проекта НЭБ определена как «библиотечно-информационная система, предназначенная для организации, хранения и использования электронных изданий, объединенных единой идеологией структуризации и доступа». Там же сформулирована основная цель библиотеки — сформировать национальный библиотечный репертуар электронных документов и обеспечить их доступность для всех категорий пользователей как основу для развития в России единого социокультурного пространства и информационного общества, и повышения эффективности международного информационного обмена. Существенной особенностью данного проекта является его направленность на решение проблемы длительного сохранения электронной информации. Проект рассчитан на длительный срок, однако, уже к концу 2003 г. предполагается открыть доступ к электронному информационному фонду диссертационых работ. Несмотря на то, что проект НЭБ носит универсальный характер, он, несомненно, может оказать заметный вклад в информатизацию гуманитарной сферы в целом и в филологии в частности.

7

Сохранение подготовленной и представленной для использования информации — серьезная проблема, имеющая принципиальную важность, для которой до сих пор не найдено удовлетворительного решения. Это тот круг вопросов, которым в большинстве контент-ориентированных проектах не уделяется никакого внимания. Речь идет о длительном хранении, то есть о способах и средствах обеспечения доступности и использования информационных ресурсов в том виде, в котором они были созданы, через промежутки времени, сопоставимые с продолжительностью человеческой жизни (а в перспективе существенно превышающие ее).

Бумага позволяет сохранять зафиксированную на ней информацию до 200, а в специальных условиях до 500 и более лет, и в течение этого времени информация остается доступной для человеческого восприятия. При этом основной проблемой становится понимание и правильная интерпертация информации, затрудняющаяся в связи с изменением естественных языков и социокультурного контекста. Решение этой проблемы входит в круг основных задач филологических дисциплин. С той же проблемой мы сталкиваемся и в случае представления, хранения и распространения информации в электронном виде. Это значит, что филология должна в полной мере сохранить свое значение и в условиях информационного общества.

Однако в связи с сохранением информации в электронном виде возникают и принципиально иные, весьма значительные проблемы.

Во-первых, это проблемы, обусловленные тем, что электронная информация недоступна непосредственному восприятию человеком и требует наличия объектов-посредников — технических и программных средств. Последние, в свою очередь, интенсивно изменяются. По различным оценкам, качественное изменение программно-технических средств происходит каждые пять лет. Новые средства уже не обеспечивают адекватного воспроизведения и использования сохраняемой информации. Невозможно, например, воспользоваться информацией по инвентаризации землепользования и природных ресурсов штата Нью-Йорк, составленной в 1960-е годы, поскольку уже не существует специального программного обеспечения для работы с этими данными. То же можно сказать и о данных, полученных НАСА со спутников в 70-е годы [Клэр Т. Данные на грани вымирания // Что нового в науке и технике. 2003. № 5 (7). С. 42]. Общего убедительного решения этой проблемы в настоящее время нет. Существует несколько подходов, среди которых можно выделить четыре, представляющихся наиболее перспективными.

  • Периодическое преобразование хранимой информации в форму, соответствующую новым программно-техническим средствам.
  • Сохранение и поддержка в рабочем состоянии использованных программно-технических средств.
  • Эмуляция использованных программно-технических средств средствами нового поколения.
  • Сохранение, наряду с данными, спецификаций средств, позволяющих работать с хранимой информацией, по которым можно было бы восстановить и использовать указанные средства.

(Подробное рассмотрение этих направлений далеко выходит за рамки настоящей статьи.)

Во-вторых, учитывая высокую стоимость и трудоемкость создания и длительного хранения электронной информции, становится актуальной проблема отбора наиболее значительных ресурсов. С одной стороны, объективно невозможно оцифровать всю необходимую информацию. С другой — большие массивы информации, уже представленной в электронном виде, бесследно исчезают: по данным ЮНЕСКО средняя продолжительность существования web-страницы колеблется от 44 дней до двух лет. Попытки же простого тотального копирования сетевой информации в силу рассмотренных выше трудностей не представляются перспективными. Так, с 1996 г. по настоящее время ведется архивный проект Internet Archive, в рамках которого накоплено и доступно для использования около 10 млрд. web-страниц. Однако связь текста на многих страницах нарушена, с некоторых страниц исчезла значительная часть текста, а целые группы материалов не сохранились вообще. «Мы не знаем, какой объем информации потерян», — заявляет инициатор этого проекта Боюстер Каль [Клэр Т. Указ. соч. С. 51]. По всей вероятности, решение данной проблемы потребует комплексного подхода и привлечения специалистов самого разного профиля, в том числе филологов.

Наконец, в-третьих, возникают проблемы, связанные с тем, что форма представления и сохранения информации влияет на содержание документа. Это хорошо видно при рассмотрении исторического перехода от рукописной формы представления информации к печатной. То же происходит и при переходе к представлению информации в электронной форме. (Для подтверждения последнего тезиса достаточно отметить влияние на структуру и содержание документа гипертекстовых связей и активного инкорпорирования в них невербальной информации.) Также очевидно, что решение проблем длительного хранения электронной информации предъявит определенные требования к форме самих документов: какие их элементы необходимо сохранять, а какие нет. Эта задача открывает еще одно важное поле деятельности не только для специалистов в области вычислительной техники, но и для специалистов гуманитарного профиля.


Источник: К. В. Вигурский, И. А. Пильщиков Информатика и филология (Проблемы и перспективы взаимодействия) // "Электронные библиотеки" — 2003 — Том 6 — Выпуск 3