РВБ лого
Русская виртуальная библиотека
Основана 1 декабря 1999 г.
Последнее обновление: 12.09.2023 10:58
 
Новости
Публикации
Авторы
Указатели
Ссылки
Программы
Друзья
Вокруг РВБ
Сотрудники
О проекте
Карта сайта

Специальные проекты
Philologica
Мандельштамовское общество

Как делается РВБ

1. Зачем нужна РВБ?

  • Вопросы теории, истории и методологии построения электронных библиотек для научного использования освещены в статьях, ссылки на которые даются в конце текста. В этом тексте изложено, как, создавая Русскую виртуальную библиотеку, мы хотели избежать некоторых распространенных недостатков, в том числе следующих:
  • 1.    источник в электронных публикаций указан далеко не всегда, библиографические описания «хромают»;

    2.    нет номеров страниц;

    3.    не воспроизводится структура издания;

    4.    комментарии отсутствуют или недостаточны

  • Целевая аудитория нашего проекта:
  • 1.    исследователи, преподаватели;

    2.    школьники, студенты, аспиранты;

    3.    и, наконец, все остальные — любители русской литературы.

2. Критерии usability
и что делается, чтобы им соответствовать:

  • «Надежность» издания
  • 1.    Должны использоваться авторитетные издания, они должны быть явным образом описаны.

    2.    Тексты любого автора в разных изданиях воспроизводятся по-разному, точнее, в разных изданиях воспроизводится а) разный корпус текстов и б) одни и те же тексты воспроизводятся по-разному. Существуют аргументированные версии разных прочтений. Все это должно отображаться и документироваться. В частности, для этого должны воспроизводиться сопроводительные материалы оригинальных печатных изданий (редакторские комментарии, примечания и т. д.).

  •     Должна воспроизводиться структура и пагинация оригинального печатного издания (это пока сделано не во всех электронных публикациях РВБ), а также расположение текста на странице. Типографская разметка (нумерация печатных листов, переносы и т. п.) не воспроизводится.
  • 1.    В традиционной издательской практике существует набор конвенций для отображения разных смысловых элементов текста, которые вполне воспроизводимы в электронном виде, и без всяких объяснений говорят читателю, что, например, предложение, стоящее перед текстом со сдвигом вправо и отделенное пустым местом от последующего тексты — эпиграф, а предложение, поставленное со сдвигом вправо примерно на 30-40% — поэтический кусок. Таким образом, макет должен воспроизводиться как на уровне эксплицитной логической разметки, так и на уровне визуального воспроизведения (презентации).

    2.    Последний момент неочевиден, например, вся идеология TEI построена на том, что необходимо воспроизводить логическую структуру, а презентация — случайная манифестация этой субстанции, над которой и думать нечего. С другой стороны многочисленные тексты, оформленные при помощи разнообразных тегов HTML 3.2 (<blockquote>, <pre>, <table>, <p>, <br>, &nbsp; и их сочетаний), обходятся вообще без разметки внутренней структуры, что тоже недостаточно.

    3.    Формат представления должен быть неразрывно связан с форматом описания (метаформатом). Поэтому «просто текст» не подходит, эксплицитная логическая разметка в нем не применима, PDF не подходит по той же причине, аналогично HTML 3.2, Word и RTF не подходят, потому что в зависимости от установок разных пользователей (если они вообще пользуются этими форматами — т.н. межплатформенность) тексты отображаются по-разному, к тому же, как и PDF, эти форматы — не открытые и стандартизированные форматы типа TEI или HTML, а частные (proprietary) форматы, и что с ними сделают компании, которые их разрабатывают, — неизвестно никому, конечно, скорее всего обратная совместимость будет поддерживаться, но как долго и в каком объеме, — неизвестно. TEI в SGML и XML изводах пока не подходят потому, что несмотря на описание внутренней структуры, идеологически они являются форматами хранения, а для презентации порождаются форматы, указанные выше, т.е. в которых нет разметки внутренней структуры.

    4.    Пожалуй, именно поэтому и не прижилась в РВБ предлагавшаяся Б. Тоботрасом схема с использованием разметки TEI Lite.

    5.    Соответственно на сегодняшний день для меня единственным понятным и простым механизмом представления информации и описания ее внутренней структуры является HTML 4.0 (и его дальнейшие производные, в которых убраны теги для форматирования, но оставлены теги, описывающие структуру) в сочетании с языком презентации — CSS 2.0, поскольку различные «правила» этого языка связываются именно с элементами логической разметки текста (классы и идентификаторы элементов структуры — разделов (<div>), абзацев (<p>), промежутков (<span>). При этом отслеживается соблюдение некоторых простых правил, таких как: теги — в одном регистре, теги не должны содержать синтаксических ошибок, т.е. наложения тегов не должно быть (<i><p></i></p>), все теги, за исключением тегов <br> и <hr> должны быть закрыты, даже если спецификация формата допускает использование только одного тега, нет разрывов слов картинками для обозначения символов, не входящих в используемую кодировку.

    6.    Любые версии XML-разметки легко порождаются из такой разметки HTML при помощи потоковых замен. Единственное требование, чтобы в соответствии с открывающим менялся и закрывающий тег. Xmarkup в частности придуман и для этого

    7.    Самый трудоемкий элемент — корректорская читка текстов и логическая их разметка.

  •     Идеологически важный момент: воспроизводимая книга — плод соавторства автора и издателя. Технически это означает, что комментарии и сопроводительные статьи, указатели, словари (глоссарии), должны воспроизводиться, а не выбрасываться на том основании, что Пушкин (например) их не писал, а писали специалисты для своего собственного употребления, ради чего и возиться не стоит, или что-то в этом же роде, и эти материалы (аппарат, одним словом) должны быть соединены ссылками с комментируемыми сегментами текста. Это тоже приходится делать отчасти вручную. Техническая информация (навигация) должна содержаться в логически отделенном фрагменте текста.
  • 1.    Текст —созданная автором последовательность символов (слов), которая имеет начало и конец, может иметь внутреннее членение и может быть сколь угодно малого или большого размера, будь то двустрочная эпиграмма или многотомный роман, — должен воспроизводиться единым файлом для того, чтобы поиск происходил в рамках текста, а не непонятно чего. Бывают накладки: если в структуре издания воспроизводятся тома, а текст настолько велик, что его приходится разбивать между томами. Тексты бывают велики (романы), приходится вводить разметку для того, чтобы пользователь получал осмысленные куски, а не стандартные куски, скажем в 30 килобайт, и на сервере запускать скрипт, который и выдает такие куски (главы или части большого текста, заданные автором).

    2.    В связи со всем этим приходится пользоваться файловой системой, где имена файла соответствуют номерам текстов в издании. В начале добавляется соответственное количество нулей (чтобы текст 10.htm всегда следовал за 09.htm).

    3.    Издания могут быть разделены (тома, разделы основных редакций и промежуточных, стихи, проза, драматургия и т. д.), и это разделение тоже необходимо воспроизводить в файловой системе.

  •     Поиск.
  • 1.    Сейчас работает Яндекс, в дальнейшем предполагается запуск серверной версии Табулятора (http://www.rvb.ru/soft/wt/wt.htm).

3. Как подготавливаются тексты (последние публикации)

  • Тексты сканируются, экспортируются в MS Word, производится корректорская читка текстов и сопроводительных материалов, далее в MS Word-97 (8) производится перевод в формат HTML (в предыдущей версии, 95 (7) теги не закрывались, в последующей версии текст конвертируется в MS XML, в который вводится бездна презентационной информации, но логическая информация отсутствует, даже стили никак не вводятся).
  • Вносится дополнительная разметка:
  • 1.    Если подготавливаемое издание включает много отдельных текстов с соответствующими комментариями, то между ними ставится абзац с неразрывным пробелом (Ctrl+Shift+Space), если включить показ непечатаемых символов, то это выглядит так: °¶

    2.    Перед номерами страниц ставится знак табуляции, для чего предварительно в меню параметры в закладке "редактирование" снимается галочка в окошке "Установка отступов клавишами TAB и Backspace", выглядит так:

    →795¶

    3.    В начале абзацев, разорванных номером страницы, ставится пробел.

    4.    Во всех стихах концы строчек обозначаются символом разрыва строки (? ), а не конца абзаца ¶

    5.    Символом конца абзаца в стихах заканчиваются только строфы или стихотворные абзацы (в нестрофическом стихе группы строк, отделенные пустой строкой друг от друга)

  • Текст чистится специальным шаблоном, удаляющим всю информацию о выравнивании, шрифтах, сдвигах и т.д. Что-то можно оставить, дело вкуса. Шаблон имеется, доступен.
  • Большой текст при помощи Xmarkup'а (http://www.rvb.ru/soft/xmarkup/xmarkup_171.htm) режется на малые.
  • После этого при помощи Xmarkup'а и утилит для потоковой замены производится замена этой разметки на содержательную (абзац + знак табуляции —> <div class="page" id="pg###"> </div> и т.д.), как для текстов, так и для комментариев.
  • Название отдельного текста и его автор проставляются в титул (<title>), и наносится разметка для автоматической генерации ссылок на сегменты комментария все тем же Xmarkup'ом.
  • Для поэтических текстов вводится разметка стихотворного размера (пока вручную), его вариаций (если в разностопном ямбе встречаются четырех— и шестистопные строки, то шестистопники сдвигаются влево; и т.п.).
  • Повторяющимся элементам текста (стихотворным строкам, абзацам прозы и номерам страниц) приписываются уникальные идентификаторы для позиционирования ссылок.
  • При необходимости расширяется и исправляется стилевой лист.
  • Проверяется правильность ссылок и синтаксиса.
  • Текст помещается на сервер, рассылается анонс, на начальной странице сервера публикуется «новость».

4. Перспективы

  • Конечная цель:
  • 1.    Воспроизведение единого пространства русской литературы, связанного воедино массивом гиперссылок.

    2.    Интеграция со словарями языка отдельных авторов и словарями русского языка, исследовательскими работами.

    3.    Предполагается осуществлять поиск по категориям логической разметки с нацеливанием ссылок на уникальные идентификаторы элементов.

5. Ссылки

Е. Горный. Интернет и филология (Субъективные заметки к годовщине РВБ) // Русский Журнал, 01.12.2000.
    http://www.zhurnal.ru/staff/gorny/texts/inter-phil.html

Е. Горный, К. Вигурский. Развитие электронных библиотек: мировой и российский опыт, проблемы, перспективы // Интернет и российское общество / Под ред. И. Семенова; Моск. Центр Карнеги. М.: Гендальф, 2002
    http://www.zhurnal.ru/staff/gorny/texts/dlib.html

К.В. Вигурский, Е.А. Горный, И.А. Пильщиков. Фундаментальная электронная библиотека «Русская литература и фольклор»: Первые итоги. Задачи. Перспективы // Электронные библиотеки. 2002. Т. 5. Вып. 5.
    http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2002/part5/VGP

К. В. Вигурский, И. А.Пильщиков. Филология и современные информационные технологии: (К постановке проблемы) // Известия РАН. Серия литературы и языка. 2003. Т. 62. № 2.
    http://feb-web.ru/feb/feb/media/philo-info.htm

К. В. Вигурский, И. А.Пильщиков. Информатика и филология: (Проблемы и перспективы взаимодействия) // Электронные библиотеки. 2003. Т. 6. Вып. 3.
    http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2003/part3/VP

Владимир Литвинов, технический редактор РВБ

Вопросы и комментарии приветствуются:
litvinov @ snezhinsk.ru
litvinov_vl @ mail.ru

© Русская виртуальная библиотека, 1999—2024. РВБ
[an error occurred while processing this directive]