В этом разделе представлены программы и ресурсы, связанные с анализом и обработкой текста. |
Каталог содержит описание различных программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих интернет-ресурсов. Последний релиз: выпуск №9 (10.10.2006).
Содержимое каталога время от времени уточняется и дополняется, но весьма нерегулярно и на случайной основе.
Утилита xMarkup предназначена для выполнение процедур строковых преобразований в множестве текстовых файлов. Вот наиболее употребимые варианты её использования:
32-бит приложение для MS Windows. Поддерживает кодировки текста ANSI и UTF-8. Процесс обработки данных может быть реализован как в виде одного шага (скрипта), так и последовательности нескольких шагов (совокупностии взаимосвязанных скриптов). Для ускорения производительности скрипт обработки всегда может быть собран в виде исполнимого exe-файла.
xMarkup принадлежит к категории бесплатного программного обеспечения с открытым кодом. Консольный модуль обработки написан на языке Unicon (дальнейшее развитие языка Icon), графический интерфейс реализован в открытой среде Lazarus (первоначально в Delphi 7). Возможна сборка утилиты (интерфейс командной строки) для UNIX-подобных систем из исходного кода.
Последний выпуск: v4.1 (30.01.2017). Скачать
Документация:
Начиная с версии 4.0 xMarkup был "скрещен" с программой анализа текстов wordTabulator (на уровне консольного ядра обработки). Благодаря этому у табулятора появляется масса возможностей по пре/пост обработке данных и визуализации результатов (в следующих выпусках).
С помощью программы wordTabulator вы можете сформировать индекс элементов, встречающихся в заданном множестве текстов. В качестве искомых элементов могут быть словоформы, N-граммы (словосочетания заданной размерности) или фразы (синтагмы). Программа может обрабатывать тексты как в обычной 1-байтовой ANSI кодировке, так и в многобайтовой UTF-8. Изначально программа разрабатывалась исключительно для русскоязычных текстов, однако может быть успешно использована и для других языков (например, украинского, исландского, шведского и др.). 32-бит приложение для MS Windows.
Программа правильно обрабатывает кириллицу с учетом упраздненных букв русского языка І, Ї (и), Ѣ (ять), Ѳ (фита), Ѵ (ижица), выстраивая словоформы в алфавитном порядке, который был принят до реформы 1918 г. Программа правильно обрабатывает и сортирует диакритические символы западноевропейского и восточноевропейского диапазонов. А текст в UTF-8 может содержать вообще любые разрешенные символы (хоть арабскую вязь или китайские иероглифы; однако эти символы сортируются только по значению уникода).
Входные тексты задаются совокупностью обычных текстовых файлов или документов в формате HTML/XML/SGML. В последнем случае программа умеет отделять полезный контент от используемой разметки. Более того, можно обработать только определенный контент, находящийся внутри заданных тегов. Или наоборот пропустить этот контент при обработке.
Дополнительной возможностью является анализ двух совокупностей текстов, которые можно сравнивать на общность или различие по составу исследуемых элементов.
Для русскоязычных текстов анализ может быть ограничен заданным списком слов в нормальной форме, которые ищутся с учетом морфологии русского языка во всех падежных окончаниях. Поиск необходимых элементов может также задаваться с помощью регулярных выражений.
Выходным результатом программы является файл (или файлы), содержащий индекс найденных текстовых элементов. Этот индекс может быть в формате HTML, с указанием для каждого элемента частоты встречаемости и ссылок на исходный контекст, или в виде простого списка в обычном текстовом файле. Список может быть упорядочен в алфавитном порядке, по значению или по частоте встречаемости элементов.
Последний выпуск: v3.6 (10 октября 2016 г.). Скачать MD5: d1e8e8388e38955280d075165cf98b0d
Предыдущий выпуск: v3.5 (28 марта 2012 г.). Скачать
Документация: Программа WordTabulator. Руководство пользователя