Версия 1.6 от 16 июля 2002 г. История изменений.

Каталог лингвистических программ и ресурсов в Cети

Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет. Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако также описаны некоторые on-line и коммерческие версии программ. Тематически каталог разбит на следующие разделы:

 - программы анализа и лингвистической обработки текстов;
 - программы преобразования текстов;
 - психолингвистические программы;
 - генераторы текстов и "говорящие" программы;
 - системы обработки естественного языка;
 - коллекции ресурсов;
 - словари и тезаурусы.

Новые поступления в каталог теперь помечаются отметкой New!, а обновления описаний - Update. Сразу нужно оговориться, что новые поступления являются таковыми только по отношению к каталогу. Сеть большая и не сразу все найдешь :-). И, к сожалению, не всегда есть время заниматься каталогом.

Составитель: Логичев Сергей Владимирович.

P.S. Я буду чрезвычайно признателен всем, приславшим свои замечания и дополнения к данному каталогу. Надеюсь, он окажется полезен всем, кто занимается компьютерной обработкой и анализом текстов.

Программы анализа и лингвистической обработки текстов

Название

Автор(ы), Организация

Комментарий

Link Grammar Parser John Lafferty
Daniel Sleator
Davy Temperley
Carnegi Melon University, USA
Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около  60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс.
Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Программа распространяется бесплатно.
Cíbola/Oleada
Проекты Cíbola/Oleada
Computer Research Laboratory
Computing Research Laboratory (CLR)
New-Mexico State University, USA

Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris.

Russian Morphological Dictionary

Sergey Sikorsky

Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows.
Программа распространяется бесплатно.

On-line морфологический парсер Яndex On-line версия морфологического парсера русскоязычных текстов, реализованного в поисковой системе Яndex. В основе парсера - "Грамматический словарь русского языка" А.А.Зализняка (110 тыс.слов). Для просмотра результатов морфологического анализа нужно выбрать режим "разбор запроса".
Mystem Илья Сегалович,
Виталий Титов
компания Яndex
Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.
Лингвоанализатор Д.В.Хмелев On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.
Программные продукты фирмы LingSoft LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.
Рабочее Место Лингвиста компания Dialing
Москва
Анализ текстов для построения систем автоматического перевода с русского на английский язык (и наоборот). Включает ряд автономных компонентов:
 - синтаксический анализатор текстов на русском языке;
 - морфологический анализатор текстов на русском и английском языках;
 - построение конкордансов для заданной совокупности текстов.
Используются морфологические словари русского (80 тыс.слов) и английского (60 тыс.слов) языков. Для каждого компонента разработан COM-интерфейс, который может использоваться при разработке других прикладных систем. Доступна для загрузки бесплатная демо-версия системы РМЛ-99 1.0, которая к сожалению осталась незавершенной (по всей видимости эта разработка почила в бозе). Система написана на языке C++ и работает в среде Windows 9x/2000/NT.
Система StarLing С.А.Старостин СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows).
Кроме этого можно загрузить словари Ожегова и Зализняка в DBF-формате.
В режиме on-line на сайте доступна этимологическая база для различных языков.
Морфологический анализатор С.А.Старостин On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).
MonoConc Michael Barlow
Dept of Linguistics, Rice University, Texas, USA
Две версии (MonoConc Pro 2.0 и MonoConc 1.5) программы построения конкорданса для заданного корпуса символьных (ASCII) текстов. Утверждается, что размер текстов может достигать нескольких миллионов слов. Реализованы возможности различных режимов поиска: с помощью символов маскирования, регулярных выражений, контекстно-чувствительного поиска. При обработке текстов c внутренней разметкой (HTML/SGML) теги включаются в состав конкорданса (это нехорошо). Различные варианты сортировки. Функции частоты встречаемости слов и словосочетаний. Различные режимы вывода конкорданса. Есть возможность генерации индексов и словников.
Обе программы реализованы для Windows 95 и выше. MonoConc 1.5 имеет вариант реализации для Windows 3.1 (16-разрядная версия).
Версия MonoConc 1.5 является несколько облегченной в сравнении с MonoConc Pro. К сожалению обе эти программы не бесплатны. Лицензия на использование MonoConc Pro в образовательных целях стоит $85.00; MonoConc 1.5 - $65.00. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.
ParaConc 0.7beta
ParaConc 1.0beta
Michael Barlow Две бесплатные beta-версии программы построения параллельного конкорданса, т.е. конкорданса, основанного на двух сравниваемых текстах. Тексты должны быть выравнены по параграфам (предложениям), т.е. иметь одинаковое число этих элементов. Как и в программах MonoConc обрабатываются символьные ASCII тексты. Программа ParaConc реализована для Windows 95 и выше. Для установки версии 1.0 программы требуется загрузить файл Conc.exe в отдельную директорию и создать в ней поддиректорию AligneImport, в которую сохранить два dll-файла из архива paradll2.zip.
WordSmith Tools Mike Scott Бесплатная демо-версия программы WordSmith 3.0 для построения конкордансов. Программа, очень похожая по функциональности на MonoConc. Может обрабатывать корпус ASCII текстов, состоящий из множества отдельных файлов. Не понимает внутреннюю разметку. Имеет досадное ограничение на длину выходного конкорданса.
Включает в свой состав несколько полезных утилит - генерации списка слов для заданной совокупности текстовых файлов; разбиения больших текстов на совокупность фрагментов; пакетного редактирования множества текстов и другие.
Реализована для Windows 95 и выше.
Кроме программы WordSmith здесь же можно загрузить различные словари и словники.
Concordance 2.0.0 © R.J.C. Watt, 2000 Коммерческая программа для построения конкордансов и частотных списков для Win9x/NT/2000 (регистрация 80$). Обработка текстов в кодировках, поддерживаемых Windows, настройка на заданный алфавит. Сохранение результатов в виде HTML-файлов. Богатые средства анализа текстов. Возможность бесплатной загрузки для пробного ознакомления.
TextAnalyst 2.0 Научно-производственный инновационный центр "МикроСистемы" Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.
Galaktika-ZOOM корпорация Галактика, Москва Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных. Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации.
Система Пропись 4.0 АО Агама Набор средств для лингвистической обработки русскоязычных текстов:
 - проверка орфографии;
 - расстановка переносов;
 - построение списка синонимов и антонимов слова;
 - грамматическая и стилистическая проверка текста;
 - толкование слова (по Толковому словарю);
 - поиск и замена слов в тексте с учетом их форм;
 - статистический анализ текстов.
Работает в старых Windows 3.1/95. Windows 2000 и MS Office 97 не поддерживает. Цена 10$.
АО Агама Словарно-справочная система по русскому языку для Microsoft Windows 3.1/95. Включает в себя ряд словарей, в том числе морфологический, словообразовательный и синонимов/антонимов.
Лингвистические компоненты, словари и библиотеки классов Андрей Коваленко Авторская страничка ведущего разработчика компании Рэмблер А.Коваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов.
netXtract © 2000 Relevant Software Inc. Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию.
Textual Analysis Computing Tools (TACT) Library Electronic Text Resource Service
Indiana University, USA
Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета TACTWeb 1.0
Paai's text utilities Dr. J.J. Paijmans, Нидерланды Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux.
WordTabulator v2.2 © Логичев С.В., 1997-2002 Новая версия программы, предназначенной для анализа текстов в среде Windows 9x/NT/2000/XP. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов. Понимает тексты в основных русскоязычных кодировках и может обрабатывать документы в формате HTML 4.01, игнорируя их разметку. Возможности поиска с помощью символов маскирования; возможность поиска всех видоизменений словоформ, заданных базовой формой; контекстный просмотр результатов; сравнение двух совокупностей текстов. Удобный графический интерфейс. Выходной индекс в форме гипертекста. Public domain.
Худломер Леонид Делицын Проект "Худломер" связан с задачей автоматической классификации стиля русскоязычных текстов. Автором были собраны и проанализированы 4 корпуса текстов, взятых из русской сети. Сюда вошли художественные произведения, публицистика, научные статьи и протоколы диалогов через ICQ и IRC. В результате были получены эмпирические кривые распределения длин слов в текстах, в зависимости от стиля. Эти кривые используются в качестве эталонов при классификации. On-line версия Худломера (на основе Perl-скрипта) может быть опробована здесь. Программа классифицирует стиль входного текста как: РАЗГОВОРНАЯ РЕЧЬ, ХУДЛО (худ.литература), ГАЗЕТНАЯ СТАТЬЯ или НАУЧНАЯ СТАТЬЯ.
На сайте есть статья с теоретическим описанием алгоритма классификации. Автор проекта широко известен как издатель литературного журнала DE-LIT-ZYNE, основатель сетевого конкурса ТЕНЕТА и энтузиаст русской сетературы.
Еще один проект автора, "Штампомер", связан с нахождением наиболее часто встречающихся фраз (штампов) в авторских текстах. К сожалению, этот проект в настоящее время заморожен.
Свежий взгляд/Fresh Eye
версия 1.21, 1995
Дмитрий Кирсанов DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2.
URS версия 1.1
от 05.04.2001
М.А.Бендерский,
компания "НООЛаб", Новосибирск
Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word. Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл.
Update!
Машинный перевод
© Серж Слепов, 1999-2002 Развивающийся проект программиста из Снежинска, посвященный проблемам исследования машинного перевода. Один из разделов проекта связан с анализом морфологии русского языка. Описан ряд интересных программ, которые можно беспрепятственно скачать и испробовать.
WordStat © Дубинский А.Г., 2001 Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку.
Алгоритм сравнения текстов Владимир Чаплинский Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции.
АОТ (автоматическая обработка текста) Алексей Сокирко и Co. Сайт, на котором представлены разработки бывших сотрудников компании Диалинг, прекратившей свое существование в мае 2001г. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- различные тезаурусы.
Также опубликована диссертация А.Сокирко "Семантические словари в автоматической обработке текста" по теме машинного перевода.
Технологии поиска и анализа текстовой информации Гарант-Парк-Интернет Сайт, на котором представлены разработки известной компании Гарант-Парк-Интернет. Cреди представленных технологий:
- анализ и классификация текстов, автоматическое реферирование;
- различные варианты поиска текста;
- морфологичекий, синтаксический и семантический анализ текста;
- средства навигации по большим массивам текстов;
- различные научные публикации авторов проекта.

Психолингвистические программы

Название

Автор(ы), Организация

Комментарий

ПСИ-Офис версия 2.1 Вадим Сысуев Система психолингвистического анализа текстов, включающая 3 компоненты:
 - программа поиска вложенных слов в тексте, т.е. слов, "спрятанных" внутри и на переходах между словами.
 - программа поиска повторяющихся фрагментов текста при анализе "автоматического письма" (такие тексты пишутся с целью анализа текущих подсознательных процессов).
 - программа синтеза подсознательного компонента текста.

Поддержка русского (словарь 690 тыс.слов) и английского (словарь 430 тыс.слов) языков. Возможность подключения дополнительных словарей. Работает в Windows 9x/2000/NT. Freeware.

ВААЛ-2000 Белянин В.П., доктор филологических наук, МГУ
Шалак В.И., кандидат философских наук, Институт Философии РАН
Психолингвистическая экспертная система лексического и контент-анализа текстов. Основные задачи - прогноз эффекта неосознаваемого воздействия текста на массовую аудиторию, анализ текстов с точки зрения такого воздействия, генерация текста с заданным вектором воздействия, выявление личностно-психологических качеств автора текста. Система реализована в виде набора DLL-библиотек, которые подключаются к текстовому процессору Word для Windows. Успешно используется в ГосДуме, правительстве, крупных банках и PR-компаниях. Для бесплатной загрузки доступна старая DOS-версия системы образца 1995 года.

ПРИЕМЫ ЖУРНАЛИСТИКИ & PUBLIC RELATIONS,

версия 2.03, 2000
Система "ТРИЗ-ШАНС", Санкт Петербург Коммерческая программа, представляющая собой консультанта, помогающего Пользователю при написании различных текстов. Пользователь выбирает ряд параметров, характеризующих желаемый результат, а программа выдает ему рекомендации по написанию текста и иллюстрирует их примерами. В основе программы - анализ 12500 текстов мастеров русского языка, начиная от писателей-классиков и заканчивая современными журналистами и политиками. К сожалению в программе отсутствуют возможности анализа написанного Пользователем текста.
Для загрузки доступна демо-версия, являющаяся облегченным вариантом профессиональной версии. Демо-версия также включает руководство пользователя и демонстрационный обучающий ролик. Программа требует для работы русские Windows 9x/2000/NT и Microsoft Word.

Программы преобразования текстов

Название

Автор(ы), Организация

Комментарий

HTML Batch Editor © 2001 Lucersoft Компактная утилита для Windows, позволяющая осуществлять пакетные преобразования массивов текстовых или html-файлов с помощью набора заданных шаблонов. Доступна для загрузки в двух вариантах - облегченная freeware версия HTML Batch Editor v1.1 и полная shareware ($25) версия HTML Batch Editor v2.2.
Словогрыз Иван Сагалаев Словогрыз - это бесплатная утилита для Windows, которая предназначена для поиска и замены текста по заданным маскам. Программа умеет находить и заменять в тексте не только строго заданные слова и фразы, но и текстовые элементы, определяемые произвольными поисковыми шаблонами. Позволяет сохранять/загружать сценарии преобразований.
ClearText Reader's Edition Дмитрий Грибов Freeware программа для переформатирования текстовых или html-файлов (Windows). Позволяет осуществлять как вычистку разметки, так и ее добавление. Понятный графический интерфейс, автораспознавание кодировки.
xReplacer ©XDW Soft, 2000-2001 Условно-бесплатная программа для Windows 9x/ME/NT/2000/XP, позволяющая производить массовые операции поиска и замены в множестве текстовых файлов. В качестве поисковых шаблонов можно использовать регулярные выражения. Понимает до 12 различных кодировок, состав которых может быть расширен пользователем.
xMarkup v1.6.8 © Логичев С.В., 1999-2002 Приведено описание экспериментальной программы, предназначенной для выполнения сколь угодно сложных преобразований множества текстов. Реализована как консольная утилита для Windows 9x/NT/2000/XP. Позволяет изменять, добавлять или удалять заданные элементы обрабатываемых текстов. Встроенный язык обработки. Программу можно получить по e-mail после письма к автору.

Генераторы текстов и "говорящие" программы

Название

Автор(ы), Организация

Комментарий

Russian Word Constructor (RWC)
версия 1.0, 1992
Дмитрий Кирсанов Экспериментальная программа для генерации русскоязычных стихоподобных текстов ("инструмент поэта"). Программа способна конструировать русские неологизмы на основе заданного словаря с лексико-статистической информацией. Несмотря на свою "древность", программа интересная и может позабавить своими словесными изобретениями. Прилагается утилита для создания авторских рабочих словарей. Распространяется бесплатно. Есть исходные тексты на языке C. Работает как консольное приложение MS-DOS.
Update!
Дацюк(ТМ)
Робот Сергей
© E}-|-{E, 1997-2002 "Самый виртуальный Виртуал русского Интернета". On-line генератор "осмысленных" текстов заданной длины. Я бы назвал произведения робота шизофреническим бредом сексуально-философской направленности. Однако бывает весьма любопытно почитать. По стилю презентации проекта и его духу, он мне напоминает феерическую фантасмагорию в лучших традициях Станислава Лема.
Update!
Scott Pakin's automatic complaint-letter generator
Scott Pakin Всемирно известный генератор письменных жалоб Скотта Пейкина. Представляет собой on-line версию программы генерация текста жалобы на заданную персону или организацию. Использует для работы словарь лексической информации, который на сегодняшний день включает более 7000 элементов. Язык реализации - английский.
Cyrano Server Nando.net On-line версия программы генерации любовных писем. Пользователь задает стиль сочинения, свое имя, обращение к любимой и некоторые атрибуты, ее характеризующие, и программа ловко сочиняет письмо нужной тональности. По-моему, очень полезная вещь для неспособных в литературном плане любовников. Язык реализации - английский.
Update!
Письмовник
© MediaLingua Ltd., 1995-2002 Автоматическое составление и перевод (русско-английский/англо-русский) деловых писем и документов. Коммерческая система для Windows 95/98, 49$.
A.L.I.C.E Dr. Richard S. Wallace Говорящая программа или просто бот (сокр. от робот), дважды победившая в поединке на приз Лобнера (Loebner prize) в 2000 и 2001 гг. ALICE развивается как open-source проект под эгидой некоммерческой организации ALICE AI Foundation, зарегистрированной в США. В основе технологии, на которую опирается ALICE, лежит использование AIML (специализированного языка разметки для искусственного интеллекта). В разделе downloads доступен исходный код и различные имплементации программы.
The Dada Engine Andrew C. Bulha Генератор случайных текстов на основе заданной грамматики (англ.яз.). Работает на UNIX-подобных системах, можно загрузить исходный код. На основе The Dada Engine реализована on-line версия Генератора Постмодернистских Текстов.
Весна Елена Савельевна Колмановская On-line генератор псевдо-философских текстов, созданный главным редактором компании Яndex.
BotSpot © INT Media Group, 2001 Исчерпывающий каталог всевозможных программных ботов, существующих во всемирной сети (англ.яз.). Есть даже ссылка на проект создания виртуальной личности Джона Леннона.
ANANOVA Ananova Limited
United Kingdom
Новостное агенство в Великобритании, использующее на своем сайте виртуального анимированного диктора. Т.е. симпатичная виртуальная девушка, сверкая глазками и шевеля губками, синтезированным голосом рассказывает вам о последних новостях (естественно, на английском языке).
Chatterbot Central Simon Laven Зоопарк ботов всевозможных мастей и видов. Здесь, похоже, собрана вообще вся информация о говорящих программах, существующих сегодня в сети. Начиная c классики (например, всемирно известной Элизы доктора Фейгенбаума) и кончая самыми последними разработками с использованием языка искусственно-интеллектуальной разметки (AIML).
Update!
Sakrament Text-to-Speech Engine v2.0
© компания "Сакрамент", 2002 Система синтеза русской речи, созданная минской компанией "Сакрамент". Система польностью соответствует стандарту Microsoft Speech API (SAPI) 5.1. Позволяет произносить тексты мужским и женским голосом, делая при этом интонационные паузы, изменяя по желанию пользователя тон и тембр речи.
New!
Аки Росс
© Альберт Товмасян, 2002 Shareware программа, предлагающая общение на русском языке. Специальный plug-in позволяет использовать анимацию в виде очаровательной девушки-собеседника по имени Аки Росс (так звали героиню компьютерного мультика Final Fantasy). База знаний программы не столь обширная, но теоретически ее можно улучшать и дополнять (используется язык разметки AIML). По-видимому, лучшим вариантом было бы периодически публиковать на сайте обновления базы знаний. Для своей работы программа требует платной регистрации (80 рублей). Незарегистрированная версия запускается всего 10 раз сеансами по 2 минуты.
New!
PAI v3.01
© Claudio Scordino, 2002 Programmable Artificial Intelligence (PAI) или Программируемый Искуственный Интеллект - это Freeware программа, способная общаться с пользователем на английском языке. Что наиболее интересно в PAI, так это способность обучения. Пользователь постепенно может научить программу понимать нужные фразы, слова, глаголы и даже команды! Реализована на языке C++ для Linux, FreeBSD и Windows. В терминах GNU-лицензии доступны исходные тексты программы.

Системы обработки естественного языка (NL-Processing)

Название

Автор(ы), Организация

Комментарий

Natural Language Projects at ISI © Univ.of Southern California/Information Science Inst., 1999-2001 Описание группы проектов по вычислительной лингвистике и машинному переводу, выполняемых в Университете Южной Калифорнии.
Webclopedia - проект, связанный с созданием информационных агентов, способных генерировать ответы пользователю на основе анализа разнородных коллекций ресурсов, доступных в сети.
ONTOSAURUS - это онтологический тезаурус, включающий 90,000 концептуальных сущностей (словарная база взята из проекта WordNet).
SUMMARIST - мультиязычная система реферирования текстовой информации.
ReWrite - система двуязычного перевода, основанная на статистическом анализе пар текстовых корпусов.
Update!
Следопыт 3.0
© MediaLingua Ltd., 2001 Интеллектуальная поисковая система, применимая для смыслового и нечеткого поиска документов на русском и/или английском языках. При поиске учитывается морфология и изменение грамматических форм элементов поискового запроса. Понимает все основные форматы документов для Windows. Цена от $9.9 до $1290 в зависимости от комплектации. Демо-версию можно взять здесь.
New!
Поисковая система Алхимик
© ВЕЛТОН.SOFT, 2002 Персональная поисковая система Алхимик, предназначенная для анализа и поиска русскоязычных документов. Программа использует фрагменты семантического словаря профессора В. А. Тузова. Входными документами могут быть файлы в форматах MS Word, HTML и TXT.
New!
ARM Engine 4.0
© ABBYY Software House, 2001 ABBYY Retrieval & Morphology (ARM) Engine - это коммерческая инструментальная система, позволяющая встраивать в разрабатываемые приложения функции полнотекстового поиска и морфологического анализа текстов. Поддерживает практически все европейские языки, включая русский. Реализована в виде API с использованием технологии COM-объектов. Демо-версию можно получить бесплатно.
New!
NeurOK Semantic Suite
© НейрОК Интелсофт, 2002 Программные продукты для поиска и анализа в текстовых массивах информации, реализованные с использованием технологии нейтронных сетей. Серьезные цены, соответственно серьезности самих продуктов.

Коллекции ресурсов

Название

Автор(ы), Организация

Комментарий

Каталог программ по вычислительной лингвистике SIL International
SIL International (Summer Institute of Linguistics)
Обширный каталог программ по вычислительной лингвистике, разработанных в рамках проекта SIL. Представленные в каталоге программы носят явно академический характер и требуют значительных усилий для изучения и применения. Не рекомендуются неискушенным в академической лингвистике пользователям. Все программы, а их более 60, являются бесплатными и доступны для online загрузки. Есть исходные коды.

Каталог программ по вычислительной лингвистике в сети Internet

SIL International Очень обширная коллекция ссылок на программы чрезвычайно широкой лингвистической направленности в сети Internet. Для всех платформ. Но совсем нет программ, посвященных русскому языку. Представлены как бесплатные так и коммерческие программы.
Каталог программ в Corpus Linguistics Michael Barlow Интересная подборка доступного в сети лингвистического программного обеспечения, составленная уважаемым профессором Майклом Барлоу из Райского Университета в Техасе.
TELRI Research Archive of Computational Tools and Resources (TRACTOR) Trans-European Language Resources Infrastructure (TELRI) Архив лингвистических программ и ресурсов в рамках проекта TELRI. TELRI - это ассоциация исследователей, целью которой является выявление и продвижение лингвистических ресурсов и программ, связанных с обработкой текстовых и речевых данных для языков центральной и западной Европы. Пока архив не очень-то большой.
Каталог ресурсов по анализу текстов Harald Klein Обширная компиляция ссылок по проблеме анализа текстов (на англ.языке). Большой раздел посвящен тематическим компьютерным программам.
Ресурсы, связанные с анализом текстов Matthias Romppel Электронный каталог ресурсов, связанных с анализом текстов (на англ.языке). Библиографии, программное обеспечение, адреса исследовательских организаций, архивы электронных текстов и другое.
Русский Лингвистический указатель
создан 15 мая 1999
Юрий Коряков Авторская коллекция ссылок на языковые ресурсы по следующим разделам:
 - языки народов России (славянские, уральские, кавказские и др.) и мира;
 - некоторые направления лингвистики (компаративистика, социолингвистика, вычислительная лингвистика, типология);
 - словари;
 - адреса российских организаций, связанных с лингвистикой.
К сожалению не все ссылки работают, но в целом это очень полезный ресурс.
Полезные ссылки для лингвистов А.А. Поликарпов,
МГУ
Большая коллекция ссылок на лингвистические ресурсы, проекты, конференции, организации и т.д.
Справочно-информационный портал "Русский язык" © МО "ЭЛЕКС", 2000 Замечательный ресурс для истинных любителей русской словесности, содержащий массу полезной иноформации. Также включает он-лайновые словари русского языка:
 - Полный электронный орфографический словарь русского языка под ред. В.В. Лопатина.
 - Словарь трудностей произношения и ударения в современном русском языке.
 - Новый словарь русского языка. Толково-словообразовательный.
 - Русское словесное ударение. Словарь нарицательных имён.
 - Русское словесное ударение. Словарь имён собственных.
На сайте опубликован исчерпывающий указатель ссылок на интернет-ресурсы, посвященные русскому языку и литературе.

Словари и тезаурусы

Название

Автор(ы), Организация

Комментарий

Словарь языка А.С.Грибоедова Алексей Поляков
НТЦ "Информрегистр";
Институт мировой литературы им. А.М. Горького
Словарь языка А.С. Грибоедова реализует полное лексикографическое описание творчества великого русского писателя. Словарь охватывает все известные тексты А.С. Грибоедова и включает более 12 тыс. лексем и более 120 тыс. словоупотреблений, снабженных подробной лексикографической информацией. По своей структуре словарь представляет собой алфавитно-частотный конкорданс с грамматической информацией. Каждое словоупотребление описывается своей базовой формой; морфологическими характеристиками; названием произведения и его фрагмента; контекстом; гипертекстовой ссылкой на полный текст произведения.
Очень удобный и мощный аппарат поиска.
Словарь В.Даля   On-line версия знаменитого словаря В.Даля "Толковый словарь живого великорусского языка". Оригинальный текст © В.И.Даль, 1880-1882. Адаптация к современному языку и издание © Изд. "Цитадель", г. Москва, 1998 г.
Словарь устаревших и диалектных слов © Центральный Телеграф, 1998-2001 Небольшой словарик устаревших слов русского языка на сервере Центрального телеграфа.
On-line словари Издательского Дома "ЭТС" © 1997-2000 ETS Publishing House Коллекция on-line словарей: анатомический (латынь), уфологический, сокращений, иностранных слов, финско-русский, немецко-русский, англо-русский фразеологический и ряд других. Кроме этого на сайте представлены различные словари Polyglossum и языковые программы.
Словари Ожегова и Зализняка С.А.Старостин On-line версии словарей Ожегова и Зализняка.
Лексикон "Дар слова" Эпштейн Михаил Наумович Сетевой проект известного филолога, философа и культуролога Михаила Эпштейна, стартовавший в апреле 2000. Проект связан с изучением феномена однословия, т.е. слова как самоценной сущности. Представляет собой сетевой еженедельник, публикующий эссе по словобразованиям и неологизмам русского языка. Каждую неделю подписчикам высылается одно или несколько новых слов, с дефиницией, толкованиями и примерами употребления. Все публикуемые слова являются уникальными словообразованиями, которых не найти ни в одном словаре русского языка.
Mountain Data Systems Очень полный словарь акронимов и сокращений английского языка. Содержит более 173 тысячи элементов.
Lexical FreeNet Datamuse Corporation Продвинутый on-line тезаурус английского языка. Может использоваться для любых мыслимых целей - решения кроссвордов, поиска синонимов, связанных слов, подбора рифм, орфографической проверки и т.д.
WordNet Cognitive Science Laboratory,
Princeton University
WordNet - это электронный тезаурус, отражающий все возможные толкования слов английского языка, и показывающий взаимосвязи между ними. Для каждого слова можно найти синонимы, объединенные в смысловые группы и получить ссылки на родовые (более общие) или производные понятия. Ценный ресурс для филологов, занимающихся английским языком. Можно скачать локальные версии тезаураса для UNIX, DOS и Macintosh.
The Wordsmyth Educational Dictionary-Thesaurus (WEDT) Wordsmyth Collaboratory Web-сайт, предлагающий on-line версию образовательного словаря-тезауруса английского языка. Содержит около 50 тысяч коренных слов. Удобные средства поиска. Пользователь может получить расклад интересующего слова по слогам, его произношение, список всех словоформ и толкование.
Толковый словарь Merriam-Webster Merriam-Webster Incorporated On-line версия знаменитого толкового словаря английского языка.
Update!
American Indian Language
© Customized Computer Software, 1999-2000 На сайте представлены программы обучения разговорным языкам северно-американских индейцев племен лакота(сиу) и шошонов, а также компьютерный словарь языка лакота-сиу, содержащий 3300 слов с переводом на английский. Все программы бесплатные и сделаны для Windows 9x/NT. А здесь вы можете эти же ресурсы посмотреть и послушать on-line.
Babylon.com Babilon.com Ltd. Сайт, предоставляющий различные информационные услуги - мультиязычный перевод, словари и справочники, преобразование одних мер в другие и т.д. Пользователь получает доступ к ресурсам системы после установки на свою локальную машину интерфейса Babylon. Он может определять состав необходимых ему словарей, языковые настройки и режимы работы (в off-line или в on-line) и даже создавать свои собственные словари. Система Babylon имеет доступ к ресурсам таких известных провайдеров как Britannica.com, Dietwatch.com, и Accuweather.com. Плата за пользование не взимается!
Atomica (GuruNet) Atomica Corporation Сайт, предоставляющий обширные информационные услуги, в том числе - различные энциклопедии, толковые словари, справочники и тезаурусы. Пользователь может обращаться за информацией непосредственно на сайт или через устанавливаемый на локальной машине интерфейс (загрузить).
РУБРИКОН © Russ Portal Company Ltd. 2001 РУБРИКОН - информационно-энциклопедический проект компании "Русс портал", в рамках которого пользователь впервые получает свободный доступ к полным электронным версиям важнейших энциклопедий и словарей, изданных за последние сто лет в России. В настоящее время на сервере опубликованы:
 - "Большая советская энциклопедия" (1969-1979),
 - "Иллюстрированный энциклопедический словарь" (1998),
 - "Толковый словарь живого великорусского языка" Владимира Даля (1863-1866),
 - "Рок-энциклопедия" Сергея Кастальского (1998),
 - Энциклопедический словарь "История Отечества" и
 - Энциклопедический словарь "Всемирная история".
В скором времени планируется пополнить этот список еще более чем тридцатью изданиями.
British National Corpus (BNC) © 1995 Oxford University Press Коллекция более чем 100 миллионов слов современного английского письменного и устного языка. BNC включает в себя более 4000 различных текстов, слова которых классифицированы и размечены с использованием стандарта Text Encoding Initiative (TEI). В режиме on-line поиска пользователь может найти примеры употребления как отдельных слов, так и выражений. Зарегистрированным подписчикам BNC предоставляются услуги специальной поисковой машины SARA.
Bibliomania Bibliomania.com Ltd Публичная Интернет-библиотека, включающая в том числе классические справочные издания по английскому языку:
 - Roget's Thesaurus (тезаурус Роже),
 - Brewer's Phrase and Fable (фразеолог. словарь Брюера),
 - Hobson Jobson (индо-англ. этимолог. словарь),
 - Soule's Synonymes (словарь синонимов Шуле),
 - Webster's Dictionary (словарь Вебстера, изд. 1913 г.)
Англо-русский словарь Мультилекс™ 1.0 © MediaLingua Ltd. 2000 On-line версия знаменитого трёхтомного словаря НБАРС под редакцией проф. Э.М.Медниковой и акад. Ю.Д.Апресяна (250 000 словарных входов, 2 300 000 английских и русских слов).
ABBYY Lingvo 7.0 © ABBYY Software House, 1996-2001 Система русско-англ./англ.-русских электронных словарей широкой тематики для Windows 9x/NT/2000. Включает более 1200000 словарных статей, 18 общих и специальных словарей. Есть возможность on-line поиска.
Update!
Коллекция электронных словарей фирмы ПРОМТ
© ЗАО "ПРОект МТ", 1997-2002 Каталог программных продуктов и коллекция различных электронных словарей (англ., немецкий, франц., русск.) на любую тему. Все словари коммерческие.
Обратные и частотные словари русского языка Арнольд Ресурс включает доступные для загрузки в виде zip-архивов следующие словари исходных словоформ русского языка:
 - Обратный и обычный словари, образованные из словаря А. А. Зализняка (93392 слова).
 - Обратный и обычный словари Про-Линг (125723 слова).
 - Обратный, обычный и частотный словари, полученные в результате анализа произведений русской литературы XIX-XX веков (162232 слова).
Словарь сокращений русского языка © Студия Артемия Лебедева, 2000—2001 On-line словарь сокращений русского языка, включающий на сегодня более 53000 статей. При создании ресурса были использованы следующие издания:
 - "Словарь сокращений русского языка" (1984);
 - "Новый словарь сокращений русского языка" (1995);
 - "Новые сокращения в русском языке 1996—1999" (1999).
Конкорданс великих книг © William Williams, Jr., 1978 On-line конкорданс более 1000 всемирно известных произведений 150 классических авторов (на англ.яз.). Библия и Коран, Платон и Аристотель, Толстой и Достоевский...
New!
Гиперсловарь Ариадна
РосНИИ Искусственного Интеллекта Гиперсловарь "Ариадна" - проект создания универсальной среды для систем автоматической обработки русского текста. Основная работа проделана осенью 2001 года Пацкиным А.И. По форме гиперсловарь является базой данных Абриаль, включающей грамматическую компоненту на основе словаря А.А. Зализняка, позволяющую получать склонения и спряжения слов, и морфологическую компоненту. Программу работы со словарем можно скачать для локального использования отсюда.
New!
Санскрит
Максим Мейстер Бесплатная обучающая программа, позволяющая узнать азы санскрита - священного языка индийских брахманов. Совершенно не требовательна к аппаратуре и должна работать на любой Intel PC. Здесь же выложены шрифты для санскрита.
New!
Словари и энциклопедии для карманного ПК
Ряд словарей и энциклопедий в формате для карманного ПК.

История изменений

27.11.2000 Опубликована версия 1.0 каталога (31 описание).

24.12.2000 Опубликована версия 1.1 каталога (44 описания).

24.03.2001 Опубликована версия 1.2 каталога (51 описание).

25.04.2001 Опубликована версия 1.3 каталога (63 описания).

23.10.2001 Опубликована версия 1.4 каталога (75 описаний).

28.02.2002 Опубликована версия 1.5 каталога (84 описания).

16.07.2002 Опубликована версия 1.6 каталога (93 описания).

 

© Составитель — С.В.Логичев, 2000-2002
© Электронная публикация — РВБ, 2000-2002.
РВБ

 


© Электронная публикация — РВБ, 2000—2024. Составитель С.В. Логичев. Версия 2.0 от 04 февраля 2017 г.