metaclass: (Default)
metaclass ([personal profile] metaclass) wrote2012-03-17 10:08 am

Управление знаниями

На тему плохой документации и срача в гугле посетила мысль: а вообще, кто-нибудь пытался делать/использовать вместо тупого поиска по ключевым словам нечто вроде экспертной системы?

Проблема, вообще говоря, не только в глобальных интернетах, проблема "повторного использования знаний" иногда возникает даже на моих личных проектах, или там в проектах, где работают два-три человека - поиск по ключевым словам в баг-трекере помогает только для идентичных задач и только если тот кто ищет - знает/помнит эти ключевые слова. И знает что вообще, прежде чем кидаться что-то делать или разбираться в багах - нужно поискать аналоги в наработанных артефактах.
Я пока еще могу в голове удержать все что делал последние лет 10, но это временно, работы много, моск не казенный. Баг-трекер на все выполняемые задачи пока помогает, но надо бы как-то оформление и поиск задач или решений в нем улучшить до уровня "запасной моск с ассоциативной памятью".

Помню, когда-то в конце 90х ScienceSoft/InventionMachine (http://en.wikipedia.org/wiki/Invention_Machine) делали какой-то софт на основе ТРИЗ, но вроде для обычного конструирования. А для разработки программного обеспечения или более других целей что-нибудь такое сейчас существует?

[identity profile] pascendi.livejournal.com 2012-03-17 10:11 am (UTC)(link)
Вот еще несколько интересных продуктов, которые можно использовать при разработке такой системы:

TextAnalyst 2.0
Научно-производственный инновационный центр "МикроСистемы"
Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки.

Apache OpenNLP
The Apache Software Foundation, Incubator OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).

MCR DLL v2.0
Dim
Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!

Ngram Statistics Package (NSP)
Ted Pedersen
© 2000-2004 Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.

АОТ (автоматическая обработка текста)
Алексей Сокирко
Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск., нем. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.

WordSmith Tools
© Mike Scott 2010
School of English, University of Liverpool WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML.
Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.

Программные продукты фирмы LingSoft
LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.


[identity profile] gds.livejournal.com 2012-03-17 03:16 pm (UTC)(link)
радует, что такое есть. Схоронил.

[identity profile] redplait.blogspot.com (from livejournal.com) 2012-03-19 06:18 pm (UTC)(link)
> Ngram Statistics Package (NSP)
я кстати пытался его приспособить для поиска всякого в дампах pdb файлов - крайне плохо оно работало. По большей части выдавало нерелеантный треш тащемта
пришлось специализированное решение на коленке накорябать (также на perl): http://redplait.blogspot.com/2011/02/partial-structs-matcher.html