Управление знаниями
На тему плохой документации и срача в гугле посетила мысль: а вообще, кто-нибудь пытался делать/использовать вместо тупого поиска по ключевым словам нечто вроде экспертной системы?
Проблема, вообще говоря, не только в глобальных интернетах, проблема "повторного использования знаний" иногда возникает даже на моих личных проектах, или там в проектах, где работают два-три человека - поиск по ключевым словам в баг-трекере помогает только для идентичных задач и только если тот кто ищет - знает/помнит эти ключевые слова. И знает что вообще, прежде чем кидаться что-то делать или разбираться в багах - нужно поискать аналоги в наработанных артефактах.
Я пока еще могу в голове удержать все что делал последние лет 10, но это временно, работы много, моск не казенный. Баг-трекер на все выполняемые задачи пока помогает, но надо бы как-то оформление и поиск задач или решений в нем улучшить до уровня "запасной моск с ассоциативной памятью".
Помню, когда-то в конце 90х ScienceSoft/InventionMachine (http://en.wikipedia.org/wiki/Invention_Machine) делали какой-то софт на основе ТРИЗ, но вроде для обычного конструирования. А для разработки программного обеспечения или более других целей что-нибудь такое сейчас существует?
Проблема, вообще говоря, не только в глобальных интернетах, проблема "повторного использования знаний" иногда возникает даже на моих личных проектах, или там в проектах, где работают два-три человека - поиск по ключевым словам в баг-трекере помогает только для идентичных задач и только если тот кто ищет - знает/помнит эти ключевые слова. И знает что вообще, прежде чем кидаться что-то делать или разбираться в багах - нужно поискать аналоги в наработанных артефактах.
Я пока еще могу в голове удержать все что делал последние лет 10, но это временно, работы много, моск не казенный. Баг-трекер на все выполняемые задачи пока помогает, но надо бы как-то оформление и поиск задач или решений в нем улучшить до уровня "запасной моск с ассоциативной памятью".
Помню, когда-то в конце 90х ScienceSoft/InventionMachine (http://en.wikipedia.org/wiki/Invention_Machine) делали какой-то софт на основе ТРИЗ, но вроде для обычного конструирования. А для разработки программного обеспечения или более других целей что-нибудь такое сейчас существует?
no subject
Такие системы сейчас имеются, в том числе есть движки на свободном софте.
no subject
По каким словам гуглить?
no subject
1. Компания «МедиаЛингва» -- «Следопыт», программа для смыслового поиска документов.
2. Компания «МедиаЛингва» -- «Либретто», программа для автоматического реферирования текстов.
3. Компания «Поиск-ИТ» -- http://visualworld.ru/referat.jsp – Рефератор, бесплатный сервис для реферирования текстов.
4. buzzlook.ru/ – предоставляет способ следить за информацией, включая упоминание персон, компаний, событий в таких элементах Web 2, как Facebook, «В Контакте», Livejournal, Flickr, YouTube и Twitter.
5. www.youscan.ru/ – платная система мониторинга и аналитики в социальных медиа собственной компании, конкурентов, персон, брендов и т.п. Имеет самые различные функции и тарифы, в том числе бесплатный вариант.
6. iqbuzz.ru/ – сервис мониторинга социальных медиа, включает даже большее число источников и более развитый функционал, чем Вuzzlook.
7. www.buzzware.ru/ – Позволяет осуществлять мониторинг и аналитику русскоязычных блогов, наиболее популярных и значимых форумов, социальных сетей и микроблогов.
8. topsy.com/ – поисковик по социальным сетям, прежде всего, по Twitter в реальном времени.
9. www.peerindex.net/ – на основе анализа социальных медиа, прежде всего Twitter, Facebook, LinkedIn, определяет размеры «социального капитала» или влиятельности компании, профессионала, публикации и т.п.
10. www.socialmention.com/ – платформа для поиска и анализа информации в социальных сетях, которая использует более 100 социальных медиа, включая сети, социальные закладки, блоги, форумы, социальные сервисы и многое другое.
11. www.postrank.com/ – платная система Postrank Intelligence, которая позволяет в режиме реального времени анализировать данные по любым темам, тенденциям, событиям, имеющим отношение к вам или вашему бизнесу.
12. www.trendrr.com/ — позволяет вести анализ и мониторинг, а также поиск по интересующим темам в социальных сетях, микроблогах, блогах, новостях, основных отраслевых источниках и видео. Кроме фактического анализа позволяет определять отношение к тому или иному объекту, либо субъекту.
13. trendistic.com/ – простая бесплатная система, позволяющая определять тренды в Twitter по любому объекту, субъекту или событию в режиме реального времени.
14. www.twitalyzer.com/ – Twitter. Система имеет бесплатный и платные тарифные планы.
15. http://www.alchemyapi.com/?ga=1023 -- набор прикладных программ, предоставляющих возможность семантического поиска, составления метаданных и автоматического аннотирования текстов, ориентированный на интернет-ресурсы и английский язык.
no subject
TextAnalyst 2.0
Научно-производственный инновационный центр "МикроСистемы"
Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки.
Apache OpenNLP
The Apache Software Foundation, Incubator OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).
MCR DLL v2.0
Dim
Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!
Ngram Statistics Package (NSP)
Ted Pedersen
© 2000-2004 Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.
АОТ (автоматическая обработка текста)
Алексей Сокирко
Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск., нем. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.
WordSmith Tools
© Mike Scott 2010
School of English, University of Liverpool WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML.
Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.
Программные продукты фирмы LingSoft
LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.
no subject
no subject
я кстати пытался его приспособить для поиска всякого в дампах pdb файлов - крайне плохо оно работало. По большей части выдавало нерелеантный треш тащемта
пришлось специализированное решение на коленке накорябать (также на perl): http://redplait.blogspot.com/2011/02/partial-structs-matcher.html