Управление знаниями
Mar. 17th, 2012 10:08 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
На тему плохой документации и срача в гугле посетила мысль: а вообще, кто-нибудь пытался делать/использовать вместо тупого поиска по ключевым словам нечто вроде экспертной системы?
Проблема, вообще говоря, не только в глобальных интернетах, проблема "повторного использования знаний" иногда возникает даже на моих личных проектах, или там в проектах, где работают два-три человека - поиск по ключевым словам в баг-трекере помогает только для идентичных задач и только если тот кто ищет - знает/помнит эти ключевые слова. И знает что вообще, прежде чем кидаться что-то делать или разбираться в багах - нужно поискать аналоги в наработанных артефактах.
Я пока еще могу в голове удержать все что делал последние лет 10, но это временно, работы много, моск не казенный. Баг-трекер на все выполняемые задачи пока помогает, но надо бы как-то оформление и поиск задач или решений в нем улучшить до уровня "запасной моск с ассоциативной памятью".
Помню, когда-то в конце 90х ScienceSoft/InventionMachine (http://en.wikipedia.org/wiki/Invention_Machine) делали какой-то софт на основе ТРИЗ, но вроде для обычного конструирования. А для разработки программного обеспечения или более других целей что-нибудь такое сейчас существует?
Проблема, вообще говоря, не только в глобальных интернетах, проблема "повторного использования знаний" иногда возникает даже на моих личных проектах, или там в проектах, где работают два-три человека - поиск по ключевым словам в баг-трекере помогает только для идентичных задач и только если тот кто ищет - знает/помнит эти ключевые слова. И знает что вообще, прежде чем кидаться что-то делать или разбираться в багах - нужно поискать аналоги в наработанных артефактах.
Я пока еще могу в голове удержать все что делал последние лет 10, но это временно, работы много, моск не казенный. Баг-трекер на все выполняемые задачи пока помогает, но надо бы как-то оформление и поиск задач или решений в нем улучшить до уровня "запасной моск с ассоциативной памятью".
Помню, когда-то в конце 90х ScienceSoft/InventionMachine (http://en.wikipedia.org/wiki/Invention_Machine) делали какой-то софт на основе ТРИЗ, но вроде для обычного конструирования. А для разработки программного обеспечения или более других целей что-нибудь такое сейчас существует?
no subject
Date: 2012-03-17 07:15 am (UTC)no subject
Date: 2012-03-17 10:36 am (UTC)no subject
Date: 2012-03-17 11:01 am (UTC)no subject
Date: 2012-03-17 07:19 am (UTC)p.s.
когда для мобил на яве разрабатывал, то при большом количестве моделей было много очень всяких ньюансов которые надо было учитывать при сборке под каждую, вышли из положения разработкой препроцессора и каждый модуль стал как бы своео рода экспертной системой по мобилам и вендорам, знающей как собрать саму себя под заданный девайс
no subject
Date: 2012-03-17 04:35 pm (UTC)no subject
Date: 2012-03-17 04:42 pm (UTC)no subject
Date: 2012-03-17 04:51 pm (UTC)no subject
Date: 2012-03-17 04:56 pm (UTC)no subject
Date: 2012-03-17 05:21 pm (UTC)no subject
Date: 2012-03-17 07:37 am (UTC)Такие системы сейчас имеются, в том числе есть движки на свободном софте.
no subject
Date: 2012-03-17 09:52 am (UTC)По каким словам гуглить?
no subject
Date: 2012-03-17 10:03 am (UTC)1. Компания «МедиаЛингва» -- «Следопыт», программа для смыслового поиска документов.
2. Компания «МедиаЛингва» -- «Либретто», программа для автоматического реферирования текстов.
3. Компания «Поиск-ИТ» -- http://visualworld.ru/referat.jsp – Рефератор, бесплатный сервис для реферирования текстов.
4. buzzlook.ru/ – предоставляет способ следить за информацией, включая упоминание персон, компаний, событий в таких элементах Web 2, как Facebook, «В Контакте», Livejournal, Flickr, YouTube и Twitter.
5. www.youscan.ru/ – платная система мониторинга и аналитики в социальных медиа собственной компании, конкурентов, персон, брендов и т.п. Имеет самые различные функции и тарифы, в том числе бесплатный вариант.
6. iqbuzz.ru/ – сервис мониторинга социальных медиа, включает даже большее число источников и более развитый функционал, чем Вuzzlook.
7. www.buzzware.ru/ – Позволяет осуществлять мониторинг и аналитику русскоязычных блогов, наиболее популярных и значимых форумов, социальных сетей и микроблогов.
8. topsy.com/ – поисковик по социальным сетям, прежде всего, по Twitter в реальном времени.
9. www.peerindex.net/ – на основе анализа социальных медиа, прежде всего Twitter, Facebook, LinkedIn, определяет размеры «социального капитала» или влиятельности компании, профессионала, публикации и т.п.
10. www.socialmention.com/ – платформа для поиска и анализа информации в социальных сетях, которая использует более 100 социальных медиа, включая сети, социальные закладки, блоги, форумы, социальные сервисы и многое другое.
11. www.postrank.com/ – платная система Postrank Intelligence, которая позволяет в режиме реального времени анализировать данные по любым темам, тенденциям, событиям, имеющим отношение к вам или вашему бизнесу.
12. www.trendrr.com/ — позволяет вести анализ и мониторинг, а также поиск по интересующим темам в социальных сетях, микроблогах, блогах, новостях, основных отраслевых источниках и видео. Кроме фактического анализа позволяет определять отношение к тому или иному объекту, либо субъекту.
13. trendistic.com/ – простая бесплатная система, позволяющая определять тренды в Twitter по любому объекту, субъекту или событию в режиме реального времени.
14. www.twitalyzer.com/ – Twitter. Система имеет бесплатный и платные тарифные планы.
15. http://www.alchemyapi.com/?ga=1023 -- набор прикладных программ, предоставляющих возможность семантического поиска, составления метаданных и автоматического аннотирования текстов, ориентированный на интернет-ресурсы и английский язык.
no subject
Date: 2012-03-17 10:11 am (UTC)TextAnalyst 2.0
Научно-производственный инновационный центр "МикроСистемы"
Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки.
Apache OpenNLP
The Apache Software Foundation, Incubator OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).
MCR DLL v2.0
Dim
Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!
Ngram Statistics Package (NSP)
Ted Pedersen
© 2000-2004 Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.
АОТ (автоматическая обработка текста)
Алексей Сокирко
Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск., нем. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.
WordSmith Tools
© Mike Scott 2010
School of English, University of Liverpool WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML.
Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.
Программные продукты фирмы LingSoft
LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.
no subject
Date: 2012-03-17 03:16 pm (UTC)no subject
Date: 2012-03-19 06:18 pm (UTC)я кстати пытался его приспособить для поиска всякого в дампах pdb файлов - крайне плохо оно работало. По большей части выдавало нерелеантный треш тащемта
пришлось специализированное решение на коленке накорябать (также на perl): http://redplait.blogspot.com/2011/02/partial-structs-matcher.html
no subject
Date: 2012-03-17 07:43 am (UTC)Чтобы она не была мертвой, нужно принять за правило всю техническую информацию (спеки, требования, заметки-пояснения) помещать именно там, а в багтрекере оперировать только ссылками на wiki.
no subject
Date: 2012-03-17 08:09 am (UTC)Но конкретно по текущим срочным задачам баг-трекер сильно удобнее.
no subject
Date: 2012-03-17 09:11 am (UTC)no subject
Date: 2012-03-17 10:02 am (UTC)Багтрекер -- для оперативного управления статусом задачи, ее сроками и т.п..
Все технические детали входных требований и итогового решения -- должны жить дольше чем тикет в багтрекере. И потому им место в wiki.
no subject
Date: 2012-03-17 07:49 pm (UTC)no subject
Date: 2012-03-19 06:59 pm (UTC)По тикетам неудобно искать, в них много информационного мусора (переписка касательно сроков, ответственных за проблему, идентификации ее и т.п.), их неудобно организовывать в базу знаний.
no subject
Date: 2012-03-19 07:22 pm (UTC)Собственно, в тикетах и вики несколько разная информация, и таскать её туда-сюда смысла нет. Удобно, когда в wiki живет текущее состояние (проекта и ТЗ), и помещать туда то, что через неделю будет убрано - смысла нет. А то получаем инь, янь и срань: коммит-мессадж ссылается на багтрекер, багтрекер на вики, а там извольте копаться в истории редактирований страницы.
no subject
Date: 2012-03-20 02:25 pm (UTC)no subject
Date: 2012-03-17 08:50 am (UTC)no subject
Date: 2012-03-19 08:48 am (UTC)пардон, сколько задачи компьютерной лингвистики. Вот ровно те, о которых
спрашивает хозяин блога. Да, это именно попытка не потерять те знания, которые уже давно как бы есть, где-то...
no subject
Date: 2012-03-17 09:07 am (UTC)no subject
Date: 2012-03-17 09:30 am (UTC)no subject
Date: 2012-03-17 09:55 am (UTC)я обычно или с 2-3 нахожу произведение, или даже после 10-20 не нахожу.
(где конкретно скачать в нужном формате - это другой вопрос)
no subject
Date: 2012-03-17 09:27 am (UTC)Но пока ничего открытого не предоставляет.
http://www.languageworkbenches.net/index.php?title=Main_Page
no subject
Date: 2012-03-17 09:33 am (UTC)Но от ПО весьма далеко.
no subject
Date: 2012-03-17 09:58 am (UTC)no subject
Date: 2012-03-17 10:01 am (UTC)no subject
Date: 2012-03-17 04:14 pm (UTC)no subject
Date: 2012-03-17 07:51 pm (UTC)Полуторная - открыть (частично) багтрекер для общего доступа и дать гуглу проиндексировать.