metaclass | Управление знаниями

На тему плохой документации и срача в гугле посетила мысль: а вообще, кто-нибудь пытался делать/использовать вместо тупого поиска по ключевым словам нечто вроде экспертной системы?

Проблема, вообще говоря, не только в глобальных интернетах, проблема "повторного использования знаний" иногда возникает даже на моих личных проектах, или там в проектах, где работают два-три человека - поиск по ключевым словам в баг-трекере помогает только для идентичных задач и только если тот кто ищет - знает/помнит эти ключевые слова. И знает что вообще, прежде чем кидаться что-то делать или разбираться в багах - нужно поискать аналоги в наработанных артефактах.
Я пока еще могу в голове удержать все что делал последние лет 10, но это временно, работы много, моск не казенный. Баг-трекер на все выполняемые задачи пока помогает, но надо бы как-то оформление и поиск задач или решений в нем улучшить до уровня "запасной моск с ассоциативной памятью".

Помню, когда-то в конце 90х ScienceSoft/InventionMachine (http://en.wikipedia.org/wiki/Invention_Machine) делали какой-то софт на основе ТРИЗ, но вроде для обычного конструирования. А для разработки программного обеспечения или более других целей что-нибудь такое сейчас существует?

Flat | Top-Level Comments Only

From:

falcrum.livejournal.com

Н-ну, мне поиск по SVN, в принципе, помогает. Но да, если бы оно понимало "найти вон ту неведомую @баную х$йню" - было бы гут.

From:

alll

Ага. А у нас к svn ещё и прикручен хук, который не даёт коммитить без камента с id бага в багтрекере. Ибо. ;)

From:

falcrum.livejournal.com

Аналогично. :)

From:

raydac.livejournal.com

считается что разаботка экспертной системы возьмет до трех лет, я не видел таких контор которые столь бы серьезно подходили что были бы готовы вкладываться.. сейчас даже в документацию не принято вкладываться, а ты об экспертной системе )))
p.s.
когда для мобил на яве разрабатывал, то при большом количестве моделей было много очень всяких ньюансов которые надо было учитывать при сборке под каждую, вышли из положения разработкой препроцессора и каждый модуль стал как бы своео рода экспертной системой по мобилам и вендорам, знающей как собрать саму себя под заданный девайс

From:

alll

Ну вот кстати было бы прикольно иметь именно костяк для наращивания мяса своими силами. И общение нубов со гуру проводить только в рамках сеанса добавления правил в экспертную систему, желательно за пределами видимости вторых первыми. За те пару-тройку лет, пока проект растёт, экспертная система и получится.

From:

raydac.livejournal.com

в россии это не то что бы нереально, это имхо просто невозможно вообще

From:

alll

Ну если уж у вас там получилось парное программирование внедрить на постоянной основе, то и это дело уже недалеко, принципы-то довольно похожи. ;)

From:

raydac.livejournal.com

ну парное программирование это другое, между этим и тем что топикстартер предлагает, расстояние как между землей и плутоном.. кстати вспомнилось мне что я hr из гугля про одну из витавших в голове идей в свое время озвучивал именно автоматическую систему сбора, организации и хранения интеллектуальной инфы по проектам, а то задолбало что каждый проект как в первый раз начинали делать постоянно

From:

alll

Парное программирование - это именно оно, если внимательно присмотрецо. Как по спектру решаемых задач, так и по степени безумия

From:

pascendi.livejournal.com

Для этой цели нужна система, работающая на кластеризации и построении онтологий. Система сканирует тексты, выделяет смысловые цепочки слов и строит кластеры из кусочков, близких по смыслу. Потом строится "лес" из деревьев этих кластеров. В результате тексты можно автоматически классифицировать. При этом поиск получается куда лучше, чем по ключевым словам, поскольку можно находить близкие по смыслу фрагменты, даже если заданного ключевого слова в них нет. И можно искать навигацией по кластерам.
Такие системы сейчас имеются, в том числе есть движки на свободном софте.

From:

nealar.livejournal.com

Такие системы сейчас имеются, в том числе есть движки на свободном софте.
По каким словам гуглить?

From:

pascendi.livejournal.com

Вот перечень наиболее проработанных решений (платных и свободных):

1. Компания «МедиаЛингва» -- «Следопыт», программа для смыслового поиска документов.
2. Компания «МедиаЛингва» -- «Либретто», программа для автоматического реферирования текстов.
3. Компания «Поиск-ИТ» -- http://visualworld.ru/referat.jsp – Рефератор, бесплатный сервис для реферирования текстов.
4. buzzlook.ru/ – предоставляет способ следить за информацией, включая упоминание персон, компаний, событий в таких элементах Web 2, как Facebook, «В Контакте», Livejournal, Flickr, YouTube и Twitter.
5. www.youscan.ru/ – платная система мониторинга и аналитики в социальных медиа собственной компании, конкурентов, персон, брендов и т.п. Имеет самые различные функции и тарифы, в том числе бесплатный вариант.
6. iqbuzz.ru/ – сервис мониторинга социальных медиа, включает даже большее число источников и более развитый функционал, чем Вuzzlook.
7. www.buzzware.ru/ – Позволяет осуществлять мониторинг и аналитику русскоязычных блогов, наиболее популярных и значимых форумов, социальных сетей и микроблогов.
8. topsy.com/ – поисковик по социальным сетям, прежде всего, по Twitter в реальном времени.
9. www.peerindex.net/ – на основе анализа социальных медиа, прежде всего Twitter, Facebook, LinkedIn, определяет размеры «социального капитала» или влиятельности компании, профессионала, публикации и т.п.
10. www.socialmention.com/ – платформа для поиска и анализа информации в социальных сетях, которая использует более 100 социальных медиа, включая сети, социальные закладки, блоги, форумы, социальные сервисы и многое другое.
11. www.postrank.com/ – платная система Postrank Intelligence, которая позволяет в режиме реального времени анализировать данные по любым темам, тенденциям, событиям, имеющим отношение к вам или вашему бизнесу.
12. www.trendrr.com/ — позволяет вести анализ и мониторинг, а также поиск по интересующим темам в социальных сетях, микроблогах, блогах, новостях, основных отраслевых источниках и видео. Кроме фактического анализа позволяет определять отношение к тому или иному объекту, либо субъекту.
13. trendistic.com/ – простая бесплатная система, позволяющая определять тренды в Twitter по любому объекту, субъекту или событию в режиме реального времени.
14. www.twitalyzer.com/ – Twitter. Система имеет бесплатный и платные тарифные планы.
15. http://www.alchemyapi.com/?ga=1023 -- набор прикладных программ, предоставляющих возможность семантического поиска, составления метаданных и автоматического аннотирования текстов, ориентированный на интернет-ресурсы и английский язык.

From:

pascendi.livejournal.com

Вот еще несколько интересных продуктов, которые можно использовать при разработке такой системы:

TextAnalyst 2.0
Научно-производственный инновационный центр "МикроСистемы"
Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки.

Apache OpenNLP
The Apache Software Foundation, Incubator OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).

MCR DLL v2.0
Dim
Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!

Ngram Statistics Package (NSP)
Ted Pedersen
© 2000-2004 Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.

АОТ (автоматическая обработка текста)
Алексей Сокирко
Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск., нем. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.

WordSmith Tools
© Mike Scott 2010
School of English, University of Liverpool WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML.
Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.

Программные продукты фирмы LingSoft
LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.

From:

gds.livejournal.com

радует, что такое есть. Схоронил.

From:

redplait.blogspot.com (from livejournal.com)

> Ngram Statistics Package (NSP)
я кстати пытался его приспособить для поиска всякого в дампах pdb файлов - крайне плохо оно работало. По большей части выдавало нерелеантный треш тащемта
пришлось специализированное решение на коленке накорябать (также на perl): http://redplait.blogspot.com/2011/02/partial-structs-matcher.html

From:

g-rub.livejournal.com

Для внутренних проектов по идее должна хорошо помогать wiki.
Чтобы она не была мертвой, нужно принять за правило всю техническую информацию (спеки, требования, заметки-пояснения) помещать именно там, а в багтрекере оперировать только ссылками на wiki.

From:

metaclass.livejournal.com

Да, было бы неплохо ввести такое.
Но конкретно по текущим срочным задачам баг-трекер сильно удобнее.

From:

norguhtar.livejournal.com

Посмотрите teambox. Там это как-то более естественно сделано.

From:

g-rub.livejournal.com

Это разные вещи с разным жизненным циклом.

Багтрекер -- для оперативного управления статусом задачи, ее сроками и т.п..
Все технические детали входных требований и итогового решения -- должны жить дольше чем тикет в багтрекере. И потому им место в wiki.

From:

aamonster.livejournal.com

Э... Тикет в багтрекере вообще-то живёт вечно.

From:

g-rub.livejournal.com

И часто кто-то копается в тикетах годичной давности, например?

По тикетам неудобно искать, в них много информационного мусора (переписка касательно сроков, ответственных за проблему, идентификации ее и т.п.), их неудобно организовывать в базу знаний.

From:

aamonster.livejournal.com

По необходимости. Мне доводилось.
Собственно, в тикетах и вики несколько разная информация, и таскать её туда-сюда смысла нет. Удобно, когда в wiki живет текущее состояние (проекта и ТЗ), и помещать туда то, что через неделю будет убрано - смысла нет. А то получаем инь, янь и срань: коммит-мессадж ссылается на багтрекер, багтрекер на вики, а там извольте копаться в истории редактирований страницы.

From:

g-rub.livejournal.com

Ну так а я о чем говорил? Короткоживущую информацию -- в тикет, долгоживущую -- на wiki, и побольше линков между ними.

Edited Date: 2012-03-20 02:26 pm (UTC)

From:

themech.livejournal.com

спросите у ребе Чеусова, он про инвеншн машин все знает

From:

vle.livejournal.com

С 97-ого года то, чем занимается Invention-Machine -- это уже не столько ТРИЗ,
пардон, сколько задачи компьютерной лингвистики. Вот ровно те, о которых
спрашивает хозяин блога. Да, это именно попытка не потерять те знания, которые уже давно как бы есть, где-то...

From:

nicka-startcev.livejournal.com

у меня такое ощущение, что написать такую систему ненамного проще, чем написать систему, которая бы по "краткому и содержащему ошибки пересказу своими словами сюжетной линии" искало бы литературные произведения.

From:

metaclass.livejournal.com

О. А ведь я так находил в гугле. С 5-10 итерации.

From:

nicka-startcev.livejournal.com

с 5-10?
я обычно или с 2-3 нахожу произведение, или даже после 10-20 не нахожу.

(где конкретно скачать в нужном формате - это другой вопрос)

From:

gineer.livejournal.com

Вон Симони со своим интеншонал программинг что-то подобное делает.
Но пока ничего открытого не предоставляет.

http://www.languageworkbenches.net/index.php?title=Main_Page

From:

kkirsanov.livejournal.com

Были попытки http://www.wolframalpha.com/

Но от ПО весьма далеко.

From:

perepertoz.livejournal.com

https://www.google.com/search?q=evernote ?

From:

perepertoz.livejournal.com

или в сторону чисто поиска https://www.google.com/search?q=sphynx%20search%20engine

From:

blackyblack.livejournal.com

Думаю, надстройка над еверноут может помочь.

From:

aamonster.livejournal.com

Первая мысль, которая приходит в голову - скармливать гуглу, у них вроде какие-то наработки в эту сторону есть.
Полуторная - открыть (частично) багтрекер для общего доступа и дать гуглу проиндексировать.

Flat | Top-Level Comments Only

Profile

metaclass

April 2017

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Page Summary

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Nov. 20th, 2025 12:13 am