metaclass: (Default)
[personal profile] metaclass
На тему плохой документации и срача в гугле посетила мысль: а вообще, кто-нибудь пытался делать/использовать вместо тупого поиска по ключевым словам нечто вроде экспертной системы?

Проблема, вообще говоря, не только в глобальных интернетах, проблема "повторного использования знаний" иногда возникает даже на моих личных проектах, или там в проектах, где работают два-три человека - поиск по ключевым словам в баг-трекере помогает только для идентичных задач и только если тот кто ищет - знает/помнит эти ключевые слова. И знает что вообще, прежде чем кидаться что-то делать или разбираться в багах - нужно поискать аналоги в наработанных артефактах.
Я пока еще могу в голове удержать все что делал последние лет 10, но это временно, работы много, моск не казенный. Баг-трекер на все выполняемые задачи пока помогает, но надо бы как-то оформление и поиск задач или решений в нем улучшить до уровня "запасной моск с ассоциативной памятью".

Помню, когда-то в конце 90х ScienceSoft/InventionMachine (http://en.wikipedia.org/wiki/Invention_Machine) делали какой-то софт на основе ТРИЗ, но вроде для обычного конструирования. А для разработки программного обеспечения или более других целей что-нибудь такое сейчас существует?

Date: 2012-03-17 07:15 am (UTC)
From: [identity profile] falcrum.livejournal.com
Н-ну, мне поиск по SVN, в принципе, помогает. Но да, если бы оно понимало "найти вон ту неведомую @баную х$йню" - было бы гут.

Date: 2012-03-17 10:36 am (UTC)
From: [personal profile] alll
Ага. А у нас к svn ещё и прикручен хук, который не даёт коммитить без камента с id бага в багтрекере. Ибо. ;)

Date: 2012-03-17 11:01 am (UTC)
From: [identity profile] falcrum.livejournal.com
Аналогично. :)

Date: 2012-03-17 07:19 am (UTC)
From: [identity profile] raydac.livejournal.com
считается что разаботка экспертной системы возьмет до трех лет, я не видел таких контор которые столь бы серьезно подходили что были бы готовы вкладываться.. сейчас даже в документацию не принято вкладываться, а ты об экспертной системе )))
p.s.
когда для мобил на яве разрабатывал, то при большом количестве моделей было много очень всяких ньюансов которые надо было учитывать при сборке под каждую, вышли из положения разработкой препроцессора и каждый модуль стал как бы своео рода экспертной системой по мобилам и вендорам, знающей как собрать саму себя под заданный девайс

Date: 2012-03-17 04:35 pm (UTC)
From: [personal profile] alll
Ну вот кстати было бы прикольно иметь именно костяк для наращивания мяса своими силами. И общение нубов со гуру проводить только в рамках сеанса добавления правил в экспертную систему, желательно за пределами видимости вторых первыми. За те пару-тройку лет, пока проект растёт, экспертная система и получится.

Date: 2012-03-17 04:42 pm (UTC)
From: [identity profile] raydac.livejournal.com
в россии это не то что бы нереально, это имхо просто невозможно вообще

Date: 2012-03-17 04:51 pm (UTC)
From: [personal profile] alll
Ну если уж у вас там получилось парное программирование внедрить на постоянной основе, то и это дело уже недалеко, принципы-то довольно похожи. ;)

Date: 2012-03-17 04:56 pm (UTC)
From: [identity profile] raydac.livejournal.com
ну парное программирование это другое, между этим и тем что топикстартер предлагает, расстояние как между землей и плутоном.. кстати вспомнилось мне что я hr из гугля про одну из витавших в голове идей в свое время озвучивал именно автоматическую систему сбора, организации и хранения интеллектуальной инфы по проектам, а то задолбало что каждый проект как в первый раз начинали делать постоянно

Date: 2012-03-17 05:21 pm (UTC)
From: [personal profile] alll
Парное программирование - это именно оно, если внимательно присмотрецо. Как по спектру решаемых задач, так и по степени безумия

Date: 2012-03-17 07:37 am (UTC)
From: [identity profile] pascendi.livejournal.com
Для этой цели нужна система, работающая на кластеризации и построении онтологий. Система сканирует тексты, выделяет смысловые цепочки слов и строит кластеры из кусочков, близких по смыслу. Потом строится "лес" из деревьев этих кластеров. В результате тексты можно автоматически классифицировать. При этом поиск получается куда лучше, чем по ключевым словам, поскольку можно находить близкие по смыслу фрагменты, даже если заданного ключевого слова в них нет. И можно искать навигацией по кластерам.
Такие системы сейчас имеются, в том числе есть движки на свободном софте.

Date: 2012-03-17 09:52 am (UTC)
From: [identity profile] nealar.livejournal.com
Такие системы сейчас имеются, в том числе есть движки на свободном софте.
По каким словам гуглить?

Date: 2012-03-17 10:03 am (UTC)
From: [identity profile] pascendi.livejournal.com
Вот перечень наиболее проработанных решений (платных и свободных):

1. Компания «МедиаЛингва» -- «Следопыт», программа для смыслового поиска документов.
2. Компания «МедиаЛингва» -- «Либретто», программа для автоматического реферирования текстов.
3. Компания «Поиск-ИТ» -- http://visualworld.ru/referat.jsp – Рефератор, бесплатный сервис для реферирования текстов.
4. buzzlook.ru/ – предоставляет способ следить за информацией, включая упоминание персон, компаний, событий в таких элементах Web 2, как Facebook, «В Контакте», Livejournal, Flickr, YouTube и Twitter.
5. www.youscan.ru/ – платная система мониторинга и аналитики в социальных медиа собственной компании, конкурентов, персон, брендов и т.п. Имеет самые различные функции и тарифы, в том числе бесплатный вариант.
6. iqbuzz.ru/ – сервис мониторинга социальных медиа, включает даже большее число источников и более развитый функционал, чем Вuzzlook.
7. www.buzzware.ru/ – Позволяет осуществлять мониторинг и аналитику русскоязычных блогов, наиболее популярных и значимых форумов, социальных сетей и микроблогов.
8. topsy.com/ – поисковик по социальным сетям, прежде всего, по Twitter в реальном времени.
9. www.peerindex.net/ – на основе анализа социальных медиа, прежде всего Twitter, Facebook, LinkedIn, определяет размеры «социального капитала» или влиятельности компании, профессионала, публикации и т.п.
10. www.socialmention.com/ – платформа для поиска и анализа информации в социальных сетях, которая использует более 100 социальных медиа, включая сети, социальные закладки, блоги, форумы, социальные сервисы и многое другое.
11. www.postrank.com/ – платная система Postrank Intelligence, которая позволяет в режиме реального времени анализировать данные по любым темам, тенденциям, событиям, имеющим отношение к вам или вашему бизнесу.
12. www.trendrr.com/ — позволяет вести анализ и мониторинг, а также поиск по интересующим темам в социальных сетях, микроблогах, блогах, новостях, основных отраслевых источниках и видео. Кроме фактического анализа позволяет определять отношение к тому или иному объекту, либо субъекту.
13. trendistic.com/ – простая бесплатная система, позволяющая определять тренды в Twitter по любому объекту, субъекту или событию в режиме реального времени.
14. www.twitalyzer.com/ – Twitter. Система имеет бесплатный и платные тарифные планы.
15. http://www.alchemyapi.com/?ga=1023 -- набор прикладных программ, предоставляющих возможность семантического поиска, составления метаданных и автоматического аннотирования текстов, ориентированный на интернет-ресурсы и английский язык.

Date: 2012-03-17 10:11 am (UTC)
From: [identity profile] pascendi.livejournal.com
Вот еще несколько интересных продуктов, которые можно использовать при разработке такой системы:

TextAnalyst 2.0
Научно-производственный инновационный центр "МикроСистемы"
Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста.
Кроме отдельного продукта TextAnalyst также предлагается инструментарий разработчика TextAnalyst SDK, включающий функции лемматизации (приведения слов к нормальной форме) для русского и английского языков, построения частотных списков понятий, поиска слов в контексте и т.д.
Еще одна комонента, TextAnalyst Lib, может использоваться для пострения гипертекстовых электронных книг.
Все компоненты реализованы для Windows 95 и выше и доступны для бесплатной загрузки.

Apache OpenNLP
The Apache Software Foundation, Incubator OpenNLP - это организационный центр "open source" проектов, связанных с машинной обработкой естественного языка под эгидой Apache. OpenNLP предлагает обширный Java-инструментарий обработки текстов на основе методов машинного обучения. Он включает средства токенизации, выделения предложений, разметки частей речи, выделения имен собственных, разбора текста и разрешения перекрестных ссылок. Имеется документация на английском языке. Для скачивания доступен исходный код и бинарные компоненты (для запуска требуется установка Java VM).

MCR DLL v2.0
Dim
Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware!

Ngram Statistics Package (NSP)
Ted Pedersen
© 2000-2004 Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft.

АОТ (автоматическая обработка текста)
Алексей Сокирко
Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов:
- модуль графематического анализа текста;
- компоненты морфологического анализа для русск., нем. и англ.яз.;
- модуль автоматического уничтожения омонимии;
- модуль семантического анализа текста;
- система лингвистического поиска (конкорданс);
- различные тезаурусы и словники.
Для загрузки доступны freeware версии для Linux и Windows. Исходные коды для Linux доступны на условиях лицензии LGPL.

WordSmith Tools
© Mike Scott 2010
School of English, University of Liverpool WordSmith Tools - это многофункциональный программный комплекс для исследования поведения слов в текстах. Компонент WordList позволяет построить список отдельных слов или кластеров слов, упорядоченных по алфавиту или частоте. Компонент Concord используется для построения конкордансов. Компонент KeyWords позволяет построить список ключевых слов. Имеется настройка на тип языка в обрабатываемых текстах. Исходные тексты могут быть представлен в различных форматах, включая PDF, MS Word, HTML, XML или SGML.
Работает на платформах Windows 2K и старше, 32 или 64-битных версий. Для скачивания доступна бесплатная демо-версия.

Программные продукты фирмы LingSoft
LingSoft, Финляндия Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.


Date: 2012-03-17 03:16 pm (UTC)
From: [identity profile] gds.livejournal.com
радует, что такое есть. Схоронил.

Date: 2012-03-19 06:18 pm (UTC)
From: [identity profile] redplait.blogspot.com (from livejournal.com)
> Ngram Statistics Package (NSP)
я кстати пытался его приспособить для поиска всякого в дампах pdb файлов - крайне плохо оно работало. По большей части выдавало нерелеантный треш тащемта
пришлось специализированное решение на коленке накорябать (также на perl): http://redplait.blogspot.com/2011/02/partial-structs-matcher.html

Date: 2012-03-17 07:43 am (UTC)
From: [identity profile] g-rub.livejournal.com
Для внутренних проектов по идее должна хорошо помогать wiki.
Чтобы она не была мертвой, нужно принять за правило всю техническую информацию (спеки, требования, заметки-пояснения) помещать именно там, а в багтрекере оперировать только ссылками на wiki.

Date: 2012-03-17 08:09 am (UTC)
From: [identity profile] metaclass.livejournal.com
Да, было бы неплохо ввести такое.
Но конкретно по текущим срочным задачам баг-трекер сильно удобнее.

Date: 2012-03-17 09:11 am (UTC)
From: [identity profile] norguhtar.livejournal.com
Посмотрите teambox. Там это как-то более естественно сделано.

Date: 2012-03-17 10:02 am (UTC)
From: [identity profile] g-rub.livejournal.com
Это разные вещи с разным жизненным циклом.

Багтрекер -- для оперативного управления статусом задачи, ее сроками и т.п..
Все технические детали входных требований и итогового решения -- должны жить дольше чем тикет в багтрекере. И потому им место в wiki.

Date: 2012-03-17 07:49 pm (UTC)
From: [identity profile] aamonster.livejournal.com
Э... Тикет в багтрекере вообще-то живёт вечно.

Date: 2012-03-19 06:59 pm (UTC)
From: [identity profile] g-rub.livejournal.com
И часто кто-то копается в тикетах годичной давности, например?

По тикетам неудобно искать, в них много информационного мусора (переписка касательно сроков, ответственных за проблему, идентификации ее и т.п.), их неудобно организовывать в базу знаний.

Date: 2012-03-19 07:22 pm (UTC)
From: [identity profile] aamonster.livejournal.com
По необходимости. Мне доводилось.
Собственно, в тикетах и вики несколько разная информация, и таскать её туда-сюда смысла нет. Удобно, когда в wiki живет текущее состояние (проекта и ТЗ), и помещать туда то, что через неделю будет убрано - смысла нет. А то получаем инь, янь и срань: коммит-мессадж ссылается на багтрекер, багтрекер на вики, а там извольте копаться в истории редактирований страницы.

Date: 2012-03-20 02:25 pm (UTC)
From: [identity profile] g-rub.livejournal.com
Ну так а я о чем говорил? Короткоживущую информацию -- в тикет, долгоживущую -- на wiki, и побольше линков между ними.
Edited Date: 2012-03-20 02:26 pm (UTC)

Date: 2012-03-17 08:50 am (UTC)
From: [identity profile] themech.livejournal.com
спросите у ребе Чеусова, он про инвеншн машин все знает

Date: 2012-03-19 08:48 am (UTC)
From: [identity profile] vle.livejournal.com
С 97-ого года то, чем занимается Invention-Machine -- это уже не столько ТРИЗ,
пардон, сколько задачи компьютерной лингвистики. Вот ровно те, о которых
спрашивает хозяин блога. Да, это именно попытка не потерять те знания, которые уже давно как бы есть, где-то...

Date: 2012-03-17 09:07 am (UTC)
From: [identity profile] nicka-startcev.livejournal.com
у меня такое ощущение, что написать такую систему ненамного проще, чем написать систему, которая бы по "краткому и содержащему ошибки пересказу своими словами сюжетной линии" искало бы литературные произведения.

Date: 2012-03-17 09:30 am (UTC)
From: [identity profile] metaclass.livejournal.com
О. А ведь я так находил в гугле. С 5-10 итерации.

Date: 2012-03-17 09:55 am (UTC)
From: [identity profile] nicka-startcev.livejournal.com
с 5-10?
я обычно или с 2-3 нахожу произведение, или даже после 10-20 не нахожу.

(где конкретно скачать в нужном формате - это другой вопрос)

Date: 2012-03-17 09:27 am (UTC)
From: [identity profile] gineer.livejournal.com
Вон Симони со своим интеншонал программинг что-то подобное делает.
Но пока ничего открытого не предоставляет.

http://www.languageworkbenches.net/index.php?title=Main_Page

Date: 2012-03-17 09:33 am (UTC)
From: [identity profile] kkirsanov.livejournal.com
Были попытки http://www.wolframalpha.com/

Но от ПО весьма далеко.

Date: 2012-03-17 09:58 am (UTC)
From: [identity profile] perepertoz.livejournal.com
https://www.google.com/search?q=evernote ?

Date: 2012-03-17 10:01 am (UTC)
From: [identity profile] perepertoz.livejournal.com
или в сторону чисто поиска https://www.google.com/search?q=sphynx%20search%20engine

Date: 2012-03-17 04:14 pm (UTC)
From: [identity profile] blackyblack.livejournal.com
Думаю, надстройка над еверноут может помочь.

Date: 2012-03-17 07:51 pm (UTC)
From: [identity profile] aamonster.livejournal.com
Первая мысль, которая приходит в голову - скармливать гуглу, у них вроде какие-то наработки в эту сторону есть.
Полуторная - открыть (частично) багтрекер для общего доступа и дать гуглу проиндексировать.

Profile

metaclass: (Default)
metaclass

April 2017

S M T W T F S
      1
2345678
9101112 131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 14th, 2025 07:30 pm
Powered by Dreamwidth Studios