Amazon EMR
Mar. 29th, 2013 02:43 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Наслушался сегодня зогбиватора про то, как его знакомые на Amazon EMR молотят жабой какой-то Machine Learning c финансово-маркетинговой аналитикой и сижу думаю, где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.
no subject
Date: 2013-03-29 12:35 am (UTC)Я коллекционирую ХМЛ-фиды нескольких крупных букмекерских контор. Беру только теннис и футбол, 2 раза в минуту. Хоть собираю некруглосуточно - получается много. :)
no subject
Date: 2013-03-29 03:33 am (UTC)no subject
Date: 2013-03-29 12:35 pm (UTC)Но я тебя пожалею - не напишу тебе с каким рейтом я сейчас работаю. Чтобы ты не захлебнулся какашками из собственной головы. :)
no subject
Date: 2013-03-29 06:19 pm (UTC)no subject
Date: 2013-03-29 01:48 am (UTC)Тьфу, не прочитал до конца. У нас тоже в I/O упирается.
no subject
Date: 2013-03-29 06:58 am (UTC)no subject
Date: 2013-03-29 03:34 am (UTC)no subject
Date: 2013-03-29 06:59 am (UTC)Квантовую химию я не умею, разве что канадских линуксоидов пнуть - они по ней спецы, пусть стартапъ делают с расчетами в облаках :)
no subject
Date: 2013-03-29 10:17 am (UTC)no subject
Date: 2013-03-29 04:55 am (UTC)no subject
Date: 2013-03-29 05:10 am (UTC)no subject
Date: 2013-03-29 07:01 am (UTC)no subject
Date: 2013-03-29 07:01 am (UTC)Или порезать ее на 20 частей разложенных по дискам заранее, как partitioning.
no subject
Date: 2013-03-29 07:51 am (UTC)делать map (из EMR) не имея отдельных кусков как-то странно.
no subject
Date: 2013-03-29 06:16 am (UTC)no subject
Date: 2013-03-29 07:04 am (UTC)Для постоянного использования - ок, если нерегулярно, то похоже облака было бы лучше.
С перекачиванием - да, проще сразу туда складывать, по моему.
no subject
Date: 2013-03-30 11:07 am (UTC)Меня в этом деле стремает то что для того чтобы попробовать будет ли оно все там работать нужны неизвестные расходы на софтописание.
no subject
Date: 2013-03-29 12:03 pm (UTC)no subject
Date: 2013-03-29 12:11 pm (UTC)no subject
Date: 2013-03-29 12:17 pm (UTC)no subject
Date: 2013-03-29 02:34 pm (UTC)У амазона, вроде, немного подешевле, но порядок цен тот же.
no subject
Date: 2013-03-30 09:57 am (UTC)no subject
Date: 2013-03-30 10:04 am (UTC)Истории были, но я не помню цифр. Помню, что совсем немного.
Я только собираюсь попробовать, мне просто пока не очень нужно.
no subject
Date: 2013-03-30 09:56 am (UTC)