Amazon EMR

Mar. 29th, 2013 02:43 am
metaclass: (Default)
[personal profile] metaclass
Наслушался сегодня зогбиватора про то, как его знакомые на Amazon EMR молотят жабой какой-то Machine Learning c финансово-маркетинговой аналитикой и сижу думаю, где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.

Date: 2013-03-29 04:55 am (UTC)
From: [identity profile] kurilka.livejournal.com
Если оно в I/O упирается - это значит, что оно фигово на отд. боксы делится?

Date: 2013-03-29 05:10 am (UTC)
From: [identity profile] theiced.livejournal.com
ну заебёшься ты террабайтную базу на отдельные боксы растаскивать.

Date: 2013-03-29 07:01 am (UTC)
From: [identity profile] bydl0coder.livejournal.com
Почему? Они ж сами умеют.

Date: 2013-03-29 07:01 am (UTC)
From: [identity profile] metaclass.livejournal.com
Это значит, что мне нужно или положить 20 одинаковых копий базы данных на 20 дисков+провод+контроллер, а затем обращаться только к нужным разным частям.
Или порезать ее на 20 частей разложенных по дискам заранее, как partitioning.


Date: 2013-03-29 07:51 am (UTC)
From: [identity profile] kurilka.livejournal.com
т.е. легко не делится, ок.
делать map (из EMR) не имея отдельных кусков как-то странно.

Profile

metaclass: (Default)
metaclass

April 2017

S M T W T F S
      1
2345678
9101112 131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 10th, 2025 11:17 am
Powered by Dreamwidth Studios