metaclass | Amazon EMR

Наслушался сегодня зогбиватора про то, как его знакомые на Amazon EMR молотят жабой какой-то Machine Learning c финансово-маркетинговой аналитикой и сижу думаю, где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.

Flat | Top-Level Comments Only

From:

kurilka.livejournal.com

Если оно в I/O упирается - это значит, что оно фигово на отд. боксы делится?

theiced.livejournal.com

ну заебёшься ты террабайтную базу на отдельные боксы растаскивать.

bydl0coder.livejournal.com

Почему? Они ж сами умеют.

metaclass.livejournal.com

Это значит, что мне нужно или положить 20 одинаковых копий базы данных на 20 дисков+провод+контроллер, а затем обращаться только к нужным разным частям.
Или порезать ее на 20 частей разложенных по дискам заранее, как partitioning.

т.е. легко не делится, ок.
делать map (из EMR) не имея отдельных кусков как-то странно.

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

IT-redneck

Amazon EMR

Amazon EMR

no subject

no subject

no subject

no subject

no subject

Profile

April 2017

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags