Amazon EMR
Наслушался сегодня зогбиватора про то, как его знакомые на Amazon EMR молотят жабой какой-то Machine Learning c финансово-маркетинговой аналитикой и сижу думаю, где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.
no subject
Я коллекционирую ХМЛ-фиды нескольких крупных букмекерских контор. Беру только теннис и футбол, 2 раза в минуту. Хоть собираю некруглосуточно - получается много. :)
no subject
no subject
Но я тебя пожалею - не напишу тебе с каким рейтом я сейчас работаю. Чтобы ты не захлебнулся какашками из собственной головы. :)
no subject
no subject
Тьфу, не прочитал до конца. У нас тоже в I/O упирается.
no subject
no subject
no subject
Квантовую химию я не умею, разве что канадских линуксоидов пнуть - они по ней спецы, пусть стартапъ делают с расчетами в облаках :)
no subject
no subject
no subject
no subject
no subject
Или порезать ее на 20 частей разложенных по дискам заранее, как partitioning.
no subject
делать map (из EMR) не имея отдельных кусков как-то странно.
no subject
no subject
Для постоянного использования - ок, если нерегулярно, то похоже облака было бы лучше.
С перекачиванием - да, проще сразу туда складывать, по моему.
no subject
Меня в этом деле стремает то что для того чтобы попробовать будет ли оно все там работать нужны неизвестные расходы на софтописание.
no subject
no subject
no subject
no subject
У амазона, вроде, немного подешевле, но порядок цен тот же.
no subject
no subject
Истории были, но я не помню цифр. Помню, что совсем немного.
Я только собираюсь попробовать, мне просто пока не очень нужно.
no subject