metaclass: (Default)
metaclass ([personal profile] metaclass) wrote2013-03-29 02:43 am

Amazon EMR

Наслушался сегодня зогбиватора про то, как его знакомые на Amazon EMR молотят жабой какой-то Machine Learning c финансово-маркетинговой аналитикой и сижу думаю, где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.

[identity profile] maxdz.livejournal.com 2013-03-29 12:35 am (UTC)(link)
>где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.

Я коллекционирую ХМЛ-фиды нескольких крупных букмекерских контор. Беру только теннис и футбол, 2 раза в минуту. Хоть собираю некруглосуточно - получается много. :)

[identity profile] theiced.livejournal.com 2013-03-29 03:33 am (UTC)(link)
но ты тупое говно и твоё мнени никого не интересует

[identity profile] maxdz.livejournal.com 2013-03-29 12:35 pm (UTC)(link)
Забавный ты. :)

Но я тебя пожалею - не напишу тебе с каким рейтом я сейчас работаю. Чтобы ты не захлебнулся какашками из собственной головы. :)

[identity profile] theiced.livejournal.com 2013-03-29 06:19 pm (UTC)(link)
ещё раз - ты тупое говно и всем похуй ты сосёшь хуй у нигров за два евро в час или три.

[identity profile] bydl0coder.livejournal.com 2013-03-29 01:48 am (UTC)(link)
Игры. У нас что-то вроде шести миллиардов строк в месяц.

Тьфу, не прочитал до конца. У нас тоже в I/O упирается.
Edited 2013-03-29 01:49 (UTC)

[identity profile] metaclass.livejournal.com 2013-03-29 06:58 am (UTC)(link)
Ага. Хоть ты логи Firebird туда засунь и анализируй, у меня больших размеров - разве что сырые данные эфира с SDR :)

[identity profile] theiced.livejournal.com 2013-03-29 03:34 am (UTC)(link)
да запросто - вон у нас геномы в воркерах считаются, хуле. вообще вариантов масса различных же.

[identity profile] metaclass.livejournal.com 2013-03-29 06:59 am (UTC)(link)
Вот геномы вроде да, там какая-то тяжелая вычислительная нагрузка.
Квантовую химию я не умею, разве что канадских линуксоидов пнуть - они по ней спецы, пусть стартапъ делают с расчетами в облаках :)

[identity profile] permea-kra.livejournal.com 2013-03-29 10:17 am (UTC)(link)
Тяжелая параллельная квантовая химия, равно как и физика, часто упирается даже не в процессор как таковой, а в сеть. Я как-то сомневаюсь, что в амазоновском облаке стоит инфинибанд на 300 гигабит.

[identity profile] kurilka.livejournal.com 2013-03-29 04:55 am (UTC)(link)
Если оно в I/O упирается - это значит, что оно фигово на отд. боксы делится?

[identity profile] theiced.livejournal.com 2013-03-29 05:10 am (UTC)(link)
ну заебёшься ты террабайтную базу на отдельные боксы растаскивать.

[identity profile] bydl0coder.livejournal.com 2013-03-29 07:01 am (UTC)(link)
Почему? Они ж сами умеют.

[identity profile] metaclass.livejournal.com 2013-03-29 07:01 am (UTC)(link)
Это значит, что мне нужно или положить 20 одинаковых копий базы данных на 20 дисков+провод+контроллер, а затем обращаться только к нужным разным частям.
Или порезать ее на 20 частей разложенных по дискам заранее, как partitioning.


[identity profile] kurilka.livejournal.com 2013-03-29 07:51 am (UTC)(link)
т.е. легко не делится, ок.
делать map (из EMR) не имея отдельных кусков как-то странно.

[identity profile] sleepy-drago.livejournal.com 2013-03-29 06:16 am (UTC)(link)
облачкам есть альтернативы. Например ящик с ~200 гиг оперативы и парой терабайт очень быстрых винтов. туда к тому же влазит ~50 ядер цпу. пока оно будет у них перекачиваться туда-обратно и биллить их за траффик у тебя оно уже посчитается. и цены на это дело давно уже не космические.

[identity profile] metaclass.livejournal.com 2013-03-29 07:04 am (UTC)(link)
200+50 ядер это где-то в 10-20 штук баксов встанет.
Для постоянного использования - ок, если нерегулярно, то похоже облака было бы лучше.
С перекачиванием - да, проще сразу туда складывать, по моему.

[identity profile] sleepy-drago.livejournal.com 2013-03-30 11:07 am (UTC)(link)
я думаю сильно зависит от того публичные данные считать или приватные. Если от утечки контора может разориться то вопрос где считать уже решен.
Меня в этом деле стремает то что для того чтобы попробовать будет ли оно все там работать нужны неизвестные расходы на софтописание.

[identity profile] theiced.livejournal.com 2013-03-29 12:03 pm (UTC)(link)
угуугу. а сколько будет стоять ящик с парой террабайт оперативы и парой тысяч процессоров и стоящий одновременно в яуропе (тм) и сша?

[identity profile] metaclass.livejournal.com 2013-03-29 12:11 pm (UTC)(link)
А сколько будет строить час полной загрузки такого ящика у омозона?

[identity profile] theiced.livejournal.com 2013-03-29 12:17 pm (UTC)(link)
копейки

[identity profile] nivanych.livejournal.com 2013-03-29 02:34 pm (UTC)(link)
http://selectel.ru/services/cloud/
У амазона, вроде, немного подешевле, но порядок цен тот же.

[identity profile] sleepy-drago.livejournal.com 2013-03-30 09:57 am (UTC)(link)
у них калькулятора интегральных расходов нет? или еще лучше "историй успеха" с цифрами в стиле за сколько бабла в месяц все крутится.

[identity profile] nivanych.livejournal.com 2013-03-30 10:04 am (UTC)(link)
Калькулятора, вроде бы, нет.
Истории были, но я не помню цифр. Помню, что совсем немного.
Я только собираюсь попробовать, мне просто пока не очень нужно.

[identity profile] sleepy-drago.livejournal.com 2013-03-30 09:56 am (UTC)(link)
ну ты бы спросил у бухгалтеров - может контора и не бомжует по облачкам а ты и не знаешь. У нас вон вчера чуток обновили билд ферму - добавили 4 ящика каждый по 8 цпу, 32 гб оперативки, ссдшки и тп. Причем когда я спрашивал брали за смешные деньги. И то у нас тут село не асфальтированное. В более важных местах это как расходы на семечки.