Amazon EMR

Mar. 29th, 2013 02:43 am
metaclass: (Default)
[personal profile] metaclass
Наслушался сегодня зогбиватора про то, как его знакомые на Amazon EMR молотят жабой какой-то Machine Learning c финансово-маркетинговой аналитикой и сижу думаю, где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.
А то получается, что у меня, например, похожая аналитика всегда упирается в дисковый i/o и глобального смысла в том, чтобы закачивать данные на S3 и оттуда их уже молотить на EMR, я не наблюдаю.
Вот если бы какие-нибудь десятки-сотни гигабайт данных от независимых источников сразу туда складывать, препроцессить и забирать обработанные - наверно имело бы смысл.

Date: 2013-03-29 12:35 am (UTC)
From: [identity profile] maxdz.livejournal.com
>где взять столько данных и тяжелой по CPU, но параллелизуемой аналитики, чтобы имело смысл попробовать там что-нибудь посчитать.

Я коллекционирую ХМЛ-фиды нескольких крупных букмекерских контор. Беру только теннис и футбол, 2 раза в минуту. Хоть собираю некруглосуточно - получается много. :)

Date: 2013-03-29 03:33 am (UTC)
From: [identity profile] theiced.livejournal.com
но ты тупое говно и твоё мнени никого не интересует

Date: 2013-03-29 12:35 pm (UTC)
From: [identity profile] maxdz.livejournal.com
Забавный ты. :)

Но я тебя пожалею - не напишу тебе с каким рейтом я сейчас работаю. Чтобы ты не захлебнулся какашками из собственной головы. :)

Date: 2013-03-29 06:19 pm (UTC)
From: [identity profile] theiced.livejournal.com
ещё раз - ты тупое говно и всем похуй ты сосёшь хуй у нигров за два евро в час или три.

Date: 2013-03-29 01:48 am (UTC)
From: [identity profile] bydl0coder.livejournal.com
Игры. У нас что-то вроде шести миллиардов строк в месяц.

Тьфу, не прочитал до конца. У нас тоже в I/O упирается.
Edited Date: 2013-03-29 01:49 am (UTC)

Date: 2013-03-29 06:58 am (UTC)
From: [identity profile] metaclass.livejournal.com
Ага. Хоть ты логи Firebird туда засунь и анализируй, у меня больших размеров - разве что сырые данные эфира с SDR :)

Date: 2013-03-29 03:34 am (UTC)
From: [identity profile] theiced.livejournal.com
да запросто - вон у нас геномы в воркерах считаются, хуле. вообще вариантов масса различных же.

Date: 2013-03-29 06:59 am (UTC)
From: [identity profile] metaclass.livejournal.com
Вот геномы вроде да, там какая-то тяжелая вычислительная нагрузка.
Квантовую химию я не умею, разве что канадских линуксоидов пнуть - они по ней спецы, пусть стартапъ делают с расчетами в облаках :)

Date: 2013-03-29 10:17 am (UTC)
From: [identity profile] permea-kra.livejournal.com
Тяжелая параллельная квантовая химия, равно как и физика, часто упирается даже не в процессор как таковой, а в сеть. Я как-то сомневаюсь, что в амазоновском облаке стоит инфинибанд на 300 гигабит.

Date: 2013-03-29 04:55 am (UTC)
From: [identity profile] kurilka.livejournal.com
Если оно в I/O упирается - это значит, что оно фигово на отд. боксы делится?

Date: 2013-03-29 05:10 am (UTC)
From: [identity profile] theiced.livejournal.com
ну заебёшься ты террабайтную базу на отдельные боксы растаскивать.

Date: 2013-03-29 07:01 am (UTC)
From: [identity profile] bydl0coder.livejournal.com
Почему? Они ж сами умеют.

Date: 2013-03-29 07:01 am (UTC)
From: [identity profile] metaclass.livejournal.com
Это значит, что мне нужно или положить 20 одинаковых копий базы данных на 20 дисков+провод+контроллер, а затем обращаться только к нужным разным частям.
Или порезать ее на 20 частей разложенных по дискам заранее, как partitioning.


Date: 2013-03-29 07:51 am (UTC)
From: [identity profile] kurilka.livejournal.com
т.е. легко не делится, ок.
делать map (из EMR) не имея отдельных кусков как-то странно.

Date: 2013-03-29 06:16 am (UTC)
From: [identity profile] sleepy-drago.livejournal.com
облачкам есть альтернативы. Например ящик с ~200 гиг оперативы и парой терабайт очень быстрых винтов. туда к тому же влазит ~50 ядер цпу. пока оно будет у них перекачиваться туда-обратно и биллить их за траффик у тебя оно уже посчитается. и цены на это дело давно уже не космические.

Date: 2013-03-29 07:04 am (UTC)
From: [identity profile] metaclass.livejournal.com
200+50 ядер это где-то в 10-20 штук баксов встанет.
Для постоянного использования - ок, если нерегулярно, то похоже облака было бы лучше.
С перекачиванием - да, проще сразу туда складывать, по моему.

Date: 2013-03-30 11:07 am (UTC)
From: [identity profile] sleepy-drago.livejournal.com
я думаю сильно зависит от того публичные данные считать или приватные. Если от утечки контора может разориться то вопрос где считать уже решен.
Меня в этом деле стремает то что для того чтобы попробовать будет ли оно все там работать нужны неизвестные расходы на софтописание.

Date: 2013-03-29 12:03 pm (UTC)
From: [identity profile] theiced.livejournal.com
угуугу. а сколько будет стоять ящик с парой террабайт оперативы и парой тысяч процессоров и стоящий одновременно в яуропе (тм) и сша?

Date: 2013-03-29 12:11 pm (UTC)
From: [identity profile] metaclass.livejournal.com
А сколько будет строить час полной загрузки такого ящика у омозона?

Date: 2013-03-29 12:17 pm (UTC)
From: [identity profile] theiced.livejournal.com
копейки

Date: 2013-03-29 02:34 pm (UTC)
From: [identity profile] nivanych.livejournal.com
http://selectel.ru/services/cloud/
У амазона, вроде, немного подешевле, но порядок цен тот же.

Date: 2013-03-30 09:57 am (UTC)
From: [identity profile] sleepy-drago.livejournal.com
у них калькулятора интегральных расходов нет? или еще лучше "историй успеха" с цифрами в стиле за сколько бабла в месяц все крутится.

Date: 2013-03-30 10:04 am (UTC)
From: [identity profile] nivanych.livejournal.com
Калькулятора, вроде бы, нет.
Истории были, но я не помню цифр. Помню, что совсем немного.
Я только собираюсь попробовать, мне просто пока не очень нужно.

Date: 2013-03-30 09:56 am (UTC)
From: [identity profile] sleepy-drago.livejournal.com
ну ты бы спросил у бухгалтеров - может контора и не бомжует по облачкам а ты и не знаешь. У нас вон вчера чуток обновили билд ферму - добавили 4 ящика каждый по 8 цпу, 32 гб оперативки, ссдшки и тп. Причем когда я спрашивал брали за смешные деньги. И то у нас тут село не асфальтированное. В более важных местах это как расходы на семечки.

Profile

metaclass: (Default)
metaclass

April 2017

S M T W T F S
      1
2345678
9101112 131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 8th, 2025 02:39 am
Powered by Dreamwidth Studios