metaclass: (Default)
metaclass ([personal profile] metaclass) wrote2014-04-09 10:59 pm

BigData - это когда вместо схемы мусор, а разработчики боятся джоинов?

http://habrahabr.ru/company/beeline/blog/218669/
В статье вроде все не сильно страшно, но вот вопрос - откуда такая боязнь join-ов?
Если там таблица c размерностями мизерного размера и помещается вместе с индексами в кэш, то join на нее достаточно дешевый, чтобы на него было пофиг совершенно, по сравнению с вычитыванием каких-нибудь сотен миллионов записей из таблицы фактов.

Впрочем, если в реляционную БД попытаться засунуть неструктурированные данные и попытаться их нормализовать, а еще не дай бог попытаться поверх этого сделать иммутабельность, то запросы действительно вырождаются в десятиэтажные джоины (и все равно я особой проблемы в этом не вижу).

[identity profile] volodymir-k.livejournal.com 2014-04-10 07:07 am (UTC)(link)
ну и как ваши джойны будут работать по шардам?

[identity profile] metaclass.livejournal.com 2014-04-10 07:22 am (UTC)(link)
Скорее всего, мирными средствами никак, придется на сервере приложений собирать. Или копаться в дебрях какого-нибудь оракла, который это просто обязан уметь, за большие деньги :)

[identity profile] bagamut.livejournal.com 2014-04-10 08:03 am (UTC)(link)
а если все равно собирать надо так можно сразу бигдата собиралку поставить, там весь фокус что это все масштабируется, там же не просто один отчетик генерится, а тыщи их, параллельно

при этом и размер данных все время растет и и количество запросов растет

миллиард записей это мало, представь себе базу по покупкам и транзакциям какого нибудь Wallmart, миллионы покупателей, миллиарды транзакций, вошло, ушло и тп

[identity profile] tzirechnoy.livejournal.com 2014-04-10 08:51 am (UTC)(link)
Мелкие редкоменяющиеся справочники можно разложыть по всем шардам, и менять административно. Крупные редкоменяющиеся отношэния можно разложыть по всем шарпдам, и менять регулярно или иметь спецыальную процэдуру обновления.

[identity profile] permea-kra.livejournal.com 2014-04-11 04:52 pm (UTC)(link)
да ващемто ни параллельный merge sort на кластере, ни параллельный merge join на нем же каким-то космическим рокет-сайнсом не являются, поэтому реляционность сама по себе шардингу не помеха. Там скорее проблема в том, что в распространенное бесплатное это пока не запилили, ну и сетка в таком кластере должна быть очень веселой, чтобы петабайты гонять.