metaclass | BigData - это когда вместо схемы мусор, а разработчики боятся джоинов?

http://habrahabr.ru/company/beeline/blog/218669/
В статье вроде все не сильно страшно, но вот вопрос - откуда такая боязнь join-ов?
Если там таблица c размерностями мизерного размера и помещается вместе с индексами в кэш, то join на нее достаточно дешевый, чтобы на него было пофиг совершенно, по сравнению с вычитыванием каких-нибудь сотен миллионов записей из таблицы фактов.

Впрочем, если в реляционную БД попытаться засунуть неструктурированные данные и попытаться их нормализовать, а еще не дай бог попытаться поверх этого сделать иммутабельность, то запросы действительно вырождаются в десятиэтажные джоины (и все равно я особой проблемы в этом не вижу).

Flat | Top-Level Comments Only

"...Нужна другая архитектура базы данных. Если вам нужны гибкие запросы, то проще всего хранить данные неструктурированно — потому что для каждого нового запроса придётся иначе строить новую оптимальную структуру. Обычные базы данных направлены на максимальное быстродействие в рамках ограниченных вычислительных ресурсов...."

Переводим: NoSql, запись всего в кучу и последовательная обработка всего в лоб.
Так получается? :)

>Переводим: NoSql, запись всего в кучу и последовательная обработка всего в лоб.
>Так получается? :)
там ничего не сказано, никаких монго хадуп риак, поэтому думаю там либо пачка mysql-й либо тесктовые файлы

параллельная обработка, кластеры же

NoSQL для CRUD (через tables API), простые SELECTы на сервере, сорты, джойны, юнионы и прочая групповуха на стороне клиента.

Погодите, то есть я правильно понимаю, что куча данных тащится на клиент "как есть", чтобы потом их обрабатывать? А сеть не будет рыдать кровавыми слезами?

Фишка в том, чтобы фильтровать данные на сервере, а сортировать и агрегировать на клиенте. Ну и по возможности данные кэшировать. Например, если клиент делает новую сортировку/группировку того же набора данных, то незачем заново делать запрос серверу.

Ясно, спасибо. Тащемта, это каждый клиент превращается в маленький аппсервер. Может на невероятных объемах данных и имеет смысл. Я такие объемы видел только у сейсмиков, а там в РСУБД обычно тупо метаданные лежат, а все пятисотгигабайтные файлы сейсморазведки на лентах и дисках.

А как организовано хранение данных у спецслужб? Скайпы там всякие, гуглоплюсы, социальные сети.
Ведь это всё нужно хранить, отслеживать, кластеризовать, выделять тенденции, выявлять врагов.
Причём массово, в режиме онлайн, одновременно по всему миру.
Как там всё организовано технически? Ну, кроме своих охраняемых дата-центров и автономных источников энергии.

Хороший вопрос, но не по адресу ;)

BigData - это когда вместо схемы мусор, а разработчики боятся джоинов?

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject