metaclass | BigData - это когда вместо схемы мусор, а разработчики боятся джоинов?

http://habrahabr.ru/company/beeline/blog/218669/
В статье вроде все не сильно страшно, но вот вопрос - откуда такая боязнь join-ов?
Если там таблица c размерностями мизерного размера и помещается вместе с индексами в кэш, то join на нее достаточно дешевый, чтобы на него было пофиг совершенно, по сравнению с вычитыванием каких-нибудь сотен миллионов записей из таблицы фактов.

Впрочем, если в реляционную БД попытаться засунуть неструктурированные данные и попытаться их нормализовать, а еще не дай бог попытаться поверх этого сделать иммутабельность, то запросы действительно вырождаются в десятиэтажные джоины (и все равно я особой проблемы в этом не вижу).

Flat | Top-Level Comments Only

Hadoop clusters are growing, and some operations teams are challenged with upgrading as many as 5000 HDFS nodes, storing more than 100 petabytes of data. Rolling Upgrades make this significantly easier to manage.
дайвате господа ораклисты, продемонстрируйте скорость работы like '%Ivanov%' поверх 100 петабайт :)

А что, триграммый поиск уже не в моде?

Надеюсь, вы шутите?
Словарь то какой вы собрались использовать? Словарь всех номеров телефонов и словарь всех имён и фаилий и словарь всех IMEI и словарь всех банковских карточек, и всех адресов.

Насколько я понимаю, подобный поиск можно применять к сырым данным и без словаря.

Для больших сырых данных - MapReduce, а это почти синоним бигдаты

BigData - это когда вместо схемы мусор, а разработчики боятся джоинов?

no subject

no subject

no subject

no subject

no subject