metaclass: (Default)
metaclass ([personal profile] metaclass) wrote2014-04-09 10:59 pm

BigData - это когда вместо схемы мусор, а разработчики боятся джоинов?

http://habrahabr.ru/company/beeline/blog/218669/
В статье вроде все не сильно страшно, но вот вопрос - откуда такая боязнь join-ов?
Если там таблица c размерностями мизерного размера и помещается вместе с индексами в кэш, то join на нее достаточно дешевый, чтобы на него было пофиг совершенно, по сравнению с вычитыванием каких-нибудь сотен миллионов записей из таблицы фактов.

Впрочем, если в реляционную БД попытаться засунуть неструктурированные данные и попытаться их нормализовать, а еще не дай бог попытаться поверх этого сделать иммутабельность, то запросы действительно вырождаются в десятиэтажные джоины (и все равно я особой проблемы в этом не вижу).

[identity profile] sergiej.livejournal.com 2014-04-10 08:25 pm (UTC)(link)
Hadoop clusters are growing, and some operations teams are challenged with upgrading as many as 5000 HDFS nodes, storing more than 100 petabytes of data. Rolling Upgrades make this significantly easier to manage.
дайвате господа ораклисты, продемонстрируйте скорость работы like '%Ivanov%' поверх 100 петабайт :)

[identity profile] anonim-legion.livejournal.com 2014-04-11 09:45 am (UTC)(link)
А что, триграммый поиск уже не в моде?

[identity profile] sergiej.livejournal.com 2014-04-11 08:51 pm (UTC)(link)
Надеюсь, вы шутите?
Словарь то какой вы собрались использовать? Словарь всех номеров телефонов и словарь всех имён и фаилий и словарь всех IMEI и словарь всех банковских карточек, и всех адресов.

[identity profile] anonim-legion.livejournal.com 2014-04-12 03:16 am (UTC)(link)
Насколько я понимаю, подобный поиск можно применять к сырым данным и без словаря.

[identity profile] sergiej.livejournal.com 2014-04-13 09:34 pm (UTC)(link)
Для больших сырых данных - MapReduce, а это почти синоним бигдаты