metaclass: (Default)
metaclass ([personal profile] metaclass) wrote2016-07-29 10:51 am

Postgresql в убере

https://eng.uber.com/mysql-migration/
http://postgresql.nabble.com/Why-we-lost-Uber-as-a-user-td5913417.html

Занятное чтиво про заморочки MVCC и реализации индексов в postgresql.
Все бы это хорошо, но я не понимаю один момент - почему они сравнивают только физическую репликацию (передачу изменений в страницах БД) и репликацию передачей исполняемых запросов?
Есть же вариант "передавать логические изменения в во всех измененных записях в порядке их коммита". Т.е. в таком варианте проблемы с недетерминированным выполнением запросов отсутствуют, но размер передаваемых данных заметно меньше, чем в случае "передавать весь WAL".

[identity profile] plumqqz.livejournal.com 2016-07-29 08:25 am (UTC)(link)
У них там технарь сменился, вот и. Обычный хипстеж.

[identity profile] jakobz.livejournal.com 2016-07-29 09:51 am (UTC)(link)
Вон чуваки их бинарного лога посгреса выгребают логические изменения и кладут в кафку
http://www.confluent.io/blog/bottled-water-real-time-integration-of-postgresql-and-kafka/

Я вообще думаю что на замену "мы выбрали одну БД и трахаемся с кэшами", грядет "срем в очередь, откуда одни куски летят в РСУБД, другие в Elastic, третьи - сразу в in-memory cache, и еще в аналитику".

Т,е. transaction log на той же кафке должен стать главным узлом, а не БД, которая умеет всего понемногу и плохо.

Хотя именно что РСУБД на входе в очередь все равно большинству потребуется. Чисто для OLTP-целей - чтобы reference integrity была, и прочая consistency.

Так что как по мне, все эти хипстерские самодельные репликации как в MSSQL - в жопу. БД должна уметь шипать логический transaction log в понятном другим виде, который будет уметь жрать не только эта самая БД, а еще куча всего вокруг. И Postgre делает правильно как всегда, а MSSQL как всегда - хипстерское попсовое говно ради сиюминутных бенчмарков.
Edited 2016-07-29 09:53 (UTC)

[identity profile] anonim-legion.livejournal.com 2016-07-29 05:18 pm (UTC)(link)
Из статьи:

Depending on how it’s written, the code may implicitly have a database transaction that’s held open until after the email finishes sending. While it’s always bad form to let your code hold open database transactions while performing unrelated blocking I/O, the reality is that most engineers are not database experts and may not always understand this problem, especially when using an ORM that obscures low-level details like open transactions.

Первое выделенное вообще чудесно. Я не столь давно встретил код на C# и EntityFramework, который увеличивал счетчик голосования и выглядел примерно как:

using(var db = new DbContext())
{
var vote = db.getVoteById(id);
vote.count++;
db.SaveChanges();
}

Этот код разумеется рушился при конкурентном обновлении. До того, как начать падать, оно проработало примерно год.

А вся беда в том, что в айти отсутствует стремление к специализации. Сама субкультура подталкивает людей к тому, чтобы они били себя пяткой в грудь и говорили, что все знают и умеют, и занимались не своим делом. Вместо того, чтобы честно сказать "я это не знаю, и делать не буду, пока не узнаю, это потребует длительного времени, идите нах".

Но и второе тоже хорошо. ORM, которые явно держат транзакции - встречаются редко. И уж точно в них не полезет разработчик без опыта.