metaclass | В порядке безумия

В порядке безумия

http://plumqqz.livejournal.com/364288.html
Я вот как-то не задумывался, что в приложениях, предназначенных для exUSSR базы данных с большим количеством текстовых полей в таблицах в win-1251 будут в два раза меньше чем в utf8.
Интересно, нельзя ли в базе сделать кастомную кодировку, аналогичную utf8, но чтобы в ней символы, цифры, русские и приравненные к ним буквы чтобы занимали 1 байт, а английские и прочие умляуты - 2 и прочее. Сразу бы вопрос размера базы снялся.

Threaded | Flat

Хочется взять и уебать.
И так хватило безумия с кодировками. А хотите ада - жмите поля ppm.

Теоретически, никто не мешает. Заодно... э-э... обсфурцируешь... :)

ничё не понял, куда там что упирается, если размер в два раза больше

ребе, не останавливайтесь на полдороге - жмите уже текстовые поля потоковым компрессором
один чорт на перекодировку utf8r <-> utf8 процессор напрягать

Купите уже больше памяти/диска и не изобретайте костыли.

latin1 же )

Есть такая мудрая поговорка "с говна сметану собирать".

А что такое "в два раза"? У вас plain-text document storage? В остальных случаях разница win1251/utf-8 несущественна. Индексы по текстовым строкам пожырнее будут, но это не настолько критично, ибо все нормальные full-text движки используют уникод для хранения строк. Я не вижу причин создавать базы СЕЙЧАС в кодировке, отличной от utf-8 или строго уникодной. Потому что завтра появится название на китайском, французском или чешском (кстати у нас такие уже есть такие, и монгольский и прочие).

Слышал, люди пробовали в BTRFS со сжатием хранить и даже получали какой-то выигрыш.
На чистом BTRFS получается раза в полтора-два медленнее, чем в ext4, но зато, в BTRFS есть сжатие, и оно как-то что-то позволяет.
Я не пробовал.

Если весь сраный оркужающий мир не знает, как работать с разными кодировками -- то нет, нельзя.

А в постгрэссе, конечно, можно.

Я как-то реализовывал хранение русских строк в 5-ти битах на символ. И свой формат базы. Телефонный справочник для аппарата с очень мало мозгов.

Если надо цифры и буквы, которым нет аналогов в кириллице, можно ещё бит добавить :)

Хранить в нормальном UTF, чтоб русскому небыло обидно.
А вообще, это касается только БД с кучей текстов - полнотекстовый поиск и т.д. Но для этого случая реляцилнные БД как-то не очень.

Кто-нибудь, дайте Крокодилу ссылку: natishalom.typepad.com/nati_shaloms_blog/2010/03/memory-is-the-new-disk-for-the-enterprise.html

Пускай ужаснется.

Threaded | Flat

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject