metaclass: (Default)
[personal profile] metaclass
http://plumqqz.livejournal.com/364288.html
Я вот как-то не задумывался, что в приложениях, предназначенных для exUSSR базы данных с большим количеством текстовых полей в таблицах в win-1251 будут в два раза меньше чем в utf8.
Интересно, нельзя ли в базе сделать кастомную кодировку, аналогичную utf8, но чтобы в ней символы, цифры, русские и приравненные к ним буквы чтобы занимали 1 байт, а английские и прочие умляуты - 2 и прочее. Сразу бы вопрос размера базы снялся.

Date: 2013-04-19 05:29 am (UTC)
From: [identity profile] denisioru.livejournal.com
А что такое "в два раза"? У вас plain-text document storage? В остальных случаях разница win1251/utf-8 несущественна. Индексы по текстовым строкам пожырнее будут, но это не настолько критично, ибо все нормальные full-text движки используют уникод для хранения строк. Я не вижу причин создавать базы СЕЙЧАС в кодировке, отличной от utf-8 или строго уникодной. Потому что завтра появится название на китайском, французском или чешском (кстати у нас такие уже есть такие, и монгольский и прочие).

Date: 2013-04-19 05:51 am (UTC)
From: [identity profile] metaclass.livejournal.com
Ну вот все так говорят, а крокодил говорит, что на текстах заметная экономия.

Date: 2013-04-19 07:24 am (UTC)
From: [identity profile] denisioru.livejournal.com
Пруфы? И не надо синтетики, где одна таблица на стопицот миллионов записей с двумя полями, одно из которых текстовое и индексированное. Это ниразу не показатель. В реальной жизни разница единицы процентов, да и то надо постараться, чтобы она была.

Date: 2013-04-19 06:12 am (UTC)
From: [identity profile] plumqqz.livejournal.com
Потому что завтра появится название на китайском, французском или чешском (кстати у нас такие уже есть такие, и монгольский и прочие).
У меня брат - врач, и, грит, с определенного момента времени юзерыпациенты начали привозить выписки из историй болезни на китайском, тайском, арабском, турецком и т.п. Что с ними делать - он не знал, но в итоге пошел по вашему пути - просто подклеивал. Пусть будет, чё...

Date: 2013-04-20 07:22 am (UTC)
From: [identity profile] anonim-legion.livejournal.com
Я почти уверен, что если бы выписки были на английском - он тоже не знал бы, что с ними делать. Потому что учил немецкий, но его тоже не знает.

Врачи такие врачи.

Date: 2013-04-22 07:30 pm (UTC)
From: [identity profile] plumqqz.livejournal.com
Ну вот и думайте, к чему это все ведет.

Date: 2013-04-19 09:12 am (UTC)
From: [identity profile] tzirechnoy.livejournal.com
В юникоде, кстати, так и нет нормальной одновременной поддержки китайского и японского иероглифического.

Date: 2013-04-19 09:13 am (UTC)
From: [identity profile] denisioru.livejournal.com
Тем не менее уникод снимает львиную долю головняков с хранением национальных символов.

Profile

metaclass: (Default)
metaclass

April 2017

S M T W T F S
      1
2345678
9101112 131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 16th, 2025 07:46 am
Powered by Dreamwidth Studios