metaclass | Отказоустойчивость и теория вероятности

А вот скажите, где бы почитать про первый сабж в совокупности со вторым?

А то я не совсем соображу, как работают с вероятностями событий типа "винт накрылся", если у нас есть только характеристики типа MTBF, а распределение вероятности сдохнуть в течение жизни винта я не знаю, причем не только количественно но и качественно (хотя и очевидно, что с временем эта вероятность нарастает, а MTBF это что-то вроде середины в оном распределении).

Хочу количественно сравнить разные варианты решения проблемы отказоустойчивости в случае "простой системы на 10-20 минут в день всем пофиг, но данные после физически выполненной операции терять неприемлемо, и желательно чтобы данные восстанавливались автоматически". Плюс еще иногда выполняемая автоматическая репликация этих данных на другой сервер, но канал связи с этим сервером есть не всегда, поэтому использовать его в качестве резервного нельзя, а репликация в случае умирания и восстановления одной из баз не должна нарушаться.

Что-то мне подсказывает, что я пытаюсь решать самодельными техническими средствами проблемы, которые нужно решать ~~жесточайшими пиздюлями персоналу выключающему компы~~организационными методами и покупкой надежного оборудования и софта. То бишь 1000 баксов на софт+10000 на сервер+100000 на оракл.

Flat | Top-Level Comments Only

А почему мы рассматриваем именно день? А не, например, "в один час из трех лет он сдохнет"?

Да ради бога, можно хоть фемтосекунды. На общую оценку приоритетов это не влияет. Да, это очень грубая оценка. Но физически её смысл вполне понятен. Если ты возьмешь часы, то ты просто уточнишь ситуацию в 24 раза. А я вот оцениваю вероятность события как "сдохнет сегодня или нет". Вот и вся разница.

Отказоустойчивость и теория вероятности

no subject

no subject