metaclass: (Default)
metaclass ([personal profile] metaclass) wrote2010-09-03 06:36 pm

Отказоустойчивость и теория вероятности

А вот скажите, где бы почитать про первый сабж в совокупности со вторым?

А то я не совсем соображу, как работают с вероятностями событий типа "винт накрылся", если у нас есть только характеристики типа MTBF, а распределение вероятности сдохнуть в течение жизни винта я не знаю, причем не только количественно но и качественно (хотя и очевидно, что с временем эта вероятность нарастает, а MTBF это что-то вроде середины в оном распределении).

Хочу количественно сравнить разные варианты решения проблемы отказоустойчивости в случае "простой системы на 10-20 минут в день всем пофиг, но данные после физически выполненной операции терять неприемлемо, и желательно чтобы данные восстанавливались автоматически". Плюс еще иногда выполняемая автоматическая репликация этих данных на другой сервер, но канал связи с этим сервером есть не всегда, поэтому использовать его в качестве резервного нельзя, а репликация в случае умирания и восстановления одной из баз не должна нарушаться.

Что-то мне подсказывает, что я пытаюсь решать самодельными техническими средствами проблемы, которые нужно решать жесточайшими пиздюлями персоналу выключающему компыорганизационными методами и покупкой надежного оборудования и софта. То бишь 1000 баксов на софт+10000 на сервер+100000 на оракл.

[identity profile] zelanton.livejournal.com 2010-09-03 07:32 pm (UTC)(link)
Не понял, а с чего это данные теряются за час?
Вы их не сразу комитите?
Херится база, которая реплицируется раз в час?
Херится веник?

[identity profile] metaclass.livejournal.com 2010-09-03 07:39 pm (UTC)(link)
Есть возможность следующих событий:
1) Комп в процессе работы выключают из сети или нажимают резет. Ставить базу на другой комп - нельзя по условиям сертификации и бессмысленно, т.к. другой будут выключать еще чаще. УПС поможет, но только в том случае, если не вырвут провод прямо из упса.
2) Может похерится веник.

Задача - не потерять закомиченные данные.

[identity profile] zelanton.livejournal.com 2010-09-03 07:41 pm (UTC)(link)
1) механически отключить кнопки ресета. Поставить UPS, который будет корректно завершать работу сервера.
2) RAID

вуаля

[identity profile] zelanton.livejournal.com 2010-09-03 07:42 pm (UTC)(link)
а упс к компу подключить с использованием суперклея

[identity profile] w00dy.livejournal.com 2010-09-03 07:47 pm (UTC)(link)
я думаю вам тут дейстительно нужны административные меры. Например ящик для компа и упса с розетками iec и rj-45.

PS Что у вас там за вандализм такой что провода прямо из компа дёргают? Бухгалтерам чайник некуда включить?

[identity profile] metaclass.livejournal.com 2010-09-04 07:16 am (UTC)(link)
Невменяемые работники, запертые в жестяной коробке с кучей оборудования и опасным производством, им эта обстановка выламывает даже те остатки мозгов, которые у них были.

[identity profile] fraks-nsk.livejournal.com 2010-09-05 04:34 am (UTC)(link)
А за нарушение условий эксплуатации оборудования еще никого там не дрючили? Рублищем.
Пару раз наказать - и все будет в порядке. Для доказательной базы поставить видеонаблюдение с записью.

[identity profile] permea-kra.livejournal.com 2010-09-04 05:31 am (UTC)(link)
0. отключить reset/power buttom. поставить на автовключение.
1. Купить фулл-тавер, привинтить упс внутри.
2. Таки райд. Либо две базы.

[identity profile] fraks-nsk.livejournal.com 2010-09-04 06:55 am (UTC)(link)
>> УПС поможет, но только в том случае, если не вырвут провод прямо из упса.

Хм... такте ощущение что сервер стоит прям рядом с бухгалтером и УПСов там нет.

Первейшие организационные методы
- помещение серверной с максимально ограниченным доступом
- отдельный выделенный сервер стоящий в серверной
- УПС

Это первейшие минимальные орг. действия.
Любые другие без этих первых - бессмысленны.

[identity profile] metaclass.livejournal.com 2010-09-04 07:31 am (UTC)(link)
1) Там нет серверной.
2) Система по условиям использования и сертификации стоит в одном единственном опечатанном компе, т.е. сервер ставить отдельный нельзя.

ну и прочая, и прочая. В общем, я ж пишу - адовы условия.

[identity profile] fraks-nsk.livejournal.com 2010-09-04 09:01 am (UTC)(link)
Измените условия сертификации.
Пусть будет не один комп а одна комната или один ящик. Закрытый и опломбированный.

[identity profile] black-angel-by.livejournal.com 2010-09-04 08:33 pm (UTC)(link)
ребе, для бекапов отлично подойдёт неттоп, засунутый ВНУТРЬ сервера. Если что - это устройство резервного копирования :)

[identity profile] black-angel-by.livejournal.com 2010-09-04 08:40 pm (UTC)(link)
не, я серьёзно. Можно найти тот, который удачно впишется в отсек 5"25.
А наезжать за по сути встроеный комп поидеи не должны, иначе народ с продвинутыми серверами (IPMI/iKVM) отгреб бы дополнительный гемморой за встроеный сервисный комп.

[identity profile] fraks-nsk.livejournal.com 2010-09-04 07:00 am (UTC)(link)
>> Ставить базу на другой комп - нельзя по условиям сертификации

А кто вам тогда разрешит менять железо и раскидывать данные по другим железкам?
Задача поставлена некорректно.

"Серверная" - это может быть отгороженный гипсокартоном угол, но обязательно с дверью пол замком.

[identity profile] metaclass.livejournal.com 2010-09-04 07:32 am (UTC)(link)
Железо мы как раз имеем право менять, у нас на оное пайцза от надзорных органов имеется.