metaclass: (Default)
metaclass ([personal profile] metaclass) wrote2010-09-03 06:36 pm

Отказоустойчивость и теория вероятности

А вот скажите, где бы почитать про первый сабж в совокупности со вторым?

А то я не совсем соображу, как работают с вероятностями событий типа "винт накрылся", если у нас есть только характеристики типа MTBF, а распределение вероятности сдохнуть в течение жизни винта я не знаю, причем не только количественно но и качественно (хотя и очевидно, что с временем эта вероятность нарастает, а MTBF это что-то вроде середины в оном распределении).

Хочу количественно сравнить разные варианты решения проблемы отказоустойчивости в случае "простой системы на 10-20 минут в день всем пофиг, но данные после физически выполненной операции терять неприемлемо, и желательно чтобы данные восстанавливались автоматически". Плюс еще иногда выполняемая автоматическая репликация этих данных на другой сервер, но канал связи с этим сервером есть не всегда, поэтому использовать его в качестве резервного нельзя, а репликация в случае умирания и восстановления одной из баз не должна нарушаться.

Что-то мне подсказывает, что я пытаюсь решать самодельными техническими средствами проблемы, которые нужно решать жесточайшими пиздюлями персоналу выключающему компыорганизационными методами и покупкой надежного оборудования и софта. То бишь 1000 баксов на софт+10000 на сервер+100000 на оракл.

(Anonymous) 2010-09-03 06:55 pm (UTC)(link)
Если данных не очень много - timesten - будет очень быстро, с репликацией и просто ставить. Но дорого.. Но можно скачать бесплатно - лицензирование на совести пользователя. Можно разработаь на нем, и обязать покупать его заказчика.
Для разработки и тестирования большинство продуктов оракла бесплатны.

[identity profile] permea-kra.livejournal.com 2010-09-03 07:05 pm (UTC)(link)
Прими экспонециальный закон распада, как у радиоактивного изотопа.

[identity profile] w00dy.livejournal.com 2010-09-03 07:10 pm (UTC)(link)
вместо одного веника поставить 5 или 6 в raid6, протянуть резервный канал для репликации, рядом поставить второй сервер для бекапов и негра с мачете для желающих отключить сервак с розетки. Это дешевле чем 100штук за оракл :)

[identity profile] zelanton.livejournal.com 2010-09-03 07:17 pm (UTC)(link)
оракл.
вашу мать.
Что у вас там за мега-задачи которые нельзя регулярным ночным бэкапом за несколько сотен баксов решить?
Вычислительный центр Беларусь банка? Белаз? Белкалий? Впрочем последние два на MSSQL на моей памяти.
У нас тут немелкие заводы случается на интербэйзах видеть - и ничего.

[identity profile] metaclass.livejournal.com 2010-09-03 07:27 pm (UTC)(link)
Ну толку мне от регулярного ночного бэкапа, если данные за час работы мне потом придется два дня выцарапывать ручками из чеков и фискальной памяти, чтобы бухгалтерия с налоговой не разошлась?
Если шо, оно сейчас так и работает - с регулярными бэкапами и тому подобным. За последние 12 лет финансовые данные ни разу не терялись, но вот ебля с восстановлением эмпирическими методами пару раз была.
А я хочу сделать, чтобы а) восстанавливалось само б) без вуду-знаний

[identity profile] zelanton.livejournal.com 2010-09-03 07:29 pm (UTC)(link)
Кстати, ребе, добавьте туда ещё дизель-генератор, блок аккумуляторов, мощные стабилизаторы, топливохранилище и автоматику ввода резерва. Гыгы, мне сейчас как раз дома делают.

[identity profile] metaclass.livejournal.com 2010-09-03 07:32 pm (UTC)(link)
Такого нету даже на главном сервере тут в минске, не говоря уже о тех объектах в ебенях где оно будет работать.

[identity profile] zelanton.livejournal.com 2010-09-03 07:32 pm (UTC)(link)
Не понял, а с чего это данные теряются за час?
Вы их не сразу комитите?
Херится база, которая реплицируется раз в час?
Херится веник?

[identity profile] oldmann.livejournal.com 2010-09-03 07:37 pm (UTC)(link)
ребе, реальные данные по отказам покупаются у аналитиков типа IDC, и стоят под 50k$ за отчет по одному вендору, на минуточку.

[identity profile] metaclass.livejournal.com 2010-09-03 07:39 pm (UTC)(link)
Есть возможность следующих событий:
1) Комп в процессе работы выключают из сети или нажимают резет. Ставить базу на другой комп - нельзя по условиям сертификации и бессмысленно, т.к. другой будут выключать еще чаще. УПС поможет, но только в том случае, если не вырвут провод прямо из упса.
2) Может похерится веник.

Задача - не потерять закомиченные данные.

[identity profile] zelanton.livejournal.com 2010-09-03 07:40 pm (UTC)(link)
и что, поставить UPS который будет корректно завершать работу сервера при пропадании ысктрычества + RAID 1 никак нельзя?

[identity profile] zelanton.livejournal.com 2010-09-03 07:41 pm (UTC)(link)
1) механически отключить кнопки ресета. Поставить UPS, который будет корректно завершать работу сервера.
2) RAID

вуаля

[identity profile] metaclass.livejournal.com 2010-09-03 07:42 pm (UTC)(link)
Давно хочу посмотреть на лица оных клиентов, когда они узнают сколько реально стоит нормальное внедрение всей той срани, которую я тут для них делаю на коленке.

[identity profile] zelanton.livejournal.com 2010-09-03 07:42 pm (UTC)(link)
а упс к компу подключить с использованием суперклея

[identity profile] metaclass.livejournal.com 2010-09-03 07:45 pm (UTC)(link)
И плюс система мониторинга состояния рейдов на всех объектах.
УПС не поможет, т.к. провод вырвут из компа.

[identity profile] metaclass.livejournal.com 2010-09-03 07:47 pm (UTC)(link)
Кстати, еще проблема: купить UPS с нормальным интерфейсом (т.е. состояние которого можно будет анализировать стандартными средствами,а не придурочной неработоспособной прогой на жабе) и нормальный рейд-контроллер это то еще вуду.

[identity profile] w00dy.livejournal.com 2010-09-03 07:47 pm (UTC)(link)
я думаю вам тут дейстительно нужны административные меры. Например ящик для компа и упса с розетками iec и rj-45.

PS Что у вас там за вандализм такой что провода прямо из компа дёргают? Бухгалтерам чайник некуда включить?

[identity profile] http://users.livejournal.com/_slw/ 2010-09-03 07:48 pm (UTC)(link)
хорошо, т.е. попиздел со знакомым -- и можно навариваться?

[identity profile] w00dy.livejournal.com 2010-09-03 07:49 pm (UTC)(link)
нормальный упс это apc. для юниксов и тех кто рядом есть apcupsd, для винды есть родное api, и есть winapcupsd (этот правда не пробовал)

[identity profile] zelanton.livejournal.com 2010-09-03 07:50 pm (UTC)(link)
что-то мне подсказывает, что эта проблема решается несколько проще, чем софтварные танцы с бубном, которые спасут от вырывания провода лишь с некоторой, конечной вероятностью. А ведь рейд и упс наверняка решат проблему не только вашей системы.

[identity profile] zelanton.livejournal.com 2010-09-03 07:51 pm (UTC)(link)
обезъяны, обитающие в серверной, занесены в красную книгу? Убивать-калечить их никак нельзя?

[identity profile] oldmann.livejournal.com 2010-09-03 07:55 pm (UTC)(link)
надо попиздеть с парой сотен знакомых, отвечающих за эксплуатацию техники на пару сотен миллионов баксов, чтобы выборка была репрезентативной. тогда можно навариваться, а не суперкомпьютеры на видеокарточках строить.

[identity profile] golosptic.livejournal.com 2010-09-03 07:57 pm (UTC)(link)
http://siemens-simotion.ru/grup/10023989.php
и пусть вырывают :)

[identity profile] zelanton.livejournal.com 2010-09-03 08:06 pm (UTC)(link)
и кстати, по первому вопросу ("где прочитать") вот:
http://www.google.com/search?as_q=data+loss+probability&hl=en&num=100&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

[identity profile] http://users.livejournal.com/_slw/ 2010-09-03 08:14 pm (UTC)(link)
достаточно иметь знакомого в отделе надежности и возвратов производителя hdd

Page 1 of 3