Google+
Журнал Плас Плас Журнал http://www.plusworld.ru/
ул. Кржижановского, д. 29, корп. 5 Москва, 117218 Россия
+7 495 961 1065 http://www.plusworld.ru/upload/templates/logo_plus_ru.png
RSS RSS RSS RSS

Отказоустойчевые решения для процессинга на базе платформ Compaq

(Нет голосов)

25.02.2001 Количество просмотров 1157 просмотров
Колякин Ю.Д. Президент компании Compass Plus, кандидат технических наук Отказоустойчивые кластерные решения для процессинговых центров на базе серверных платформ Compaq (28 февраля 2001 года)

Одним из основных требований, предъявляемых к современным системам процессингового обслуживания, является требование отказоустойчивости программно-технических комплексов. Острота проблем, связанных с надежностью и непрерывностью обслуживания инфраструктуры платежных систем, нарастает вместе с развитием и расширением терминальных сетей, увеличением объемов обрабатываемых транзакций. Обеспечение 24-х часового непрерывного процессингового обслуживания, в том числе во время пиковых нагрузок, особенно важно для критических приложений, связанных с социально значимыми проектами, каковыми являются так называемые «зарплатные» проекты, широко реализуемые многими банками в России и в других странах СНГ. Требование отказоустойчивого функционирования процессингового центра значительно усиливается также и при переходе финансовых институтов к работе с региональными и международными платежными системами, когда особенно важно непрерывное обслуживание клиентов в связи с разницей в часовых поясах, специальными требованиями к обслуживанию VIP-клиентов. Безусловно, сказанное выше относится и к организации процессинговых центров крупных платежных систем. В таких центрах необходимо применение полностью отказоустойчивых решений. В качестве дополнительного требования в большинстве таких случаев выдвигается также и масштабируемость применяемых решений, позволяющая эффективно развивать проект в целом и инвестировать его развитие в темпе с развитием бизнеса и сохранением предыдущих затрат. Чем же является отказоустойчивое и масштабируемое решение для процессинговых центров с точки зрения современных информационных технологий? И чем такое решение отличается от обычного надежного решения, которое обеспечивается тривиальными приемами, каковыми являются, например, использование сертифицированных бренд-серверов, «холодный» резерв по оборудованию, RAID 5, правильно организованные процедуры копирования и архивирования? Принципиальная разница заключается в том, что отказоустойчивое решение обеспечивает непрерывную работу без какой-либо заметной для клиентов задержки в обслуживании даже в случае выхода из строя критически важных элементов процессинговой системы, в том числе -  процессорных блоков, дисковых массивов, коммуникационных каналов и линий, программных модулей (вследствие программных ошибок) и т.д. и т.п. А масштабируемость подразумевает линейную зависимость мощности процессинговой системы от числа обслуживающих процессоров или узлов кластера. Решения, в достаточной степени соответствующие перечисленным требованиям, существуют и предлагаются на рынке сравнительно давно. К ним можно отнести, например, хотя и в разной степени, такие известные серверные платформы как Stratus и Tandem. Автору статьи известны, по крайней мере, восемь проектов процессинговых центров, реализованных в России и странах СНГ на базе этих отказоустойчивых технологий. Опыт эксплуатации таких процессинговых центров показывает их крайне высокую эффективность, особенно в условиях непрерывного развития и расширения обслуживаемых ими платежных систем. Однако основной недостаток таких традиционных решений – крайне высокая цена, особенно неприемлемая для проектов электронных платежей, находящихся на начальной стадии развития или имеющих ограниченный бюджет. В связи с этим такие решения оставались до последнего времени недоступными для большинства российских процессинговых компаний и банков. Ситуация кардинально изменилась с появлением в конце 1999 года кластерных серверов Compaq, базирующихся на отказоустойчивой технологии ServerNet и архитектуре легендарных серверов семейства Himalaya, разработанной компанией Tandem (с 1997 года – является частью Compaq). Прежде чем рассматривать суть предлагаемых Compaq решений, остановимся более подробно на свойствах технологии отказоустойчивости ServerNet. Сервера семейства Himalaya NonStop Server, до сих пор, кстати, выпускаемые Compaq для применения в критических системах массового обслуживания, известны своим уникальным уровнем отказоустойчивости и масштабируемости. До сих пор непревзойденным остается рекорд производительности при обработке потока транзакций на сервере семейства Himalaya, состоящего из более чем 100 параллельно работающих процессоров. Известно также, что такие сервера применяются для обслуживания действительно критически важных приложений (Critical Mission Applications) и используются крупнейшими финансовыми институтами мира – биржами, банками, а также транспортными и Internet- компаниями. Крупнейшая гражданская система обработки транзакций – клиринговая система Bank of America, реализована на отказоустойчивых серверах Himalaya и обслуживает более 2,000,000 транзакций в час. Необходимо отметить, что в отличие от других известных отказоустойчивых архитектур, таких как Stratus, Sequoia, Marathon и т.д., технология ServerNet не предполагает избыточности и параллельного исполнения приложений на нескольких процессорах (или даже серверах) одновременно. Вместо этого, очевидно дорогого и ресурсоёмкого подхода, применяется другой, суть которого – в объединении кластерных узлов и их функциональных блоков с помощью специальной высокоскоростной шины передачи данных – SAN (System Area Network) и логическом резервировании информационных каналов, горячем резервировании загруженных копий программного обеспечения, путей доступа к функциональным блокам оборудования (процессорам, памяти, контроллерам, дисковым массивам и т.п.) с помощью аппаратных возможностей этой шины. Кроме экономии аппаратных ресурсов для достижения необходимого уровня отказоустойчивости, такой подход обеспечивает живучесть прикладной системы в целом не только при аппаратных сбоях, но также и при появлении программных ошибок, которые априори содержатся в любом программном обеспечении, несмотря на самое тщательное тестирование и долговременную эксплуатацию. Рассмотрим последний тезис подробнее. Как правило, даже в хорошо оттестированных программных продуктах остаются трудно локализуемые с помощью известных методов тестирования программные ошибки, называемые в теории отладки больших программ «мерцающими ошибками». Такие ошибки возникают только при определенном, трудно воспроизводимом при тестировании, контексте состояния процессора, памяти, задач, распределения данных и кодов программ. Очевидно, что вероятность повторного возникновения такой программной ошибки при активизации горячей копии программного обеспечения и продолжении обработки потока транзакций крайне низка, поскольку другие копии обрабатывающих программ исполняются в совершенно другом контексте (возможно вообще на другом процессоре). Автору статьи не известна другая технология отказоустойчивости, обеспечивающая столь мощные средства нейтрализации аппаратных и программных ошибок без остановки обработки потоков транзакций. Испытания серверов семейства Himalaya на производительность (в конфигурации до 100 и более параллельно работающих серверов) подтверждают также и другое их уникальное свойство – линейную зависимость увеличения производительности при добавлении нового узла. Это свойство сильно отличает эти сервера от, например, систем с симметричным мультипроцессированием, которые обладают свойством деградации относительного увеличения производительности при добавлении новых обрабатывающих узлов из-за роста непроизводительных расходов на обслуживание мультипроцессирования. Таким образом, сервера семейства Himalaya и лежащая в основе их архитектуры технология ServerNet значительно превосходят по эффективности другие серверные платформы этого класса и обеспечивают все необходимые свойства отказоустойчивости и масштабируемости, необходимые для построения надежного современного процессингового центра. Единственный недостаток серверов семейства Himalaya, как уже указывалось – высокая стоимость, особенно труднопреодолимая для российских финансовых институтов. Однако, после выхода на рынок в конце 1999 года серверов Compaq SSI NonStop Clusters, построенных на основе технологии ServerNet SAN Technology, являющейся приемником знаменитой технологии Tandem, отказоустойчивые сервера стали доступными в значительно более низком ценовом диапазоне, на базе Intel-платформ. Одной из первых российских компаний, проведших полный комплекс работ по интеграции и тестированию приложений, связанных с процессинговым обслуживанием платежных систем, на новых отказоустойчивых серверах Compaq SSI NonStop Clusters, стала компания Compass Plus. В середине 2000 года в Compass Plus для проведения испытаний процессинговой подсистемы A4M FrontOffice/C+ (описание см. на www.compassplus.ru) в конфигурации отказоустойчивой распределенной процессинговой инстанции был установлен кластерный сервер Compaq, состоящий  из четырех процессорных узлов, двухвходового RAID-массива пятого уровня и аппаратуры SAN на базе сетевых контроллеров и концентраторов ServerNet v.1. Концентратор ServerNet (ServerNet Switch) выполняет функции подключения узлов кластера к SAN и маршрутизирует поступающие от узлов пакеты (см. Рисунок 1). Каждый из сетевых контроллеров, устанавливаемых в узлах кластера, оборудован двумя портами. Поэтому установка второго концентратора гарантирует доступ узлов друг к другу даже в случае выхода из строя одного из путей доступа. Конфигурация каналов доступа, концентраторов и RAID-контроллера дискового массива также обеспечивает гарантированный доступ к нему любого узла кластера при выходе из строя какой-либо части оборудования (см. Рисунок 2).

  Доступ терминального оборудования и рабочих станций осуществлялся с помощью локальной сети на базе 100Мб Ethernet. При выходе из строя одного из контроллеров Ethernet система переключалась на использование другого с автоматической миграцией IP-адресов и всех текущих IP-соединений. Отказоустойчивость сетевых коммуникаций, обслуживающих терминальную сеть платежной системы по протоколу X.25, обеспечивалась установкой двухпортовых сетевых контроллеров на двух узлах кластера, а также использованием двух сетевых маршрутизаторов, выполняющих функции автоматического контроля состояния порта. В случае выхода из строя одного из портов сетевой маршрутизатор переключался на использование другого порта (см. Рисунок 3). В качестве СУБД использовался Oracle 8i в двух различных конфигурациях – Fail Safe и Parallel Server. Приложения исполнялись под управлением операционной системы Windows 2000 Advanced Server Edition (о причинах выбора этой операционной системы см. ниже). Для проведения испытаний был разработан специальный стресс-стенд, имитирующий платежную систему, обслуживающую тысячи банкоматов и десятки тысяч POS-терминалов, генерирующий потоки транзакций произвольной интенсивности. База данных процессингового центра при проведении испытаний содержала около 1,200,000 пластиковых карт и более 30,000,000 транзакций. Необходимо отметить, что сама архитектура приложений A4M FrontOffice/C+ разрабатывалась специально для исполнения в среде распределенных кластерных конфигураций и платформ. Согласно этой архитектуры процессинговая система логически может быть разбита на несколько конфигурируемых и исполняемых независимо друг от друга процессинговых инстанций. Каждая инстанция может обрабатывать потоки транзакций, поступающих от терминальных устройств, каналов межцентрового взаимодействия, платежных систем и т.д., независимо от других инстанций. В результате весь поток транзакций, поступающих из обслуживаемой процессинговым центром платежной системы можно параллельно обрабатывать в разных инстанциях и, следовательно, на различных узлах кластера. Этим достигается масштабируемость решений и принципиальная возможность построения отказоустойчивого решения на базе A4M FrontOffice/C+. Кроме того, программное обеспечение испытываемой процессинговой подсистемы A4M FrontOffice/C+ предварительно было доработано с точки зрения особенностей технологии Compaq SSI NonStop Clusters. В частности, была реализована поддержка автоматического переключения поступающих потоков транзакций между различными процессинговыми инстанциями в случае возникновения задержек или прекращения обслуживания какой-либо из них (Message Bridge, см. Рисунок 4). Таким образом, отказоустойчивость в испытываемой конфигурации процессинговой системы обеспечивалась всеми техническими компонентами: узлами кластера и специальными средствами прямого взаимодействия между ними, дисковым массивом с резервными каналами доступа, системами локальных и глобальных коммуникаций, прикладными программами.     Результаты испытаний Проведенные в период с октября 2000 года по январь 2001 года компанией Compass Plus многочисленные стресс-испытания подтвердили правильность выбранных технических решений, показали высокие характеристики производительности (см. далее), отказоустойчивость при отказах оборудования (проверялись как отказы кластерных узлов в целом, так и их компонент – процессоров, сетевых контроллеров, каналов доступа к RAID-массивам, программного обеспечения). Так, например, достигнутые пределы размерности эффективно обслуживаемой платежной системы на конфигурации из двух инстанций процессинговой системы, исполняемой на двух разных узлах кластера (на одном из них исполнялась также инстанция Oracle), составили: •    400 банкоматов с интенсивностью одна транзакция в 1.5 минуты •    800 POS-терминалов с интенсивностью одна транзакция в 2 минуты Достигнутый предел производительности – 10-12 транзакций в секунду. Общий объем эффективно обрабатываемых транзакций составил более 1,000,000 в сутки, что соответствует уровню проектов электронных платежей крупных западных банков. Основные факторы, влияющие на производительность системы в целом, – производительность СУБД и скоростные характеристики работы дисковой подсистемы. Время запуска новой инстанции Oracle в режиме Fail Safe при выходе из строя обслуживающей инстанции составляет 15-20 секунд, что позволяет строить отказоустойчивые конфигурации, используя этот весьма недорогой и эффективный режим обеспечения живучести СУБД. Конфигурирование СУБД Oracle в режиме Parallel Server оказалось весьма непростой задачей. Использование этого режима обслуживания процессинговых инстанций снижало эффективную скорость обработки транзакций вдвое. Кроме того, применение этой конфигурации Oracle требует специальных системных программных компонент от производителя оборудования и обязательность сертификации им такой конфигурации. Именно в связи с отсутствием таковой для операционной системы UnixWare, изначально планировавшейся для испытаний, не позволило провести тестирование и проверку работоспособности отказоустойчивой конфигурации процессинговой подсистемы A4M FrontOffice/C+ в среде UnixWare. Таким образом, использование технологии Compaq SSI NonStop Clusters обеспечивает применение подсистемы A4M FrontOffice/C+ в проектах автоматизации систем электронных платежей и пластиковых карт практически любой размерности. При этом может быть обеспечен необходимый уровень производительности, масштабирование процессинговой системы, а, соответственно, и распределение вложений инвестиций в темпе с реальным ростом бизнеса. Надежность платформы соответствует уровню отказоустойчивости, предъявляемой для критических жизненно важных систем и приложений. Ценовые параметры – вполне доступны для российских потребителей. ИТОГО Итого Итак, сегодня мы можем утверж¬дать, что решение для процессинга пластиковых карточек, не уступа¬ющее по параметрам отказоустой¬чивости и Масштабируемости классическим образцам, построен¬ным по технологии ServerNet, со¬здано и успешно прошло первые испытания. Мы убеждены, что в российских условиях, когда кар¬точные проекты (по крайней мере, на старте) не столь масштабны, а сохранение инвестиций - обяза¬тельное требование ко всем внед¬ряемым сегодня IT-системам, ре¬шение Compass Plus на базе Compaq SSI NonStop Clusters может составить реальную конкуренцию всем "тяжелым" процессинговым системам, предлагаемым на рос¬сийском рынке.

 Назначение кластера Compaq Parallel Database Cluster (PDC) Кластер Compaq Parallel Database Cluster (PDC) для Oracle8i Parallel Server версии 8.1.6 обеспечивает высокую доступность и масштабируемость баз данных Oracle®, используя стандартные компоненты и программное обеспечение.  Поскольку кластер PDC  основан на стандартном оборудовании, его можно без ущерба для доступности реализовать при гораздо более низких затратах, чем кластеры RISC/UNIX. Это делает его идеальным решением для таких критических для банковского бизнеса приложений, как хранилища данных, серверные базы данных веб-систем, разработка специализированных приложений баз данных типа обработки пластиковых карт, пакетные приложения и перенос баз данных с других устаревших RICS-платформ.  Высокая производительность и масштабируемость при объединении серверов в кластер В отличие от решений с одним сервером, кластер PDC предлагает клиентам различные способы наращивания вычислительной мощности, емкости хранения и возможностей связи без серьезной модификации своих приложений.  Благодаря PDC клиенты могут объединить небольшие базы данных Oracle, работающие в настоящее время на менее надежных системах, в один кластер мощных серверов Compaq. Это сокращает эксплуатационные затраты, поскольку теперь нужно управлять лишь одной базой данных. Более того, все необходимые операции управления базой данных могут выполняться с одной консольной рабочей станции, которую можно настроить для удобного использования.  Защита инвестиций и гибкость кластерных конфигураций  Потребители продуктов Compaq наши клиенты получают долгосрочное бизнес-решение. В конфигурации кластеров PDC/O5000 можно использовать многие стандартные серверы и компоненты Compaq, которые поставляются в настоящее время и могут иметься у клиента. Это означает, что клиент в состоянии добиться высокой доступности систем, построив кластер из уже имеющихся серверов. Улучшенная производительность и масштабируемость благодаря соединениям ServerNet VI В качестве выделенного соединения в кластере PDC используется либо интерфейс Ethernet, либо технология ServerNet VI. Технология ServerNet VI с малой задержкой и широкой полосой пропускания обеспечивает высокую производительность диспетчера распределенной блокировки и выделенного соединения в кластере. Кроме того, ServerNet VI предлагает стек протоколов с низкими накладными расходами, что позволяет снизить нагрузку на процессоры. Благодаря этим факторам технология ServerNet VI отвечает требованиям высокого быстродействия и малой задержки, которые предъявляются к идеальному кластерному соединению для Oracle Parallel Server.  


Комментарии (0):

Добавлять комментарии могут только зарегистрированные Пользователи


Читайте в этом номере:
обновить

а вы знаете, что...

… деньги из раковин на Соломоновых островах отличаются устойчивостью к любым финансовым кризисам? Если население отдаленных островов используют раковины в качестве расчетной единицы, то в более цивилизованных местах архипелага такие деньги используются как надежный запас на черный день, в то время как расчеты ведутся «обычными» деньгами. Недостаток у них один – недолговечность: раковины хрупкие, часто ломаются. Из-за этого денежная масса остается стабильной и не нарастает, что позволяет поддерживать постоянный курс.