Отже, випуск №1 - «Системи зберігання даних».

Системи зберігання даних.

По-англійськи вони називаються одним словом - storage, що дуже зручно. Але на російську це слово перекладається досить кострубато - «сховище». Часто на сленгу «ІТ-шників» використовують слово «сторадж» в українській транскрипції, або слово «хранілка», але це вже зовсім моветон. Тому будемо використовувати термін «системи зберігання даних», скорочено СГД, або просто «системи зберігання».

До пристроїв зберігання даних можна віднести будь-які пристрої для запису даних: т.зв. «Флешки», компакт-диски (CD, DVD, ZIP), стрічкові накопичувачі (Tape), жорсткі диски (Hard disk, їх ще називають по-старому «вінчестери», оскільки перші їх моделі нагадували обойму з патронами однойменної гвинтівки 19 століття) і ін. Жорсткі диски використовуються не тільки всередині комп'ютерів, але і як зовнішні USB-пристрої запису інформації, і навіть, наприклад, одна з перших моделей iPod'а - це невеликий жорсткий диск діаметром 1,8 дюйма, з виходом на навушники і вбудованим екраном.

В останнім часом все більшої популярності набирають т.зв. «Твердотільні» системи зберігання SSD (Solid State Disk, або Solid State Drive), які за принципом дії схожі з «флешкою» для фотоапарата або смартфона, тільки мають контролер і більший обсяг даних, що зберігаються. На відміну від жорсткого диска, SSD-диск не має механічно рухомих частин. Поки ціни на такі системи зберігання досить високі, але швидко знижуються.

Все це - споживчі пристрої, а серед промислових систем слід виділити, перш за все, апаратні системи зберігання: масиви жорстких дисків, т.зв. RAID-контролери для них, стрічкові системи зберігання для довготривалого зберігання даних. Крім того, окремий клас: контролери для систем зберігання, для управління резервуванням даних, створення «миттєвих знімків» (Snapshot) в системі зберігання для подальшого їх відновлення, реплікації даних і т.д.). В системи зберігання даних також входять мережеві пристрої (HBА, комутатори Fiber Channel Switch, кабелі FC / SAS і ін.). І, нарешті, розроблені масштабні рішення по зберіганню даних, архівації, відновлення даних та стійкості до катастроф (disater recovery).

Звідки беруться дані, які необхідно зберігати? Від нас, улюблених, користувачів, від прикладних програм, електронної пошти, А також від різного устаткування - файлових серверів, і серверів баз даних. Крім того, постачальник великої кількості даних - т.зв. пристрою М2М (Machine-to-Machine communication) - різного роду датчики, сенсори, камери та ін.

За частотою використання збережених даних, СГД можна поділити на системи короткострокового зберігання (online storage), зберігання середньої тривалості (near-line storage) і системи довгострокового зберігання (offline storage).

До перших можна віднести жорсткий диск (або SSD) будь-якого персонального комп'ютера. До других і третіх - зовнішні системи зберігання DAS (Direct Attached Storage), які можуть являти собою масив зовнішніх, по відношенню до комп'ютера, дисків (Disk Array). Їх, в свою чергу також можна поділити на «просто масив дисків» JBOD (Just a Bunch Of Disks) і масив з керуючим контролером iDAS (intelligent disk array storage).

Зовнішні системи зберігання бувають трьох типів DAS (Direct Attached Storage), SAN (Storage Area Network) і NAS (Network attached Storage). На жаль, навіть багато досвідчених ІТ-шники не можуть пояснити різницю між SAN і NAS, кажучи, що колись ця різниця була, а тепер - її, нібито, вже і немає. Насправді, різниця є, і суттєва (див. Рис. 1).

Малюнок 1. Різниця між SAN і NAS.

В SAN з системою зберігання пов'язані фактично самі сервери через мережу області зберігання даних SAN. У разі NAS - мережеві сервери пов'язані через локальну мережу LAN із загальною файлової системою в RAID.

Основні протоколи підключення СГД

протокол SCSI (Small Computer System Interface), вимовляється як «скáзі», протокол, розроблений в середині 80-х років для підключення зовнішніх пристроїв до міні міні-комп'ютерів. Його версія SCSI-3 є основою для всіх протоколів зв'язку систем зберігання даних і використовує загальну систему команд SCSI. Його основні переваги: \u200b\u200bнезалежність від використовуваного сервера, можливість паралельної роботи декількох пристроїв, висока швидкість передачі даних. Недоліки: обмеженість числа підключених пристроїв, дальність з'єднання сильно обмежена.

протокол FC(Fiber Channel), внутрішній протокол між сервером і спільно використовуваної СГД, контролером, дисками. Це широко використовуваний протокол послідовної зв'язку, що працює на швидкостях 4 або 8 гігабіт в секунду (Gbps). Він, як випливає з його назви, працює через оптоволокно (fiber), але і по міді теж може працювати. Fiber Channel - основний протокол для систем зберігання FC SAN.

протокол iSCSI(Internet Small Computer System Interface), стандартний протокол для передачі блоків даних поверх широко відомого протоколу TCP / IP тобто «SCSI over IP». iSCSI може розглядатися як високошвидкісне недороге рішення для систем зберігання, що підключаються віддалено, через Інтернет. iSCSI инкапсулирует команди SCSI в пакети TCP / IP для передачі їх по IP-мережі.

протокол SAS(Serial Attached SCSI). SAS використовує послідовну передачу даних і сумісний з жорсткими дисками SATA. На даний момент SAS може передавати дані зі швидкістю 3Gpbs або 6Gpbs, і підтримує режим повного дуплексу, тобто може передавати дані в обидві сторони з однаковою швидкістю.

Типи систем зберігання.

Можна розрізнити три основні типи систем зберігання:

  • DAS (Direct Attached Storage)
  • NAS (Network attached Storage)
  • SAN (Storage Area Network)

СГД c безпосередньому підключенням дисків DAS були розроблені ще в кінці


Малюнок 2. DAS

70-х років, внаслідок вибухового збільшення призначених для користувача даних, які вже просто фізично не вміщалися у внутрішній довготривалої пам'яті комп'ютерів (для молодих зробимо примітка, що тут мова йде не про персоналках, їх тоді ще не було, а великих комп'ютерах, Т.зв. основному комплекті). Швидкість передачі даних в DAS була не дуже невисокою, від 20 до 80 Мбіт / с, але для тодішніх потреб її цілком вистачало.

СГД за допомогою мережі NAS з'явилися на початку 90-х років. Причиною стало швидке розвиток мереж і критичні вимоги до спільного використання великих масивів даних в межах підприємства або мережі оператора. У NAS використовувалася спеціальна мережева файлова система CIFS (Windows) або NFS (Linux), тому різні сервери різних користувачів могли зчитувати один і той же файл з NAS одночасно. Швидкість передачі даних була вже вище: 1 - 10Gbps.


Малюнок 3. NAS

В середині 90-х з'явилися мережі для підключення пристроїв зберігання FC SAN. Розробка їх була викликана необхідністю організації розкиданих по мережі даних. Один пристрій зберігання в SAN може бути розбите на кілька невеликих вузлів, званих LUN (Logical Unit Number), кожен з яких належить одного сервера. Швидкість передачі даних зросла до 2-8 Gbps. Такі СГД могли забезпечувати технології захисту даних від втрат (snapshot, backup).


Малюнок 4. FC SAN

Інший різновид SAN - IP SAN (IP Storage Area Network), розроблена на початку 2000-х. Системи FC SAN були дороги, складні в управлінні, а мережі протоколу IP перебували на піку розвитку, тому і з'явився цей стандарт. СГД підключалися до серверів за допомогою iSCSI-контролера через IP-комутатори. Швидкість передачі даних: 1 - 10 Гбіт / с.


Рис.5. IP SAN.

У таблиці показані деякі порівняльні характеристики всіх розглянутих систем зберігання:

DAS NAS SAN
FC SAN IP SAN
Тип передачі SCSI, FC, SAS IP FC IP
Тип даних блок даних файл блок даних блок даних
типове додаток Будь-яке Файл-сервер Бази даних Відео-спостереження
перевага Легкість розуміння,

чудова сумісність

Легкість установки, низька вартість Добре масштабується-емость Добре масштабується-емость
недоліки Труднощі управління.

Неефективне використання ресурсів. Погана масштабується-емость

Низька продуктивність.

Не застосовується для деяких додатків

Висока вартість.

складність конфігурації

Низька виробляй-ність

Коротко, SAN призначені для передачі масивних блоків даних в СГД, в той час як NAS забезпечують доступ до даних на рівні файлів. Комбінацією SAN + NAS можна отримати високу ступінь інтеграції даних, високопродуктивний доступ і спільний доступ до файлів. Такі системи отримали назву unified storage - «уніфіковані системи зберігання».

Уніфіковані системи зберігання:архітектура мережевих СГД, яка підтримує як файловий-орієнтовану систему NAS, так і блоко-орієнтовану систему SAN. Такі системи були розроблені на початку 2000-х років з метою вирішити проблеми адміністрування і високою сумарною вартості володіння роздільними системами на одному підприємстві. Така СГД підтримує практично всі протоколи: FC, iSCSI, FCoE, NFS, CIFS.

Жорсткі диски

Всі жорсткі диски можна поділити на два основних типи: HDD (Нard Disk Drive, що, власне, і перекладається як «жорсткий диск») і SSD (Solid State Drive, - т.зв. «твердотільний диск»). Тобто, і той і інший диск - жорсткі. Що ж тоді «м'який диск», такі бувають? Так, в минулому були, називалися «флоппі-диски» (так їх прозвали через характерного «хлопающего» звуку в дисководі при роботі). Приводи для них ще можна побачити в системних блоках старих комп'ютерів, які збереглися в деяких держустановах. Однак, при всьому бажанні, такі магнітні диски їх навряд чи можна віднести до СИСТЕМ зберігання. Це були якісь аналоги теперішніх «флешок».

Різниця HDD і SSD в тому, що HDD має кілька співвісних магнітних дисків всередині і складну механіку, що переміщує магнітні головки зчитування-запису, а SSD не має механічно рухомих частин, і являє собою, по суті, просто мікросхему, запресовану в пластик. Тому називати «жорсткими дисками» тільки HDD, строго кажучи, некоректно.

Жорсткі диски можна класифікувати за такими параметрами:

  • Конструктивне виконання: HDD, SSD;
  • Діаметру HDD в дюймах: 5.25, 3.5, 2.5, 1.8 дюйма;
  • Інтерфейсу: ATA / IDE, SATA / NL SAS, SCSI, SAS, FC
  • Класу використання: індивідуальні (desktop class), корпоративні (enterprsie class).
SATA SAS NL-SAS SSD
Швидкість обертання (RPM) 7200 15000/10000 7200 NA
Типова ємність (TБ) 1T / 2T / 3T 0.3T / 0.6T / 0.9T 2T / 3T / 4T 0.1T / 0.2T / 0.4T
MTBF (годину) 1 200 000 1 600 000 1 200 000 2 000 000
Примітки Розвиток жорстких дисків ATA з послідовною передачею даних.

SATA 2.0 підтримує швидкості передачі 300MБ / с, SATA3.0 підтримує до 600MБ / с.

Середньорічний% відмов AFR (Annualized Failure Rate) для дисків SATA - близько 2%.

Жорсткі диски SATA з інтерфейсом SAS підходять для ієрархічних (tiering). Середньорічний% відмов AFR (Annualized Failure Rate) для дисків NL-SAS близько 2%. Твердотільні диски виконані з електронних мікросхем пам'яті, включаючи пристрій управління і чіп (FLASH / DRAM). Специфікація інтерфейсу, функції і метод використання такі ж, як у HDD, розмір і форма - теж.

Характеристики жорстких дисків:

  • Ємність

В сучасних жорсткі диских ємність вимірюється в гігабайтах або терабайт. Для HDD ця величина кратна ємності одного магнітного диска всередині коробки, помноженої на число магнітних, яких зазвичай буває кілька.

  • Швидкість обертання (тільки для HDD)

Швидкість обертання магнітних дисків всередині приводу, вимірюється в оборотах в хвилину RPМ (Rotation Per Minute), зазвичай становить 5400 RPM або 7200 RPM. HDD з інтерфейсами SCSI / SAS мають швидкість обертання 10000-15000 RPM.

  • Середній час доступу \u003dСередній час пошуку (Mean seek time) + середній час очікування (Mean wait time), тобто час вилучення інформації з диска.
  • Швидкість передачі даних

Це швидкості зчитування та запису даних на жорсткому диску, яка вимірюється в мегабайтах в секунду (MB / S). Вони зазвичай відрізняються один від одного за величиною.

  • IOPS (Input / Output Per Second)

Число операцій введення-виведення (або читання-запису) в секунду (Input / Output Operations Per Second), один з основних індикаторів вимірювання продуктивності диска. Для додатків з часті операції читання і запису, таких як OLTP (Online Transaction Processing) - онлайн-обробка транзакцій, IOPS - найважливіший показник, тому що саме від нього залежить швидкодія бізнес-додатки. Інший важливий показник - data throughput, що приблизно можна перекласти як «пропускна здатність даних», тобто який обсяг даних можна передати за одиницю часу.

RAID

Як би не були надійні жорсткі диски, а все ж дані в них іноді губляться, з різних причин. Тому була запропонована технологія RAID (Redundant Array of Independent Disks) - масив незалежних дисків з надмірністю зберігання даних. Надмірність означає те, що всі байти даних при записі на один диск дублюються на іншому диску, і можуть бути використані в тому випадку, якщо перший диск відмовить. Крім того, ця технологія допомагає збільшити IOPS.

Основні поняття RAID - stripping (т.зв. «располосованіе» або поділ) і mirroring (т.зв. «віддзеркалення», або дублювання) даних. Їх поєднання визначають різні види RAID-масивів жорстких дисків.

Розрізняють такі рівні RAID-масивів:

Комбінації цих видів породжують ще кілька нових видів RAID:

Малюнок пояснює принцип виконання RAID 0 (поділ):


Рис. 6. RAID 0.

А так виконується RAID 1 (дублювання):


Рис. 7. RAID 1.

А ось так працює RAID 3. XOR - логічна функція виключає АБО (eXclusive OR). За допомогою неї обчислюється значення паритету для блоків даних A, B, C, D ..., який записується на окремий диск.


Рис. 8. RAID 3.

Вищенаведені схеми добре ілюструють принцип дії RAID і коментарів не потребують. Ми не будемо наводити схеми роботи інших рівнів RAID, бажаючі можуть їх знайти в Інтернеті.

Основні характеристики видів RAID наведені в таблиці.

Програмне забезпечення систем зберігання

Програмне забезпечення для систем зберігання можна поділити на такі категорії:

  1. Управління та адміністрування (Management): управління і завдання параметрів інфраструктури: вентиляції, охолодження, режими роботи дисків та ін., управління по часу доби та ін.
  2. Захист даних: Snapshot ( «моментальний знімок» стану диска), копіювання вмісту LUN, множинне дублювання (split mirror), віддалене дублювання даних (Remote Replication), безперервна захист даних CDP (Continuous Data Protection) і ін.
  3. Підвищення надійності:різне ПО для множинного копіювання і резервування маршрутів передачі даних всередині ЦОД і між ними.
  4. Підвищення ефективності: Технологія тонкого резервування (Thin Provisioning), автоматичний розподіл системи зберігання на рівні (tiered storage), усунення повторень даних (deduplication), управління якістю сервісу, попереднє витяг з кеш-пам'яті (cache prefetch), поділ даних (partitioning), автоматична міграція даних , зниження швидкості обертання диска (disk spin down)

Дуже цікава технологія « thin provisioning». Як це часто буває в ІТ, терміни часто важко піддаються адекватному перекладу на російську мову, наприклад, важко точно перекласти слово «provisioning» ( «забезпечення», «підтримка», «надання» - жоден з цих термінів не передати сенс повністю). А вже коли воно - «тонке» (thin) ...

За принципом «thin provisioning», наприклад, працює банківський кредит. Коли банк видає десять тисяч кредитів лімітом в 500 тисяч, йому не потрібно мати на рахунку 5 мільярдів, так як користувачі карток зазвичай не витрачають весь кредит відразу. Проте, кожен користувач окремо може скористатися всією або майже весь обсяг кредиту, якщо загальний обсяг коштів банку не вичерпаний.

Так само працюють водопровідні та електричні компанії. Надаючи послуги водо- або електро-постачання, вони розраховують, що всі жителі не стануть разом відкривати всі крани або включати всі мають в будинках електроприлади. За рахунок більш гнучкого споживання ресурсів вдається заощадити на їх ціні і потужності ресурсу.


Рис. 9. Thin provisioning.

Таким чином, використання thin provisioning дозволяє вирішити проблему неефективного розподілу простору в SAN, заощадити місце, полегшити адміністративні процедури розподілу простору додатків на сховище, і використовувати так званий oversubscribing, тобто виділити додатків місця більше, ніж ми маємо в своєму розпорядженні фізично, в розрахунку на те, що програми не зажадають одночасно весь простір. У міру ж виникнення в ньому потреби пізніше можливо збільшити фізичну ємність сховища.

Поділ системи зберігання на рівні (tiered storage) передбачає, що різні дані зберігаються в пристроях зберігання, швидкодія яких відповідає частоті обертання до цих даних. Наприклад, часто використовувані дані можна розміщувати в «online storage» на дисках SSD з високою швидкістю доступу, високою продуктивністю. Однак, ціна таких дисків поки висока, тому їх доцільно використовувати тільки для online storage (поки).

Швидкість дисків FC / SAS також досить висока, а ціна помер. Тому такі диски добре походять для «near-line storage», де зберігаються дані, звернення до яких відбуваються не так часто, але в той же час і не так рідко.

Нарешті, диски SATA / NL-SAS мають відносно невисоку швидкість доступу, але зате відрізняються великою ємністю і відносно дешеві. Тому на них зазвичай роблять offline storage, для даних рідкісного використання.

Як тільки система управління зауважує, що звернення до даних в offline storage почастішали, вона переводить їх в near-line storage, а при подальшій активізації їх використання - і в online storage »на дисках SSD.

Дедуплікація (усунення повторень) даних (Deduplication, DEDUP): як випливає з назви, усуває повтори даних на просторі диска, який зазвичай використовується в частині резервування даних. Хоча система нездатна визначити, яка інформація надлишкова, вона може визначити наявність повторів даних. За рахунок цього стає можливим значно скоротити вимоги до ємності системи резевірованія.

Зниження швидкості обертання диска (Disk spin-down) - то, що зазвичай називають «глибокого сну» (засипанням) диска. Дані на якомусь диску можуть не використовуватися довгий час, в цьому випадку технологія зниження швидкості диска переводить їх в режим гібернації, щоб знизити споживання енергії на марне обертання диска на звичайній швидкості. При цьому також підвищується термін служби диска, і збільшується надійність системи в цілому. При надходженні першого запиту до даних на цьому диску, він «прокидається», швидкість його обертання збільшується. Платою за економію енергії і підвищення надійності є деяка затримка при першому зверненні до даних на диску, але ця плата цілком виправдана.

«Моментальний знімок» стану диска (Snapshot). Snapshot - це повністю придатна до використання копія певного набору даних на диску на момент знімання цієї копії (тому вона і називається «моментальним знімком»). Така копія використовується для часткового відновлення стану системи на момент копіювання. При цьому безперервність роботи системи абсолютно не зачіпається, і швидкодія не погіршується.

Дистанційна реплікація даних (Remote Replication): Працює з використанням технології зеркалирования. Може підтримувати кілька копій даних на двох або більше сайтах для запобігання втрати даних у разі стихійних лих. Існує два типи реплікації: синхронна і асинхронна, відмінність між ними пояснено на малюнку.


Рис. 10. Дистанційна реплікація даних (Remote Replication).

Безперервна захист даних CDP (Continuous data protection) , Також відома як continuous backup або real-time backup, являє собою створення резервної копії автоматично при кожній зміні даних. При цьому стає можливим відновлення даних при будь-яких аваріях в будь-який момент часу, причому при цьому доступні актуальна копія даних, а не тих, що були кілька хвилин або годин тому.

Програми управління та адміністрування (Management Software):сюди входить різноманітне програмне забезпечення з управління та адміністрування різних пристроїв: прості програми конфігурації (cofiguration wizards), програми централізованого моніторингу: відображення топології, моніторинг в реальному часі механізми формування звітів про збої. Також сюди входять програми «гарантії безперервності бізнесу» (Business Guarantee): багаторозмірний статистика продуктивності, звіти і запити продуктивності та ін.

Відновлення при стихійних лихах (DR, Disaster Recovery). Це досить важлива складова серйозних промислових СГД, хоча і досить витратна. Але ці витрати необхідно нести, щоб не втратити в одну мить «то, що нажито непосильною працею» і куди і так вже вкладені значні кошти. Розглянуті вище системи захисту даних (Snapshot, Remote Replication, CDP) гарні до тих пір, поки в населеному пункті, де розташована система зберігання не відбулося якесь стихійне лихо: цунамі, повінь, землетрус або (тьфу-тьфу-тьфу) - ядерна війна. Та й будь-яка війна теж здатна сильно зіпсувати життя людям, які займаються корисними справами, наприклад, зберіганням даних, а не біганням з автоматом з метою відібрати собі чужі території або покарати якихось «невірних». Дистанційна реплікація увазі, що реплікується СГД знаходиться в тому ж самому місті, або як мінімум поблизу. Що, наприклад, при цунамі не рятує.

Технологія Disaster Recovery передбачає, що центр резервування, який використовується для відновлення даних при стихійних лихах, розташовується на значній відстані від місця основного ЦОД, і взаємодіє з ним по мережі передачі даних, накладеної на транспортну мережу, найчастіше оптичну. Використовувати при такому розташуванні основного і резервного ЦОД, наприклад, технологію CDP буде просто неможливо технічно.

В технології DR використовуються три основних поняття:

  • BW (Backup Window) - «вікно резевірованія», час, необхідний для системи резевірованія для того, щоб скопіювати прийнятий обсяг даних робочої системи.
  • RPO (Recovery Point Objective) - «Допустима точка відновлення», максимальний період часу і відповідний обсяг даних, який допустимо втратити для користувача СГД.
  • RTO (Recovery Time Objective) - «допустимий час недоступності», максимальний час, протягом якого СГД може бути недоступною, без критичного впливу на основний бізнес.


Рис. 11. Три основоположних поняття технології DR.

Дане есе не претендує на повноту викладу і лише пояснює основні принципи роботи СГД, хоча і далеко не в повному обсязі. У різних джерелах в Інтернеті міститься багато документів, більш детально описують всі викладені (і не викладені) тут моменти.


Що таке системи зберігання даних (СЗД) і для чого вони потрібні? У чому різниця між iSCSI і FibreChannel? Чому дане словосполучення тільки в останні роки стало відомо широкому колу IT-фахівців і чому питання систем зберігання даних все більше і більше турбують вдумливі уми?

Думаю, багато хто помітив тенденції розвитку в навколишньому нас комп'ютерному світі - перехід від екстенсивної моделі розвитку до інтенсивної. Нарощування мегагерц процесорів вже не дає видимого результату, а розвиток накопичувачів не встигає за обсягом інформації. Якщо в разі процесорів все більш-менш зрозуміло - досить збирати багатопроцесорні системи та / або використовувати кілька ядер в одному процесорі, то в разі питань зберігання та обробки інформації так просто від проблем не позбутися. Існуюча на даний момент панацея від інформаційної епідемії - СГД. Назва розшифровується як мережа зберігання даних (Storage Area Network) або Система Зберігання Даних. У будь-якому випадку - це спе

Основні проблеми, які вирішуються СГД

Отже, які ж завдання покликана вирішити СГД? Розглянемо типові проблеми, пов'язані зі зростаючими обсягами інформації в будь-якій організації. Припустимо, що це хоча б кілька десятків комп'ютерів і кілька рознесених територіально офісів.

1. Децентралізація інформації - якщо раніше всі дані могли зберігатися буквально на одному жорсткому диску, то зараз будь-яка функціональна система вимагає окремого сховища - наприклад, серверів електронної пошти, СУБД, домену і так далі. Ситуація ускладнюється у разі розподілених офісів (філій).

2. Лавиноподібний зростання інформації - найчастіше кількість жорстких дисків, які ви можете встановити в конкретний сервер, не може покрити необхідну системі ємність. Як наслідок:
Неможливість повноцінно захистити збережені дані - дійсно, адже досить важко зробити навіть backup даних, які знаходяться не тільки на різних серверах, а й рознесені територіально.
Недостатня швидкість обробки інформації - канали зв'язку між віддаленими майданчиками поки залишають бажати кращого, але навіть при досить «товстому» каналі не завжди можливо повноцінне використання існуючих мереж, наприклад, IP, для роботи.
Складність резервного копіювання - якщо дані читаються і записуються невеликими блоками, то зробити повне архівування інформації з віддаленого сервера за існуючими каналам може бути нереально - необхідна передача всього обсягу даних. Архівування на місцях часто недоцільно з фінансових міркувань - необхідні системи для резервного копіювання (стрічкові накопичувачі, наприклад), спеціальне програмне забезпечення (яке може коштувати чималих грошей), навчений і кваліфікований персонал.

3. Складно або неможливо передбачити необхідний обсяг дискового простору при розгортанні комп'ютерної системи. Як наслідок:
Виникають проблеми розширення дискових ємностей - досить складно отримати в сервері ємності порядків терабайт, особливо якщо система вже працює на існуючих дисках невеликої ємності - як мінімум, потрібно зупинка системи і неефективні фінансові вкладення.
Неефективна утилізація ресурсів - часом не вгадати, в якому сервері дані будуть рости швидше. У сервері електронної пошти може бути вільний критично малий обсяг дискового простору, в той час як інший підрозділ буде використовувати всього лише 20% обсягу недешевої дискової підсистеми (наприклад, SCSI).

4. Низька ступінь конфіденційності розподілених даних - неможливо проконтролювати і обмежити доступ відповідно до політики безпеки підприємства. Це стосується як доступу до даних за існуючими для цього каналах (локальна мережа), так і фізичного доступу до носіїв - наприклад, не виключені розкрадання жорстких дисків, їх руйнування (з метою утруднити бізнес організації). Некваліфіковані дії користувачів і обслуговуючого персоналу можуть завдати ще більшої шкоди. Коли компанія в кожному офісі змушена вирішувати дрібні локальні проблеми безпеки, це не дає бажаного результату.

5. Складність управління розподіленими потоками інформації - будь-які дії, які спрямовані на зміни даних в кожній філії, що містить частину розподілених даних, створює певні проблеми, починаючи від складності синхронізації різних баз даних, версій файлів розробників і закінчуючи непотрібним дублюванням інформації.

6. Низький економічний ефект впровадження «класичних» рішень - у міру зростання інформаційної мережі, великих обсягів даних і все більш розподіленої структури підприємства фінансові вкладення виявляються не настільки ефективні і часто не можуть вирішити проблем, що виникають.

7. Високі витрати використовуваних ресурсів для підтримки працездатності всієї інформаційної системи підприємства - починаючи від необхідності утримувати великий штат кваліфікованого персоналу і закінчуючи численними недешевими апаратними рішеннями, які покликані вирішити проблему обсягів і швидкостей доступу до інформації укупі з надійністю зберігання і захистом від збоїв.

У світлі перерахованих вище проблем, які рано чи пізно, повністю або частково наздоганяють будь-яку динамічно розвивається, спробуємо окреслити системи зберігання даних - такими, якими вони повинні бути. Розглянемо типові схеми підключення та види систем зберігання даних.

Мегабайти / транзакції?

Якщо раніше жорсткі диски знаходилися всередині комп'ютера (сервера), то тепер їм там стало тісно і не дуже надійно. Найпростіше рішення (розроблене досить давно і застосовується повсюдно) - технологія RAID.

images \\ RAID \\ 01.jpg

При організації RAID в будь-яких системах зберігання даних додатково до захисту інформації ми отримуємо кілька незаперечних переваг, одне з яких - швидкість доступу до інформації.

З точки зору користувача або ПО, швидкість визначається не тільки пропускною здатністю системи (Мбайт / с), а й числом транзакцій - тобто числом операцій введення-виведення в одиницю часу (IOPS). Збільшенню IOPS сприяє, що цілком логічно, більше число дисків і ті методики підвищення продуктивності, які надає контролер RAID (наприклад, кешування).

Якщо для перегляду потокового відео або організації файл-сервера більше важлива загальна пропускна здатність, то для СУБД, будь-яких OLTP (online transaction processing) додатків критично саме число транзакцій, які здатна обробляти система. А з цим параметром у сучасних жорстких дисків все не так райдужно, як зі зростаючими обсягами і, частково, швидкостями. Всі ці проблеми покликана вирішити сама система зберігання даних.

рівні захисту

Потрібно розуміти, що в основі всіх систем зберігання даних лежить практика захисту інформації на базі технології RAID - без цього будь-яка технічно просунута СГД буде марна, бо жорсткі диски в цій системі є самим ненадійним компонентом. Організація дисків в RAID - це «нижня ланка», перший ешелон захисту інформації і підвищення швидкості обробки.

Однак, крім схем RAID, існує і більш низкоуровневая захист даних, реалізована «поверх» технологій і рішень, впроваджених в сам жорсткий диск його виробником. Наприклад, у одного з провідних виробників СГД - компанії EMC - існує методика додаткового аналізу цілісності даних на рівні секторів накопичувача.

Розібравшись з RAID, перейдемо до структури самих СГД. Перш за все, СГД поділяються за типом використовуваних інтерфейсів підключення хостів (серверів). Зовнішні інтерфейси підключення - це, в основному SCSI або FibreChannel, а також досить молодий стандарт iSCSI. Також не варто скидати з рахунків невеликі інтелектуальні сховища, які можуть підключатися навіть по USB або FireWire. Ми не станемо розглядати більш рідкісні (часом просто невдалі в тому чи іншому плані) інтерфейси, як SSA від IBM або інтерфейси, розроблені для мейнфреймів - наприклад, FICON / ESCON. Окремо стоять сховища NAS, що підключаються до мережі Ethernet. Під словом «інтерфейс» в основному розуміється зовнішній роз'єм, але не варто забувати, що роз'єм не визначає протокол зв'язку двох пристроїв. На ці особливості ми зупинимося трохи нижче.

images \\ RAID \\ 02.gif

Розшифровується як Small Computer System Interface (читається «скази») - напівдуплексний паралельний інтерфейс. У сучасних системах зберігання даних найчастіше представлений роз'ємом SCSI:

images \\ RAID \\ 03.gif

images \\ RAID \\ 04.gif

І групою протоколів SCSI, а конкретніше - SCSI-3 Parallel Interface. Відмінність SCSI від знайомого нам IDE - більше число пристроїв на канал, більша довжина кабелю, більша швидкість передачі даних, а також «ексклюзивні» особливості типу high voltage differential signaling, command quequing і деякі інші - заглиблюватися в це питання ми не станемо.
Якщо говорити про основні виробниках компонент SCSI, наприклад SCSI-адаптерів, RAID-контролерів з інтерфейсом SCSI, то будь-який фахівець відразу пригадає дві назви - Аdaptec і LSI Logic. Думаю, цього досить, революцій на цьому ринку не було вже давно і, ймовірно, не передбачається.

інтерфейс FibreChannel

Повнодуплексний послідовний інтерфейс. Найчастіше в сучасному обладнанні представлений зовнішніми оптичними роз'ємами типу LC або SC (LC - менше за розмірами):

images \\ RAID \\ 05.jpg

images \\ RAID \\ 06.jpg

... і протоколами FibreChannel Protocols (FCP). Існує кілька схем комутації пристроїв FibreChannel:

Point-to-Point - точка-точка, пряме з'єднання пристроїв між собою:

images \\ RAID \\ 07.gif

Crosspoint Switched - підключення пристроїв в комутатор FibreChannel (аналогічне реалізації мережі Ethernet на комутаторах):

images \\ RAID \\ 08.gif

Arbitrated loop - FC-AL, петля з арбітражним доступом - всі пристрої зв'язані один з одним в кільце, схема чимось нагадує Token Ring. Також може використовуватися комутатор - тоді фізична топологія буде реалізована за схемою «зірка», а логічна - за схемою «петля» (або «кільце»):

images \\ RAID \\ 09.gif

Підключення за схемою FibreChannel Switched є найпоширенішою схемою, в термінах FibreChannel таке підключення називається Fabric - в російській мові існує калька з нього - «фабрика». Слід врахувати, що комутатори FibreChannel - це досить просунуті пристрої, за складністю наповнення близькі до IP-комутаторів рівня 3. Якщо комутатори з'єднані між собою, то вони функціонують в єдиній фабриці, маючи пул налаштувань, що діють для всієї фабрики відразу. Зміна якихось опцій на одному з комутаторів може призводити до перекоммутации всієї фабрики, не кажучи вже про налаштування авторизації доступу, наприклад. З іншого боку, існують схеми SAN, які мають на увазі кілька фабрик всередині єдиної мережі SAN. Таким чином, фабрикою можна називати тільки групу об'єднаних між собою комутаторів - два чи більше не об'єднаних між собою пристрої, введені в SAN для підвищення відмовостійкості, утворюють дві або більше різні фабрики.

Компоненти, що дозволяють об'єднувати хости і системи зберігання даних в єдину мережу, прийнято позначати терміном «connectivity». Connectivity - це, звичайно ж, дуплексні сполучні кабелі (зазвичай з інтерфейсом LC), комутатори (switches) і адаптери FibreChannel (HBA, Host Base Adapters) - тобто ті плати розширення, які, будучи встановленими в хости, дозволяють підключити хост в мережу SAN. HBA зазвичай реалізовані у вигляді плат стандарту PCI-X або PCI-Express.

images \\ RAID \\ 10.jpg

Не варто плутати fibre і fiber - середовище поширення сигналу може бути різною. FibreChannel може працювати по «міді». Наприклад, всі жорсткі диски FibreChannel мають металеві контакти, та й звичайна комутація пристроїв по «міді» - не рідкість, просто поступово всі переходять на оптичні канали як найбільш перспективну технологію і функціональну заміну «міді».

інтерфейс iSCSI

Зазвичай представлений зовнішнім роз'ємом RJ-45 для підключення в мережу Ethernet і власне самим протоколом iSCSI (Internet Small Computer System Interface). За визначенням SNIA: «iSCSI - це протокол, який базується на TCP / IP і розроблений для встановлення взаємодії і управління системами зберігання даних, серверами і клієнтами». На цьому інтерфейсі зупинимося трошки детальніше, хоча б в силу того, що кожен користувач здатний використовувати iSCSI навіть у звичайній «домашньої» мережі.

Необхідно знати, що протокол iSCSI визначає, як мінімум, транспортний протокол для SCSI, який працює поверх TCP, і технологію інкапсуляції SCSI-команд в мережу на базі IP. Простіше кажучи, iSCSI - це протокол, що дозволяє отримати блоковий доступ до даних за допомогою команд SCSI, що пересилаються через мережу зі стеком TCP / IP. iSCSI з'явився як заміна FibreChannel і в сучасних СГД має перед ним кілька переваг - здатність об'єднувати пристрої на великих відстанях (використовуючи існуючі мережі IP), можливість забезпечувати заданий рівень QoS (Quality of Service, якість обслуговування), нижчу вартість connectivity. Однак основна проблема використання iSCSI як заміни FibreChannel - великий час затримок, що виникають в мережі через особливості реалізації стека TCP / IP, що зводить нанівець одне з важливих переваг використання СГД - швидкість доступу до інформації та низьку латентність. Це серйозний мінус.

Маленьке зауваження з приводу хостів - вони можуть використовувати як звичайні мережеві карти (тоді обробка стека iSCSI і інкапсуляція команд буде здійснюватися програмними засобами), Так і спеціалізовані карти з підтримкою технологій аналогічних TOE (TCP / IP Offload Engines). Така технологія забезпечує апаратну обробку відповідної частини стека протоколу iSCSI. Програмний метод дешевше, однак більше завантажує центральний процесор сервера і в теорії може призводити до більшим затримок, ніж апаратний обробник. При сучасній швидкості мереж Ethernet в 1 Гбіт / с можна припустити, що iSCSI буде працювати рівно в два рази повільніше FibreChannel зі швидкістю 2 Гбіт, проте в реальному застосуванні різниця буде ще помітнішою.

Крім уже розглянутих, коротко згадаємо ще пару протоколів, які зустрічаються рідше і призначені для надання додаткових сервісів вже існуючих мереж зберігання даних (SAN):

FCIP (Fibre Channel over IP) - тунельний протокол, побудований на TCP / IP і призначений для з'єднання географічно рознесених мереж SAN через стандартну середу IP. Наприклад, можна об'єднати дві мережі SAN в одну через Інтернет. Досягається це використанням FCIP-шлюзу, який прозорий для всіх пристроїв в SAN.
iFCP (Internet Fibre Channel Protocol) - протокол, що дозволяє поєднувати пристрої з інтерфейсами FC через IP-мережі. Важлива відмінність від FCIP в тому, що можливо об'єднувати саме FC-пристрої через IP-мережу, що дозволяє для різної пари сполук мати різний рівень QoS, що неможливо при тунелюванні через FCIP.

Ми коротко розглянули фізичні інтерфейси, протоколи і типи комутації для систем зберігання даних, не зупиняючись на перерахування всіх можливих варіантів. Тепер спробуємо уявити які ж параметри характеризують системи зберігання даних?

Основні апаратні параметри СГД

Деякі з них були перераховані вище - це тип зовнішніх інтерфейсів підключення та типи внутрішніх накопичувачів (жорстких дисків). Наступний параметр, який є сенс розглядати після двох перерахованих вище при виборі дискової системи зберігання, - її надійність. Надійність можна оцінити не за банальним часу напрацювання на відмову якихось окремих компонент (факт, що цей час приблизно дорівнює у всіх виробників), а за внутрішньою архітектурою. «Звичайна» система зберігання часто «зовні» являє собою дискову полку (для монтажу в 19-дюймовий шафа) з жорсткими дисками, зовнішніми інтерфейсами для підключення хостів, декількома блоками харчування. Усередині зазвичай встановлено все те, що забезпечує роботу системи зберігання - процесорні блоки, контролери дисків, портів введення-виведення, кеш-пам'ять і так далі. Зазвичай управління стійкою здійснюється з командного рядка або по web-інтерфейсу, початкова конфігурація часто вимагає підключення по послідовному інтерфейсу. Користувач може «розбити» наявні в системі диски на групи і об'єднати їх в RAID (різних рівнів), що вийшло дисковий простір розділяється на один або кілька логічних блоків (LUN), до яких і мають доступ хости (сервери) і «бачать» їх як локальні жорсткі диски. Кількість RAID-груп, LUN-ів, логіка роботи кеша, доступність LUN-ів конкретним серверів і все інше встановлюється адміністратором системи. Зазвичай СГД призначені для підключення до них не одного, а декількох (аж до сотень, в теорії) серверів - тому така система повинна володіти високою продуктивністю, гнучкою системою управління і моніторингу, продуманими засобами захисту даних. Захист даних забезпечується багатьма способами, найпростіший з яких ви вже знаєте - об'єднання дисків в RAID. Однак дані повинні бути ще й постійно доступні - адже зупинка однієї системи зберігання даних, центральною на підприємстві, здатна нанести відчутні збитки. чим більше систем зберігає дані на СГД, тим надійніший доступ до системи повинен бути забезпечений - тому що при аварії СГД зупиняється робота відразу всіх серверів, що зберігають там дані. Висока доступність стійки забезпечується повним внутрішнім дублюванням всіх компонент системи - шляхів доступу до стійки (портів FibreChannel), процесорних модулів, кеш-пам'яті, блоків живлення і т.д. Спробуємо принцип 100% -го резервування (дублювання) пояснити наступним малюнком:

images \\ RAID \\ 11.gif

1. Контролер (процесорний модуль) СГД, що включає в себе:
* Центральний процесор (або процесори) - зазвичай на системі працює спеціальне ПЗ, яке виконує роль «операційної системи»;
* Інтерфейси для комутації з жорсткими дисками - в нашому випадку це плати, що забезпечують підключення дисків FibreChannel за схемою петлі з арбітражним доступом (FC-AL);
* Кеш-пам'ять;
* Контролери зовнішніх портів FibreChannel
2. Зовнішній інтерфейс FC; як ми бачимо, тут їх по 2 штуки на кожен процесорний модуль;
3. Жорсткі диски - ємність розширюється додатковими дисковими полками;
4. Кеш-пам'ять в такій схемі зазвичай Віддзеркалюються, щоб не втратити збережені там дані при виході будь-якого модуля з ладу.

Відносно апаратної частини - дискові стійки можуть мати різні інтерфейси для підключення хостів, різні інтерфейси жорстких дисків, різні схеми підключення додаткових полиць, службовців для збільшення числа дисків в системі, а також інші чисто «залізні параметри».

Програмне забезпечення СГД

Природно, апаратна міць систем зберігання повинна якось справлятися, а самі СГД просто зобов'язані надавати рівень сервісу і функціональність, недоступну в звичайних схемах «сервер-клієнт». Якщо розглянути малюнок «Структурна схема системи зберігання даних», стає зрозуміло, що при прямому підключенні сервера до стійки двома шляхами вони повинні бути підключені до FC-портам різних процесорних модулів, для того щоб сервер продовжував працювати при виході з ладу відразу всього процесорного модуля. Природно, для використання multipathing повинна бути забезпечена підтримка цієї функціональності апаратними та програмними засобами всіх рівнів, які беруть участь в передачі даних. Звичайно ж, повне резервування без засобів моніторингу та оповіщення не має сенсу - тому всі серйозні системи зберігання мають такі можливості. Наприклад, оповіщення про будь-які критичні події може відбуватися різними засобами - це сповіщення по e-mail, автоматичний модемний дзвінок в центр техпідтримки, повідомлення на пейджер (зараз актуальніше SMS), SNMP-механізми та інше.

Ну і як ми вже згадували, існують потужні засоби управління всією цією пишністю. Зазвичай це web-інтерфейс, консоль, можливість писати скрипти і вбудовувати управління в зовнішні програмні пакети. Про механізми, що забезпечують високу продуктивність СГД, згадаємо лише коротко - неблокіруемая архітектура з декількома внутрішніми шинами і великою кількістю жорстких дисків, потужні центральні процесори, Спеціалізована система управління (ОС), великий об'єм кеш-пам'яті, безліч зовнішніх інтерфейсів вводу-виводу.

Сервіси, що надаються системами зберігання, зазвичай визначаються програмним забезпеченням, що функціонує на самій дискової стійці. Практично завжди це складні програмні пакети, придбані за окремими ліцензіями, що не входять у вартість самої СГД. Відразу згадаємо вже знайоме вам ПО для забезпечення multipathing - ось воно як раз функціонує на хостах, а не на самій стійці.

Наступний за популярністю рішення - ПО для створення миттєвих і повних копій даних. Різні виробники по-різному називають свої програмні продукти і механізми створення цих копій. Ми для узагальнення можемо маніпулювати словами снапшот (snapshot) і клон (clone). Клон робиться засобами дискової стійки усередині самої стійки - це повна внутрішня копія даних. Сфера застосування досить широка - від бекапа (backup) до створення «тестової версії» вихідних даних, наприклад, для ризикованих модернізацій, в яких немає впевненості і застосовувати які на актуальних даних небезпечно. Той, хто уважно стежив за всіма принадами СГД, які ми тут розбирали, запитає - для чого ж потрібен бекап даних всередині стійки, якщо вона володіє такою високою надійністю? Відповідь на це питання лежить на поверхні - ніхто не застрахований від людських помилок. Дані збережені надійно, але якщо сам оператор зробив щось не так, наприклад, видалив потрібну таблицю в базі даних, від цього не врятують жодні апаратні хитрощі. Клонування даних зазвичай виконується на рівні LUN. Більш цікава функціональність забезпечується механізмом снапшотов. В якійсь мірі ми отримуємо всі принади повної внутрішньої копії даних (клону), при цьому не займаючи 100% обсягу копійованих даних всередині самої стійки, адже такий обсяг нам не завжди доступний. По суті снапшот - миттєвий «знімок» даних, який не займає часу і процесорних ресурсів СГД.

Звичайно не можна не згадати ПО для реплікації (replication) даних, яке часто називають дзеркалюванням (mirroring). Це механізм синхронного або асинхронного реплицирования (дублювання) інформації з однієї системи зберігання на одну або кілька віддалених систем зберігання. Реплікація можлива по різних каналах - наприклад, стійки з інтерфейсами FibreChannel можуть асинхронно, через Інтернет і на великі відстані, реплицироваться на іншу СГД. Таке рішення забезпечує надійність зберігання інформації і захист від катастроф.

Крім всіх перерахованих, існує велика кількість інших програмних мехонізмов маніпуляцій даними ...

DAS & NAS & SAN

Після знайомства з самими системами зберігання даних, принципами їх побудови, наданими ними можливостями та протоколами функціонування саме час спробувати об'єднати отримані знання в працюючу схему. Спробуємо розглянути типи систем зберігання і топології їх підключення в єдину працюючу інфраструктуру.

пристрої DAS (Direct Attached Storage) - системи зберігання, що підключаються безпосередньо до сервера. Сюди відносяться як найпростіші SCSI-системи, що підключаються до SCSI / RAID-контролеру сервера, так і пристрої FibreChannel, підключені прямо до сервера, хоча і призначені вони для мереж SAN. В цьому випадку топологія DAS є вироджених SAN (мережею зберігання даних):

images \\ RAID \\ 12.gif

У цій схемі один з серверів має доступ до даних, що зберігаються на СГД. Клієнти отримують доступ до даних, звертаючись до цього сервера через мережу. Тобто сервер має блоковий доступ до даних на СГД, а вже клієнти користуються файловим доступом - ця концепція дуже важлива для розуміння. Мінуси такої топології очевидні:
* Низька надійність - при проблемах мережі або аварії сервера дані стають недоступними всім відразу.
* Висока латентність, обумовлена \u200b\u200bобробкою всіх запитів одним сервером і використовується транспортом (найчастіше - IP).
* Високе завантаження мережі, часто визначає межі масштабованості шляхом додавання клієнтів.
* Погана керованість - вся ємність доступна одного сервера, що знижує гнучкість розподілу даних.
* Низька утилізація ресурсів - важко передбачити необхідні обсяги даних, у одних пристроїв DAS в організації може бути надлишок ємності (дисків), у інших її може не вистачати - перерозподіл часто неможливо або трудомістким.

пристрої NAS (Network Attached Storage) - пристрої зберігання, підключені безпосередньо в мережу. На відміну від інших систем NAS забезпечує файловий доступ до даних і ніяк інакше. NAS-пристрої являють собою комбінацію системи зберігання даних і сервера, до якого вона підключена. У найпростішому варіанті звичайний мережевий сервер, Що надає файлові ресурси, є пристроєм NAS:

images \\ RAID \\ 13.gif

Всі мінуси такої схеми аналогічні DAS-топології, за деяким винятком. З додав мінусів відзначимо збільшену, і часто значно, вартість - правда, вартість пропорційна функціональності, а тут вже часто «є за що платити». NAS-пристрої можуть бути найпростішими «коробочками» з одним портом ethernet і двома жорсткими дисками в RAID1, що дозволяють доступ до файлів по лише одному протоколу CIFS (Common Internet File System) до величезних систем в яких можуть бути встановлені сотні жорстких дисків, а файловий доступ забезпечується десятком спеціалізованих серверів всередині NAS-системи. Число зовнішніх Ethernet-портів може досягати багатьох десятків, а ємність збережених даних - кілька сотень терабайт (наприклад EMC Celerra CNS). Такі моделі по надійності і продуктивності можуть далеко обходити багато midrange-пристрої SAN. Що цікаво, NAS-пристрої можуть бути частиною SAN-мережі і не мати власних накопичувачів, а лише надавати файловий доступ до даних, що знаходяться на блокових пристроях зберігання. В такому випадку NAS бере на себе функцію потужного спеціалізованого сервера, а SAN - пристрої зберігання даних, тобто ми отримуємо топологію DAS, скомпоновану з NAS- і SAN-компонентів.

NAS-пристрої дуже гарні в гетерогенному середовищі, де необхідний швидкий файловий доступ до даних для багатьох клієнтів одночасно. Також забезпечується відмінна надійність зберігання і гнучкість управління системою укупі з простотою обслуговування. На надійності особливо зупинятися не будемо - це аспект СГД розглянуто вище. Що стосується гетерогенного середовища, доступ до файлів в рамках єдиної NAS-системи може бути отриманий за протоколами TCP / IP, CIFS, NFS, FTP, TFTP і іншим, включаючи можливість роботи NAS, як iSCSI-target, що забезпечує функціонування з різним ОС, встановленими на хостах. Що стосується легкості обслуговування і гнучкості управління, то ці можливості забезпечуються спеціалізованої ОС, яку важко вивести з ладу і не потрібно обслуговувати, а також простотою розмежування прав доступу до файлів. Наприклад, можлива робота в середовищі Windows Active Directory з підтримкою необхідної функціональності - це може бути LDAP, Kerberos Authentication, Dynamic DNS, ACLs, призначення квот (quotas), Group Policy Objects і SID-історії. Так як доступ забезпечується до файлів, а їх імена можуть містити символи різних мов, Багато NAS забезпечують підтримку кодувань UTF-8, Unicode. До вибору NAS варто підходити навіть ретельніше, ніж до DAS-пристроїв, адже таке обладнання може не підтримувати необхідні вам сервіси, наприклад, Encrypting File Systems (EFS) від Microsoft і IPSec. До слова можна помітити, що NAS поширені набагато менше, ніж пристрої SAN, але відсоток таких систем все ж постійно, хоча і повільно, зростає - в основному за рахунок витіснення DAS.

Пристрої для підключення в SAN (Storage Area Network) - пристрої для підключення в мережу зберігання даних. Мережа зберігання даних (SAN) не коштує плутати з локальною мережею - це різні мережі. Найчастіше SAN грунтується на стекупротоколів FibreChannel і в найпростішому випадку складається з СГД, комутаторів і серверів, об'єднаних оптичними каналами зв'язку. На малюнку ми бачимо високонадійну інфраструктуру, в якій сервери включені одночасно в локальну мережу (ліворуч) і в мережу зберігання даних (праворуч):

images \\ RAID \\ 14.gif

Після досить детального розгляду пристроїв і принципів їх функціонування нам буде досить легко зрозуміти топологію SAN. На малюнку ми бачимо єдину для всієї інфраструктури СГД, до якої підключені два сервера. Сервери мають резервовані шляху доступу - в кожному встановлено по два HBA (або один двухпортовий, що знижує відмовостійкість). Пристрій зберігання має 4 порти, якими воно підключено в 2 комутатора. Припускаючи, що всередині є два резервних процесорних модуля, легко здогадатися, що найкраща схема підключення - коли кожен комутатор підключений і в перший, і в другий процесорний модуль. Така схема забезпечує доступ до будь-яких даних, що знаходяться на СГД, при виході з ладу будь-якого процесорного модуля, комутатора або шляху доступу. Надійність СГД нами вже вивчена, два комутатора і дві фабрики ще більш збільшують доступність топології, так що якщо через збій або помилки адміністратора один з комутаційних блоків раптом відмовив, другий буде функціонувати нормально, адже ці два пристрої не пов'язані між собою.

Показане підключення серверів називається підключенням з високою доступністю (high availability), хоча в сервері при необхідності може бути встановлено ще більше число HBA. Фізично кожен сервер має тільки два підключення в SAN, проте логічно система зберігання доступна через чотири шляхи - кожна HBA надає доступ до двох точках підключення на СГД, до кожного процесорного модуля окремо (цю можливість забезпечує подвійне підключення комутатора до СГД). На даній схемі саме ненадійною пристрій - це сервер. Два комутатора забезпечують надійність порядку 99,99%, а ось сервер може відмовити з різних причин. Якщо необхідна високонадійних робота всієї системи, сервери об'єднуються в кластер, наведена схема не вимагає ніякого апаратного доповнення для організації такої роботи і вважається еталонною схемою організації SAN. Найпростіший же випадок - сервери, підключені єдиним шляхом через один світч до системи зберігання. Однак система зберігання при наявності двох процесорних модулів повинна підключатися в комутатор як мінімум одним каналом на кожен модуль - інші порти можуть бути використані для прямого підключення серверів до СГД, що іноді необхідно. І не варто забувати, що SAN можливо побудувати не тільки на базі FibreChannel, але і на базі протоколу iSCSI - при цьому можна використовувати тільки стандартні ethernet-пристрої для комутації, що здешевлює систему, але має ряд додаткових мінусів (обумовлених в розділі, який розглядає iSCSI ). Також цікава можливість завантаження серверів з системи зберігання - не обов'язково навіть наявність внутрішніх жорстких дисків в сервері. Таким чином, з серверів остаточно знімається задача зберігання будь-яких даних. В теорії спеціалізований сервер може бути перетворений в звичайну чіслодробілку без будь-яких накопичувачів, що визначають блоками якого є центральні процесори, пам'ять, а так само інтерфейси взаємодії із зовнішнім світом, наприклад порти Ethernet і FibreChannel. Якась подоба таких пристроїв являють собою сучасні blade-сервери.

Хочеться відзначити, що пристрої, які можна підключити в SAN, не обмежені тільки дисковими СГД - це можуть бути дискові бібліотеки, стрічкові бібліотеки (стримери), пристрої для зберігання даних на оптичних дисках (CD / DVD та інші) і багато інших.
З мінусів SAN відзначимо лише високу вартість її компонент, однак плюси незаперечні:
* Висока надійність доступу до даних, що знаходяться на зовнішніх системах зберігання. Незалежність топології SAN від використовуваних СГД і серверів.
* Централізоване зберігання даних (надійність, безпеку).
* Зручне централізоване управління комутацією і даними.
* Перенесення інтенсивного трафіку введення-виведення в окрему мережу, розвантажуючи LAN.
* Висока швидкодія та низька латентність.
* Масштабованість і гнучкість логічної структури SAN
* Географічно розміри SAN, на відміну від класичних DAS, практично не обмежені.
* Можливість оперативно розподіляти ресурси між серверами.
* Можливість будувати відмовостійкі кластерні рішення без додаткових витрат на базі наявної SAN.
* Проста схема резервного копіювання - всі дані знаходяться в одному місці.
* Наявність додаткових можливостей і сервісів (снапшоти, віддалена реплікація).
* Високий ступінь безпеки SAN.

На закінчення
Думаю, ми досить повно висвітлили основне коло питань, пов'язаних з сучасними системами зберігання. Будемо сподіватися, що такі пристрої будуть ще стрімкіше розвиватися функціонально, а число механізмів управління даними буде тільки рости.

На закінчення можна сказати, що NAS і SAN-рішення в даний момент переживають справжній бум. Число виробників і різноманітність рішень збільшується, технічна грамотність споживачів зростає. Сміливо можна припускати, що в найближчому майбутньому практично в кожній обчислювальної середовищі з'являться ті чи інші системи зберігання даних.

Будь-які дані постають перед нами у вигляді інформації. Сенс роботи будь-яких обчислювальних пристроїв - обробка інформації. Останнім часом обсяги її зростання часом лякають, тому системи зберігання даних і спеціалізоване програмне забезпечення, безсумнівно, будуть самим затребуваними продуктами IT-рику в найближчі роки.

Що це?
Мережа зберігання даних, Або Storage Area Network - це система, що складається з власне пристроїв зберігання даних - дискових, або RAID - масивів, стрічкових бібліотек і іншого, середовища передачі даних і підключених до неї серверів. Зазвичай використовується досить великими компаніями, що мають розвинену IT інфраструктуру, для надійного зберігання даних і швидкісного доступу до них.
Спрощено, СГД - це система, що дозволяє роздавати серверів надійні швидкі диски змінною ємності з різних пристроїв зберігання даних.

Трохи теорії.
Сервер до сховища даних можна підключити декількома способами.
Перший і найпростіший - DAS, Direct Attached Storage (пряме підключення), без викрутасів ставимо диски в сервер, або масив в адаптер сервера - і отримуємо багато гігабайт дискового простору з порівняно швидким доступом, І при використанні RAID-масиву - достатню надійність, хоча списи на тему надійності вже давно.
Однак таке використання дискового простору не оптимальне - на одному сервері місце закінчується, на іншому його ще багато. Вирішення цієї проблеми - NAS, Network Attached Storage (сховище, підключений по мережі). Однак при всіх перевагах цього рішення - гнучкості і централізованого управління - є один істотний недолік - швидкість доступу, ще не в усіх організаціях впроваджена мережу 10 гігабіт. І ми підходимо до мережі зберігання даних.

Головна відмінність SAN від NAS (крім порядку букв в абревіатурах) - це те, яким чином бачаться підключаються ресурси на сервері. Якщо в NAS ресурси підключаються протоколам NFS або SMB, в SAN ми отримуємо підключення до диску, з яким можемо працювати на рівні операцій блочного введення-виведення, що набагато швидше мережевого підключення (плюс контролер масиву з великим кешем додає швидкості на багатьох операціях).

Використовуючи SAN, ми поєднуємо переваги DAS - швидкість і простоту, і NAS - гнучкість і керованість. Плюс отримуємо можливість масштабування систем зберігання до тих пір, поки вистачає грошей, паралельно вбиваючи одним пострілом ще кілька зайців, яких відразу не видно:

* Знімаємо обмеження на дальність підключення SCSI -устройств, які зазвичай обмежені проводом в 12 метрів,
* Зменшуємо час резервного копіювання,
* Можемо грузиться з SAN,
* В разі відмови від NAS розвантажуємо мережу,
* Отримуємо велику швидкість введення-виведення за рахунок оптимізації на стороні системи зберігання,
* Отримуємо можливість підключати кілька серверів до одного ресурсу, то нам дає наступних двох зайців:
o на повну використовуємо можливості VMWare - наприклад VMotion (міграцію віртуальної машини між фізичними) і іже з ними,
o можемо будувати відмовостійкі кластери та організовувати територіально розподілені мережі.

Що це дає?
Крім освоєння бюджету оптимізації системи зберігання даних, ми отримуємо, на додачу до того що я написав вище:

* Збільшення продуктивності, балансування навантаження і високу доступність систем зберігання за рахунок декількох шляхів доступу до масивів;
* Економію на дисках за рахунок оптимізації розташування інформації;
* Прискорене відновлення після збоїв - можна створити тимчасові ресурси, розгорнути на них backup і підключити до них сервера, а самим без поспіху відновлювати інформацію, або перекинути ресурси на інші сервера і спокійно розбиратися з померлим залізом;
* Зменшення час резервного копіювання - завдяки високій швидкості передачі можна бекапіть на стрічкову бібліотеку швидше, або взагалі зробити snapshot (миттєвий знімок) з файлової системи і спокійно архівувати його;
* Дисковий простір на вимогу - коли нам потрібно - завжди можна додати пару полиць в систему зберігання даних.
* Зменшуємо вартість зберігання мегабайта інформації - природно, є певний поріг, з якого ці системи рентабельні.
* Надійне місце для зберігання mission critical і business critical даних (без яких організація не може існувати і нормально працювати).
* Окремо хочу згадати VMWare - повністю всі фішки на зразок міграції віртуальних машин з сервера на сервер і іншої смакоти доступні тільки на SAN.

З чого це складається?
Як я писав вище - СГД складається з пристроїв зберігання, середовища передачі і підключених серверів. Розглянемо по порядку:

Системи зберігання даних зазвичай складаються з жорстких дисків і контролерів, в поважаючої себе системі як правило всього по 2 - по 2 контролера, по 2 шляхи до кожного диску, по 2 інтерфейсу, по 2 блоки живлення, по 2 адміністратора. З найбільш шанованих виробників систем слід згадати HP, IBM, EMC і Hitachi. Тут процитую одного представника EMC на семінарі - «Компанія HP робить відмінні принтери. Ось нехай вона їх і робить! » Підозрюю, що в HP теж дуже люблять EMC. Конкуренція між виробниками неабияка, втім, як і скрізь. Наслідки конкуренції - іноді осудні ціни за мегабайт системи зберігання і проблеми з сумісністю і підтримкою стандартів конкурентів, особливо у старого обладнання.

Середовище передачі даних. Зазвичай SAN будують на оптиці, це дає на поточний момент швидкість в 4, місцями в 8 гігабіт на канал. При побудові раніше використовувалися спеціалізовані хаби, зараз більше свитчи, в основному від Qlogic, Brocade, McData і Cisco (останні два на майданчиках не бачив жодного разу). Кабелі використовуються традиційні для оптичних мереж - одномодові і багатомодові, одномодові більш далекобійні.
Всередині використовується FCP - Fibre Channel Protocol, транспортний протокол. Як правило всередині нього бігає класичний SCSI, а FCP забезпечує адресацію і доставку. Є варіант з підключенням по звичайній мережі і iSCSI, але він зазвичай використовує (і сильно вантажить) локальну, а не виділену під передачу даних мережа, і вимагає адаптерів з підтримкою iSCSI, ну і швидкість повільніше, ніж з оптики.

Є ще розумне слово топологія, яке зустрічається у всіх підручниках по SAN. Топологій кілька, найпростіший варіант - точка-точка (point to point), з'єднуємо між собою 2 системи. Це не DAS, а сферичний кінь у вакуумі найпростіший варіант SAN. Далі йде керована петля (FC-AL), вона працює за принципом «передай далі» - передавач кожного пристрою з'єднаний з приймачем подальшого, пристрої замкнуті в кільце. Довгі ланцюжки мають властивість довго инициализироваться.

Ну і заключний варіант - коммутируемая структура (Fabric), вона створюється за допомогою світчей. Структура підключень будується в залежності від кількості підключаються портів, як і при побудові локальної мережі. Основний принцип побудови - всі шляхи і зв'язку дублюються. Це означає, що до кожного пристрою в мережі є мінімум 2 різних шляху. Тут теж вживано слово топологія, в сенсі організації схеми підключень пристроїв і з'єднання світчей. При цьому як правило свитчи налаштовуються так, що сервера не бачать нічого, крім призначених їм ресурсів. Це досягається за рахунок створення віртуальних мереж і називається зонуванням, найближча аналогія - VLAN. Кожному пристрою в мережі присвоюється аналог MAC-адреси в мережі Ethernet, він називається WWN - World Wide Name. Він присвоюється кожному інтерфейсу і кожному ресурсу (LUN) систем зберігання даних. Масиви і свитчи вміють розмежовувати доступ по WWN для серверів.

сервера підключають до СГД через HBA - Host Bus Adapter -и. За аналогією з мережевими картами існують одно-, дво-, чотирьохпортовий адаптери. Кращі собаківники рекомендують ставити по 2 адаптера на сервер, це дозволяє як здійснювати балансування навантаження, так і забезпечує надійність.

А далі на системах зберігання нарізаються ресурси, вони ж диски (LUN) для кожного сервера і залишається місце в запас, все включається, установники системи прописують топологію, ловлять глюки в налаштуванні світчей і доступу, все запускається і всі живуть довго і щасливо *.
Я спеціально не торкаюся різних типів портів в оптичної мережі, кому треба - той і так знає або прочитає, кому не треба - тільки голову забивати. Але як завжди, при невірно встановленому типі порту нічого працювати не буде.

З досвіду.
Зазвичай при створенні SAN замовляють масиви з декількома типами дисків: FC для швидкісних додатків, і SATA або SAS для не дуже швидких. Таким чином виходять 2 дискові групи з різною вартістю мегабайта - дорога і швидка, і повільна і сумна дешева. На швидку вішаються зазвичай всі бази даних і інші додатки з активним і швидким введенням-висновком, на повільну - файлові ресурси і все інше.

Якщо SAN створюється з нуля - має сенс будувати її на основі рішень від одного виробника. Справа в тому, що, незважаючи на заявлене відповідність стандартам, існують підводні граблі проблеми сумісності обладнання, і не факт, що частина обладнання буде працювати один з одним без танців з бубном і консультацій з виробниками. Зазвичай для утруски таких проблем простіше покликати інтегратора і дати йому грошей, ніж спілкуватися з переводять один на одного стрілки виробниками.

Якщо SAN створюється на базі існуючої інфраструктури - все може бути складно, особливо якщо є старі SCSI масиви і зоопарк старої техніки від різних виробників. У цьому випадку має сенс кликати на допомогу страшного звіра інтегратора, який буде розплутувати проблеми сумісності і наживати третю віллу на Канарах.

Часто при створенні СГД фірми не замовляють підтримку системи виробником. Зазвичай це виправдано, якщо у фірми є штат грамотних компетентних адміністраторів (які вже 100 раз назвали мене чайником) і неабиякий капітал, що дозволяє закупити запасні комплектуючі в потрібних кількостях. Однак компетентних адміністраторів зазвичай переманюють інтегратори (сам бачив), а грошей на закупівлю не виділяють, і після збоїв починається цирк з криками «Всіх звільню!» замість дзвінка в саппорт і приїзду інженера з запасний деталлю.

Підтримка зазвичай зводиться до заміни померлих дисків і контролерів, ну і до додавання в систему полиць з дисками і нових серверів. Багато клопоту буває після раптової профілактики системи силами місцевих фахівців, особливо після повного зупинення і розбирання-збирання системи (і таке буває).

Про VMWare. Наскільки я знаю (фахівці з віртуалізації поправте мене), тільки у VMWare і Hyper-V є функціонал, що дозволяє «на льоту» перекидати віртуальні машини між фізичними серверами. І для його реалізації потрібно, щоб всі сервери, між якими переміщається віртуальна машина, Були приєднані до одного диску.

Про кластери. Аналогічно до випадку з VMWare, відомі мені системи побудови відмовостійких кластерів (Sun Cluster, Veritas Cluster Server) - вимагають підключеного до всіх систем сховища.

Поки писав статтю - у мене запитали - в які RAIDи зазвичай об'єднують диски?
У моїй практиці зазвичай робили або по RAID 1 + 0 на кожну дискову полку з FC дисками, залишаючи 1 запасний диск (Hot Spare) і нарізали з цього шматка LUN-и під завдання, або робили RAID5 з повільних дисків, знову ж залишаючи 1 диск на заміну. Але тут питання складне, і зазвичай спосіб організації дисків в масиві вибирається під кожну ситуацію і обґрунтовується. Та ж EMC наприклад йде ще далі, і у них є додаткова настройка масиву під додатки, що працюють з ним (наприклад під OLTP, OLAP). З іншими вендорами я так глибоко не копає, але здогадуюся, що тонка настройка є у кожного.

* До першого серйозного збою, після нього зазвичай купується підтримка у виробника або постачальника системи.
Оскільки в пісочниці коментарів немає, закину в особистий блог.

Теги: Додати теги

І іншого, середовища передачі даних і підключених до неї серверів. Зазвичай використовується досить великими компаніями, що мають розвинену IT інфраструктуру, для надійного зберігання даних і швидкісного доступу до них.
Спрощено, СГД - це система, що дозволяє роздавати серверів надійні швидкі диски змінною ємності з різних пристроїв зберігання даних.

Трохи теорії.
Сервер до сховища даних можна підключити декількома способами.
Перший і найпростіший - DAS, Direct Attached Storage (пряме підключення), без викрутасів ставимо диски в сервер, або масив в адаптер сервера - і отримуємо багато гігабайт дискового простору з порівняно швидким доступом, і при використанні RAID-масиву - достатню надійність, хоча списи на тему надійності ламають вже давно.
Однак таке використання дискового простору не оптимальне - на одному сервері місце закінчується, на іншому його ще багато. Вирішення цієї проблеми - NAS, Network Attached Storage (сховище, підключений по мережі). Однак при всіх перевагах цього рішення - гнучкості і централізованого управління - є один істотний недолік - швидкість доступу, ще не в усіх організаціях впроваджена мережу 10 гігабіт. І ми підходимо до мережі зберігання даних.

Головна відмінність SAN від NAS (крім порядку букв в абревіатурах) - це те, яким чином бачаться підключаються ресурси на сервері. Якщо в NAS ресурси підключаються протоколам NFS або SMB, в SAN ми отримуємо підключення до диску, з яким можемо працювати на рівні операцій блочного введення-виведення, що набагато швидше мережевого підключення (плюс контролер масиву з великим кешем додає швидкості на багатьох операціях).

Використовуючи SAN, ми поєднуємо переваги DAS - швидкість і простоту, і NAS - гнучкість і керованість. Плюс отримуємо можливість масштабування систем зберігання до тих пір, поки вистачає грошей, паралельно вбиваючи одним пострілом ще кілька зайців, яких відразу не видно:

* Знімаємо обмеження на дальність підключення SCSI -устройств, які зазвичай обмежені проводом в 12 метрів,
* Зменшуємо час резервного копіювання,
* Можемо грузиться з SAN,
* В разі відмови від NAS розвантажуємо мережу,
* Отримуємо велику швидкість введення-виведення за рахунок оптимізації на стороні системи зберігання,
* Отримуємо можливість підключати кілька серверів до одного ресурсу, це нам дає наступних двох зайців:
- на повну використовуємо можливості VMWare - наприклад VMotion (міграцію віртуальної машини між фізичними) і іже з ними,
- можемо будувати відмовостійкі кластери та організовувати територіально розподілені мережі.

Що це дає?
Крім освоєння бюджету оптимізації системи зберігання даних, ми отримуємо, на додачу до того що я написав вище:

* Збільшення продуктивності, балансування навантаження і високу доступність систем зберігання за рахунок декількох шляхів доступу до масивів;
* Економію на дисках за рахунок оптимізації розташування інформації;
* Прискорене відновлення після збоїв - можна створити тимчасові ресурси, розгорнути на них backup і підключити до них сервера, а самим без поспіху відновлювати інформацію, або перекинути ресурси на інші сервера і спокійно розбиратися з померлим залізом;
* Зменшення час резервного копіювання - завдяки високій швидкості передачі можна бекапіть на стрічкову бібліотеку швидше, або взагалі зробити snapshot (миттєвий знімок) з файлової системи і спокійно архівувати його;
* Дисковий простір на вимогу - коли нам потрібно - завжди можна додати пару полиць в систему зберігання даних.
* Зменшуємо вартість зберігання мегабайта інформації - природно, є певний поріг, з якого ці системи рентабельні.
* Надійне місце для зберігання mission critical і business critical даних (без яких організація не може існувати і нормально працювати).
* Окремо хочу згадати VMWare - повністю всі фішки на зразок міграції віртуальних машин з сервера на сервер і іншої смакоти доступні тільки на SAN.

З чого це складається?
Як я писав вище - СГД складається з пристроїв зберігання, середовища передачі і підключених серверів. Розглянемо по порядку:

Системи зберігання даних зазвичай складаються з жорстких дисків і контролерів, в поважаючої себе системі як правило всього по 2 - по 2 контролера, по 2 шляхи до кожного диску, по 2 інтерфейсу, по 2 блоки живлення, по 2 адміністратора. З найбільш шанованих виробників систем слід згадати HP, IBM, EMC і Hitachi. Тут процитую одного представника EMC на семінарі - «Компанія HP робить відмінні принтери. Ось нехай вона їх і робить! » Підозрюю, що в HP теж дуже люблять EMC. Конкуренція між виробниками неабияка, втім, як і скрізь. Наслідки конкуренції - іноді осудні ціни за мегабайт системи зберігання і проблеми з сумісністю і підтримкою стандартів конкурентів, особливо у старого обладнання.

Середовище передачі даних.

Зазвичай SAN будують на оптиці, це дає на поточний момент швидкість в 4, місцями в 8 гігабіт на канал. При побудові раніше використовувалися спеціалізовані хаби, зараз більше свитчи, в основному від Qlogic, Brocade, McData і Cisco (останні два на майданчиках не бачив жодного разу). Кабелі використовуються традиційні для оптичних мереж - одномодові і багатомодові, одномодові більш далекобійні.
Всередині використовується FCP - Fibre Channel Protocol, транспортний протокол. Як правило всередині нього бігає класичний SCSI, а FCP забезпечує адресацію і доставку. Є варіант з підключенням по звичайній мережі і iSCSI, але він зазвичай використовує (і сильно вантажить) локальну, а не виділену під передачу даних мережа, і вимагає адаптерів з підтримкою iSCSI, ну і швидкість повільніше, ніж з оптики.

Є ще розумне слово топологія, яке зустрічається у всіх підручниках по SAN. Топологій кілька, найпростіший варіант - точка-точка (point to point), з'єднуємо між собою 2 системи. Це не DAS, а сферичний кінь у вакуумі найпростіший варіант SAN. Далі йде керована петля (FC-AL), вона працює за принципом «передай далі» - передавач кожного пристрою з'єднаний з приймачем подальшого, пристрої замкнуті в кільце. Довгі ланцюжки мають властивість довго инициализироваться.

Ну і заключний варіант - коммутируемая структура (Fabric), вона створюється за допомогою світчей. Структура підключень будується в залежності від кількості підключаються портів, як і при побудові локальної мережі. Основний принцип побудови - всі шляхи і зв'язку дублюються. Це означає, що до кожного пристрою в мережі є мінімум 2 різних шляху. Тут теж вживано слово топологія, в сенсі організації схеми підключень пристроїв і з'єднання світчей. При цьому як правило свитчи налаштовуються так, що сервера не бачать нічого, крім призначених їм ресурсів. Це досягається за рахунок створення віртуальних мереж і називається зонуванням, найближча аналогія - VLAN. Кожному пристрою в мережі присвоюється аналог MAC-адреси в мережі Ethernet, він називається WWN - World Wide Name. Він присвоюється кожному інтерфейсу і кожному ресурсу (LUN) систем зберігання даних. Масиви і свитчи вміють розмежовувати доступ по WWN для серверів.

сервера підключають до СГД через HBA - Host Bus Adapter -и. За аналогією з мережевими картами існують одно-, дво-, чотирьохпортовий адаптери. Кращі "собаківники" рекомендують ставити по 2 адаптера на сервер, це дозволяє як здійснювати балансування навантаження, так і забезпечує надійність.

А далі на системах зберігання нарізаються ресурси, вони ж диски (LUN) для кожного сервера і залишається місце в запас, все включається, установники системи прописують топологію, ловлять глюки в налаштуванні світчей і доступу, все запускається і всі живуть довго і щасливо *.
Я спеціально не торкаюся різних типів портів в оптичної мережі, кому треба - той і так знає або прочитає, кому не треба - тільки голову забивати. Але як завжди, при невірно встановленому типі порту нічого працювати не буде.

З досвіду.
Зазвичай при створенні SAN замовляють масиви з декількома типами дисків: FC для швидкісних додатків, і SATA або SAS для не дуже швидких. Таким чином виходять 2 дискові групи з різною вартістю мегабайта - дорога і швидка, і повільна і сумна дешева. На швидку вішаються зазвичай всі бази даних і інші додатки з активним і швидким введенням-висновком, на повільну - файлові ресурси і все інше.

Якщо SAN створюється з нуля - має сенс будувати її на основі рішень від одного виробника. Справа в тому, що, незважаючи на заявлене відповідність стандартам, існують підводні граблі проблеми сумісності обладнання, і не факт, що частина обладнання буде працювати один з одним без танців з бубном і консультацій з виробниками. Зазвичай для утруски таких проблем простіше покликати інтегратора і дати йому грошей, ніж спілкуватися з переводять один на одного стрілки виробниками.

Якщо SAN створюється на базі існуючої інфраструктури - все може бути складно, особливо якщо є старі SCSI масиви і зоопарк старої техніки від різних виробників. У цьому випадку має сенс кликати на допомогу страшного звіра інтегратора, який буде розплутувати проблеми сумісності і наживати третю віллу на Канарах.

Часто при створенні СГД фірми не замовляють підтримку системи виробником. Зазвичай це виправдано, якщо у фірми є штат грамотних компетентних адміністраторів (які вже 100 раз назвали мене чайником) і неабиякий капітал, що дозволяє закупити запасні комплектуючі в потрібних кількостях. Однак компетентних адміністраторів зазвичай переманюють інтегратори (сам бачив), а грошей на закупівлю не виділяють, і після збоїв починається цирк з криками «Всіх звільню!» замість дзвінка в саппорт і приїзду інженера з запасний деталлю.

Підтримка зазвичай зводиться до заміни померлих дисків і контролерів, ну і до додавання в систему полиць з дисками і нових серверів. Багато клопоту буває після раптової профілактики системи силами місцевих фахівців, особливо після повного зупинення і розбирання-збирання системи (і таке буває).

Про VMWare. Наскільки я знаю (фахівці з віртуалізації поправте мене), тільки у VMWare і Hyper-V є функціонал, що дозволяє «на льоту» перекидати віртуальні машини між фізичними серверами. І для його реалізації потрібно, щоб всі сервери, між якими переміщається віртуальна машина, були приєднані до одного диску.

Про кластери. Аналогічно до випадку з VMWare, відомі мені системи побудови відмовостійких кластерів (Sun Cluster, Veritas Cluster Server) - вимагають підключеного до всіх систем сховища.

Поки писав статтю - у мене запитали - в які RAIDи зазвичай об'єднують диски?
У моїй практиці зазвичай робили або по RAID 1 + 0 на кожну дискову полку з FC дисками, залишаючи 1 запасний диск (Hot Spare) і нарізали з цього шматка LUN-и під завдання, або робили RAID5 з повільних дисків, знову ж залишаючи 1 диск на заміну. Але тут питання складне, і зазвичай спосіб організації дисків в масиві вибирається під кожну ситуацію і обґрунтовується. Та ж EMC наприклад йде ще далі, і у них є додаткова настройка масиву під додатки, що працюють з ним (наприклад під OLTP, OLAP). З іншими вендорами я так глибоко не копає, але здогадуюся, що тонка настройка є у кожного.

* До першого серйозного збою, після нього зазвичай купується підтримка у виробника або постачальника системи.

Ще ніколи проблема зберігання файлів не стояла так гостро, як сьогодні.

Поява жорстких дисків об'ємом в 3 і навіть 4ТБ, Blu-Ray дисків ємністю від 25 до 50ГБ, хмарних сховищ - не вирішує проблему. Навколо нас стає все більше пристроїв, що породжують великоваговий контент навколо: фото і відео-камери, смартфони, HD-телебачення і відео, ігрові консолі тощо Ми генеруємо і споживаємо (в основному з інтернету) сотні і тисячі гігабайт.

Це призводить до того, що на комп'ютері середньостатистичного користувача зберігається величезна кількість файлів, на сотні гігабайт: фотоархів, колекція улюблених фільмів, ігор, програм, робочі документи і т.д.

Це все потрібно не просто зберігати, а й уберегти від збоїв та інших загроз.

Псевдо-рішення проблеми

Можна оснастити свій комп'ютер ємним жорстким диском. Але в цьому випадку постає питання: як і куди архівувати, скажімо, дані з 3-терабайтного диска ?!

Можна поставити два диска і використовувати їх в режимі RAID «дзеркало» або просто регулярно створювати резервні копії з одного на інший. Це теж не кращий варіант. Припустимо, комп'ютер атакований вірусами: швидше за все, вони заразять дані на обох дисках.

Можна зберігати важливі дані на оптичних дисках, організувавши домашній Blu-Ray архів. Але користуватися ним буде вкрай незручно.

Мережеве сховище - вирішення проблеми! Почасти ...

Network attached storage (NAS) - мережеве файлове сховище. Але можна пояснити ще простіше:

Припустимо, у вас вдома два або три комп'ютери. Швидше за все, вони підключені до локальної мережі (дротового або бездротового) і до інтернету. Мережеве сховище - це спеціалізований комп'ютер, який вбудовується в вашу домашню мережу і підключається до інтернету.

В результаті цього - NAS може зберігати будь-які Ваші дані, а ви можете отримувати до нього доступ з будь-якого домашнього ПК або ноутбука. Забігаючи вперед, варто сказати, що локальна мережа повинна бути досить сучасною для того, щоб ви могли швидко і без проблем «прокачувати» по ній десятки і сотні гігабайт між сервером і комп'ютерами. Але про це - пізніше.

Де взяти NAS?

Спосіб перший: покупка. Більш-менш пристойний NAS на 2 або 4 жорстких диска можна купити за 500-800 доларів. Такий сервер буде упакований в невеликий корпус і готовий до роботи, що називається, «з коробки».

Однак, ПЛЮС до цих 500-800 доларів додається ще вартість жорстких дисків! Так як зазвичай NAS продаються без них.

Плюси: ви отримуєте готовий пристрій і витрачаєте мінімум часу.

Мінуси такого рішення: NAS варто як настільний комп'ютер, але при цьому володіє незрівнянно меншими можливостями. Фактично це просто мережевий зовнішній диск за великі гроші. За досить великі гроші ви отримуєте обмежений, невигідний опцій.

Моє рішення: самостійна збірка!

Це набагато дешевше покупки окремого NAS, хоч і трохи довше адже ви збираєте машину самостійно). Однак, ви отримуєте повноцінний домашній сервер, який при бажанні можна використовувати у всьому спектрі його можливостей.

УВАГА!Я настійно не рекомендую збирати домашній сервер, використовуючи старий комп'ютер або старі, відпрацьовані своє комплектуючі. Не забувайте, що файловий сервер - це сховище ваших даних. Чи не поскупилася зробити його максимально надійним, щоб в один прекрасний день всі ваші файли не «згоріли» разом з жорсткими дисками, наприклад, через збій у мережі живлення системної плати ...

Отже, ми вирішили зібрати домашній файловий сервер. Комп'ютер, жорсткі диски якого доступні в домашньої локальної мережі для використання. Відповідно, нам потрібно щоб такий комп'ютер був економічним в плані енергоспоживання, тихим, компактним, не виокремлював багато тепла і володів достатньою продуктивністю.

Ідеальним рішенням виходячи з цього є системна плата з вбудованим в неї процесором та пасивним охолодженням, Компактних розмірів.

Я вибрав системну плату ASUS С-60M1-I . Вона була куплена в інтернет-магазині dostavka.ru:



У комплекті поставки якісне керівництво користувача, диск з драйверами, наклейка на корпус, 2 кабелі SATA і задня панель для корпуса:



ASUS, як втім і завжди, укомплектував плату дуже щедро. Повні специфікації плати ви можете дізнатися тут: http://www.asus.com/Motherboard/C60M1I/#specifications. Я скажу лише про деякі важливі моменти.

При вартості всього в 3300 рублів - вона забезпечує 80% всього того, що нам потрібно для сервера.

На борту плати знаходиться двоядерний процесор AMD C-60 з вбудованим графічним чіпом. Процесор має частоту 1 ГГц(Автоматично може збільшуватися до 1,3 ГГц). На сьогодні він встановлюється в деякі нетбуки і навіть ноутбуки. процесор класу Intel Atom D2700. Але всім відомо, що Atom має проблеми з паралельними обчисленнями, що часто зводить його продуктивність на «ні». А ось C-60 - позбавлений цього недоліку, і в добавок оснащений досить потужною для цього класу графікою.

В наявності два слоти для пам'яті DDR3-1066, З можливістю установки до 8 ГБ пам'яті.

Плата містить на борту 6 портів SATA 6 Гбіт. Що дозволяє підключити до системи цілих 6 дисків (!), А не тільки 4, як в звичайному NAS для дому.

Що САМЕ важливе - плата побудована на базі UEFI, А не звичного нам BIOS. Це означає, що система зможе нормально працювати з жорсткими дисками більше 2,2 ТБ. Вона «побачить» весь їх обсяг. Системні плати на BIOS не можуть працювати з жорсткими дисками більше 2,2 ГБ без спеціальних «утиліт-милиць». Зрозуміло, використання такого роду утиліт неприпустимо, якщо ми ведемо мову про надійність зберігання даних і про серверах.

З-60 досить холодний процесор, тому він охолоджується за допомогою одного тільки алюмінієвого радіатора. Цього достатньо, щоб навіть в момент повного завантаження температура процесора не підвищувалася більш 50-55 градусів. Що є нормою.



Набір портів цілком стандартний, засмучує тільки відсутність нового USB 3.0. А особливо хочеться відповісти наявність повноцінного гігабітного мережного порту:


На цю плату я встановив 2 модуля по 2 ГБ DDR3-1333 від Patriot:


Система Windows 7 Ultimate встановлювалася на жорсткий диск WD 500GB Green, а для даних я придбав HDD Hitachi-Toshiba на 3 ТБ:



Все це обладнання у мене харчується від БП FSP на 400 Ватт, що, зрозуміло - з запасом.

Фінальним етапом була збірка всього цього обладнання в корпус mini-ATX.

Відразу після збирання я встановив на комп'ютер Windows 7 Ultimate (установка зайняла близько 2 годин, що нормально, враховуючи низьку швидкодію процесора).

Після всього цього я відключив від комп'ютера клавіатуру, миша і монітор. Фактично, залишився один системний блок підключений до локальної мережі по кабелю.

Досить запам'ятати локальний IP цього ПК в мережі, щоб підключаться до нього з будь-якої машини через стандартну Windows-утиліту «Підключення до віддаленого робочого столу»:


Я навмисно не став встановлювати спеціалізовані операційні системи для організації файлового сховища, типу FreeNAS. Адже в такому разі, не було б особливого сенсу збирати окремий ПК під ці потреби. Можна було б просто купити NAS.

А ось окремий домашній сервер, який можна завантажити роботою на ніч і залишити - це цікавіше. До того ж, звичним інтерфейсом Windows 7 зручно управляти.

Разом загальна вартість домашнього сервера БЕЗ жорстких дисків склала 6 000 рублів.

важливе доповнення

При використанні будь-якого мережевого сховища дуже важлива пропускна здатність мережі. Причому, навіть звичайна 100 мегабітних кабельна мережа не приводить у захват, коли ви, скажімо, виконуєте архівацію зі свого комп'ютера на домашній сервер. Передати 100 ГБ по 100 мегабітних мережі - це вже кілька годин.

Що вже говорити про Wi-Fi. Добре, якщо ви використовуєте Wi-Fi 802.11n - в цьому випадку швидкість мережі тримається в районі 100 Мегабіт. А якщо стандарт 802.11g, де швидкість рідко буває більше 30 Мегабіт? Це дуже, дуже мало.

Ідеальний варіант, коли взаємодія з сервером відбувається по кабельній мережі Gigabit Ethernet. У цьому випадку - це дійсно швидко.

Але про те, як створити таку мережу швидко і з мінімальними витратами - я розповім в окремій статті.