Přehled migrace pásek ve službě Azure Storage
Tento článek se zaměřuje na migrace pásek. Cílem je zjednodušit, poskytnout pokyny a důležité informace pro úspěšnou migraci dat uložených na různých páskových médiích do služeb Úložiště Azure.
Přehled
Páska ukládá velkou část světových dat a zůstává jedním z dominantních typů úložných médií. Pásková média existují po celá desetiletí a stále se stále silně používají se stovkami exabajtů nových pásek dodaných každý rok.
Pásky jsou skvělým prostředkem pro ukládání studených dat. Jsou rychlé v sekvenčním čtení, ale fáze vyžadují mechanické pohyby (například načítání a uvolňování pásek, hledání pásek atd.) jsou pomalejší. Díky tomu jsou pásky nepoužitelné pro tradiční, náhodný přístup a je hlavním důvodem, proč se dokonce i dnes používají data uložená na páskách. Páska je navíc magnetické médium, které vyžaduje speciální manipulaci. Jsou citlivé na prostředí, zejména teplotu a vlhkost. Pokud jsou v rámci svého provozního rozsahu životního prostředí, mohou dosáhnout vysoké odolnosti a dobré úspěšnosti obnovení. Nicméně, když se udržuje v nepřístupné prostředí, zhoršení se často stává a vykresluje pásku nečitelný.
Velké části pásek ukládají tmavá data (vytvořená a uložená data, ale nepoužívají se k žádnému účelu). Tmavá data nepřináší vlastníkovi dat žádnou hodnotu. S nárůstem schopností umělé inteligence a přístupností se trend mění. Zákazníci se dívají na to, jak jim můžou tmavá data pomoct zvýšit efektivitu, otevřít nové datové proudy výnosů nebo zvýšit svou konkurenční výhodu. Mnoho organizací zvažuje migraci dat z pásek do cloudového úložiště, aby využila výhod tmavých dat. Cloudové úložiště poskytuje snadný způsob, jak analyzovat data, extrahovat obchodní hodnotu (se službami, jako je AI, Machine Learning, Azure Search atd.), nebo snížit náklady tím, že využijete archivní úložiště pro dlouhodobé uchovávání.
Mezi hlavní důvody, proč dochází ke zvýšení pásek na migrace do cloudu, jsou:
- Extrakce obchodní hodnoty z tmavých dat
- Snižte úsilí potřebné ke správě dat s dlouhodobým uchováváním,
- Vyhněte se procesu migrace z jedné generace pásek do jiné,
- Snížení rizika ztráty dat, zejména u starších generací pásek,
- Výměna zařízení pro ukládání pásek mimo pracoviště,
- Zjednodušení procesů zotavení po havárii
- Použití moderních nástrojů, jako je AI, a ML na historická data
Důležité informace
Před zahájením procesu migrace pásky je potřeba pečlivě zvážit možnosti. Prvním aspektem je rozhodování o tom, kdo migraci provádí. Běžně se používají dvě možnosti:
- Zákazník provedl migraci , kdy zákazník provede kompletní migraci,
- Partner migrace pásek, u kterého zákazník odesílá pásky partnerovi, a partner provede proces migrace.
Přístup | Výhody | Nevýhody |
---|---|---|
Migrace provedená zákazníkem | - Data nikdy neopustí web. - Žádná logistika pro přepravní pásky |
– Vyžaduje hardwarové prostředky. - Přidá další práci pracovníkům. - Vyžaduje specifické znalosti při manipulaci s páskami. - Možné neznámé náklady |
Partner pro migraci pásek | - Jednoduché ceny a známé náklady předem (placené na pásku) - Žádný dopad na výrobu - Žádný dopad na personál |
- Vyžaduje logistiku pro přepravní pásky - Bezpečnostní aspekty vyžadované kvůli přepravním páskám – Více kopií potřebných pro dostupnost dat během migrace |
Několik důležitých aspektů může snadno vést naše rozhodnutí o tom, kdo může provést migraci, zákazníka nebo partnera.
Zdroje informací
Prostředky jsou nejdůležitější součástí procesu migrace pásek a dělíme je v následujících kategoriích:
Kategorie | Notes |
---|---|
Lid | - Vyžaduje se konkrétní sada dovedností. - Proces je náročný na práci |
Hardware | - Různé generace pásek vyžadují jiný typ hardwaru - Rychlost migrace je úměrná dostupným jednotkám a šířce pásma sítě. |
Software | – Přístup k softwaru, který vytvořil data, je potřeba - Vyžaduje se přístup k šifrovacím klíčům. |
Hardware je obvykle nejobtížnější součástí. Pokud migrujeme existující generace pásek, hardware je k dispozici, ale používá se jako součást existujícího produkčního prostředí. U starších generací pásek je ale hardware často konec životnosti a je těžší získat. U starší generace pásek je použití partnera pro migraci pásek upřednostňovanou a jednodušší možností. Při použití produkčního hardwaru pro migrace je potřeba pečlivé plánování, aby se zajistilo, že migrace nenaruší produkční úlohy. Tady můžeme použít tři různé modely:
- Použití vyhrazeného hardwaru pro migraci: nejjednodušší model migrace, je snadné naplánovat a naplánovat bez dopadu na produkční prostředí. Přidává náklady na získání hardwaru (pokud ještě není k dispozici) a způsobí nízké využití hardwaru po migraci.
- Spuštění migrace mimo pracovní dobu na produkčním hardwaru: model migrace bez dopadu na produkční prostředí. Vyžaduje komplexní plánování, spouštění a osoby pracující mimo pracovní dobu. Možné pouze v případě, že se produkční hardware nevyužívá 24x7.
- Spusťte produkční prostředí a migraci společně: model migrace, který je nejméně upřednostňovaný, protože může snadno ovlivnit produkční prostředí. Tento model snižuje hardware dostupný pro produkční prostředí, vyžaduje komplexní plánování a plánování. Pokud se tento model používá, procesy související se snížením dopadu na produkční prostředí jsou důležité, aby byla časová osa migrace pod kontrolou. Tento model se doporučuje jenom v případě, že má produkční hardware nízké využití.
Možnosti přenosu dat
Po načtení dat z pásek je potřeba je přesunout do Služby Azure Storage. Data je možné přesunout pomocí sítě nebo offline zařízení, jako je Azure Data Box. Mezi parametry, které ovlivňují volbu možností přenosu dat, patří:
- Dostupná šířka pásma
- Požadovaná časová osa pro dokončení migrace
- Četnost změn dat
Další informace o pokynech pro výběr optimální možnosti najdete tady. Přenos sítě je jednodušší a upřednostňovaná možnost. Kombinace sítě a offline metody je také možná, ale vyžaduje větší plánování, aby se zajistilo, že se migrovaná data nepřekrývají.
Pokud nejsou k dispozici žádné prostředky k provedení migrace, bez ohledu na typ prostředku, naší jedinou možností je použít partnera pro migraci na pásku. V takovém případě si můžeme vybrat mezi dvěma možnostmi:
- Migrace provedená na webu zákazníka: partner pro migraci pásek dodává hardware, najímá lidi a provádí práci na místě zákazníka. Zákazník musí poskytnout přístup k páskám, vyhrazenému prostoru pro vybavení, síťová připojení a přístup ke službě Azure Storage. Partner zodpovídá za všechny ostatní aktivity.
- Migrace provedená na webu partnera: zákazník dodává pásky partnerovi a poskytuje přístup ke službě Azure Storage. Partner migrace pásek provádí veškerou práci při migraci dat z pásek do Služby Azure Storage.
Druhá možnost je jednodušší a častěji se používá. Partneři pro migraci pásek mají zařízení navržená a vybavená k provádění migrace pásek ve velkém měřítku. Tato možnost také snižuje riziko a časová osa, protože partneři mají k dispozici více hardwarových prostředků. Provedení migrace na webu zákazníka se používá jenom v případě, že zabezpečení a obavy ohledně ochrany osobních údajů neumožňují zákazníkovi odeslat pásky partnerovi.
Několik partnerů může provádět migrace pásek do Azure. Úplný seznam partnerů najdete při importu offline médií.
Tady je jednoduchý vývojový diagram, který usnadňuje výběrový proces.
Formát dat
Formát dat má velký dopad na návrh migrace a je zásadním aspektem budoucí použitelnosti dat. Data můžou být uložená v chráněném nebo nativním formátu. Proprietární formáty se běžně ukládají jako virtuální pásky. Nativní formát vyžaduje obnovení souborů z pásek a jejich ukládání jako souborů nebo objektů.
Model | Výhody | Nevýhody |
---|---|---|
Virtuální pásky | - Jednodušší a rychlejší migrace - Může znovu vytvořit stejné páskové médium jako původní - K zápisu dat není nutné mít přístup k původnímu softwaru. |
- Vyžaduje údržbu inventáře virtuální pásky. - Data uložená v závislém formátu aplikace vyžadují k obnovení dat původní software. – Data nedostupná službami Azure (AI / ML) bez obnovení |
Nativní soubory | - Soubory přístupné jakoukoli aplikací a službou (AI / ML) - Možné zpeněžit data - K obnovení není potřeba mít přístup k původnímu softwaru. |
- Složitější migrace - Vyžaduje přístup k původnímu softwaru k zápisu dat. |
Hlavním kritériem pro rozhodování o formátu je způsob, jakým plánujeme data používat. Pokud se data migrují jenom pro dlouhodobé uchovávání, jsou virtuální pásky skvělou volbou. V každém jiném případě je upřednostňovanou možností ukládání dat v nativním formátu. Umožňuje jednoduché použití dat v budoucnu a otevírá mnoho možností s analýzou dat.
Proces migrace
Jakmile se rozhodneme o provedení migrace a upřednostňovaném formátu dat, můžeme začít s migrací. Migrace prochází několika fázemi.
Informační fáze
Informační fáze je důležitá pro shromažďování klíčových požadavků. Shromážděná informační vodítka opravují návrh a plánování. I když je možné některé informace aktualizovat v pozdějších fázích, poskytování přesných informací nastaví scénu a vyhne se nutnosti provádět obrovské změny procesu. Mezi klíčové otázky, na které tato fáze potřebuje odpovědět, patří:
- Jaký typ pásek je potřeba migrovat (například LTO3, LTO6, 3592JC atd.)?
- Jaké množství pásek pro každý model, který je potřeba migrovat (například 100xLTO3, 200xLTO6 atd.)?
- Jaký software se použil k zápisu dat na pásky, je tento software stále dostupný?
- Jaký je formát použitý k zápisu dat na pásky, je formát otevřený nebo proprietární, je použitá komprese?
- Použilo se šifrování a pokud ano, jaká je nejbezpečnější možnost výměny šifrovacích klíčů?
- Jaká je cílová oblast?
- Jakou službu úložiště používáte?
- Jaké zákonné požadavky jsou důležité (HIPAA, GDPR atd.)? Je řetěz opatrovnictví povinné?
- Jaký je termín migrace? Existují nějaké důležité milníky?
- Kolik šířky pásma sítě je k dispozici pro migraci?
- Kde jsou pásky fyzicky uložené a lze je odeslat?
- Už máte hodnoty hash pro všechny soubory? Pokud ano, jaký algoritmus hash se použije?
- Jsou po migraci potřeba pásky?
- Jak udržovat teplotu a vlhkost pásek během migrace / přepravy?
- Kdo jsou hlavními účastníky?
Fáze přípravy
Po shromáždění základních informací se můžeme připravit na migraci. Fáze přípravy může zahrnovat mnoho různých kroků, ale většina migrací prochází některými běžnými kroky:
Analýza dat poskytuje informace o datech, která je potřeba migrovat. Informace jsou důležité k odhadu rychlosti čtení dat z pásek a toho, kolik paralelismu potřebujeme k úspěšnému dokončení migrace před termínem. Ovlivňuje odhady na požadovaný hardware (knihovny, roboty, jednotky). Analýza dat se provádí vzorkováním několika pásek, které představují sadu dat, která se má migrovat. Typické informace, které hledáme, jsou:
- velikosti souborů,
- množství dat uložených na pásku,
- počet souborů na pásku,
- minimální a maximální velikosti souborů,
- typy souborů.
Kvalita dat pomáhá odhadnout konečné a jedinečné datové sady, které je potřeba migrovat. Jedním z nejběžnějších problémů s migrací pásek je duplikace dat. Migrace pásek je ideální čas k vyčištění duplicitních dat. Tento proces zlepšuje kvalitu dat pro budoucí použití, snižuje náklady a dobu trvání migrace.
Stanovení priority dat určuje pořadí, ve kterém je možné data migrovat. V ideálním případě chceme dosáhnout přímého streamování z každé pásky místo náhodného čtení souborů z různých pásek (aby nedocházelo k neustálému načítání, uvolňování a hledání). Tento přístup dosahuje nejvyšší možné propustnosti a je vždy nejrychlejší cestou migrace. Stanovení priorit dat přijímá obchodní požadavky a technickou proveditelnost k dosažení nejlepších výsledků.
Návrh migrace zahrnuje všechny technické aspekty migrace a shromážděné informace pro vytvoření konečného procesu migrace. Je to napsaný dokument, který se stane zdrojem pravdy pro zbývající fáze. Musí obsahovat alespoň:
- jasný proces migrace a konečný termín migrace,
- požadavky na hardware a pracovníky,
- infrastruktury a návrhu sítě,
- aspekty zabezpečení,
- jak řešit nečitelné pásky,
- rolí a odpovědností atd.
Fáze migrace
Po dokončení návrhu migrace zahájíme proces migrace. Než začneme postupovat podle úplného tempa migrace, vždy provedeme test s menším vzorkem. Cílem testu je zajistit, aby kompletní proces fungoval. Umožňuje nám provádět úpravy a zlepšovat proces. Jakmile je test úspěšný a s výsledky jsme spokojení, provedeme migraci. Fáze migrace se mírně liší, pokud používáme nativní soubory a virtuální pásky. V obou případech se jedná o opakující se proces, který prochází všemi páskami a čte celý jejich obsah. Tento vývojový diagram znázorňuje fázi migrace při migraci na nativní soubory.
Ověření dat
U každého souboru, který migrujeme, musíme provést ověření dat, abychom měli jistotu, že během procesu migrace nebyla poškozená data. Ověření dat se provádí porovnáním hodnot hash před migrací a po migraci. Existuje mnoho typů algoritmů hash, které lze použít. Běžným přístupem je použití MD5, protože Azure Storage obsahuje předdefinované pole metadat Content-MD5, které je možné vyplnit během migrace. Tento přístup umožňuje kontrolovat stejnou hodnotu MD5, když přistupujeme k datům, abychom ověřili, že data nejsou změněna nebo poškozena. V ideálním případě zdrojová data již obsahují hodnoty hash, které je možné snadno porovnat s hodnotami hash po migraci. Pokud hodnoty hash neexistují, musí se počítat před migrací souboru. Pokud se hodnoty hash shodují, soubor se označí jako migrovaný. Pokud ne, soubor se zahodí a migruje se znovu. Někdy jsou data poškozená na zdrojových páskách. S zachycením těchto vzácných případů pomáhá mít původní hodnoty hash. Pokud k nim dojde, můžeme číst data ze sekundární kopie, pokud existují. Proces ověření dat je důležitou součástí návrhu migrace. Proces zpracování neúspěšného ověření musí být definován. Fáze migrace se také neustále monitoruje, abychom měli jistotu, že můžeme reagovat na nepředvídatelnou situaci a přizpůsobit se jí. Pravidelné podávání zpráv hlavním zúčastněným stranám je důležité, aby migrace zůstala v přehledu.
Fáze po migraci
Po dokončení migrace je ještě potřeba zvážit několik kroků, než úspěšně zavřete projekt migrace. V případě potřeby musíme likvidovat hardware používaný k migraci. Nejdůležitější otázkou je, jak likvidovat pásky. Odstranění pásky je proces se dvěma kroky. Pokud pásky ukládají citlivé informace a důvěrné informace (a obvykle to dělají), musí se nejprve degaussovat. Degaussing zajišťuje, že se všechna data z média magneticky odstraní. Po odstranění musí být pásky řádně zničeny a recyklovány. Pokud jsme použili partnera pro migraci pásek, můžeme také nechat partnera bezpečně likvidovat pásky.