cs:navody:stehovani_du4_to_object:start

Základní specifikace služeb pro stěhování DU4, DU5 do CL4 (objektové úložiště)

Níže je souhrn služeb dostupných pro stěhování vašich dat ze souborového úložiště v Ostravě (du4) nebo souborového úložiště v Jihlavě (du5). Zvolte si jednu službu, která obsáhne váš případ užití, případně jejich kombinaci.

Základní případy užití

Služba S3 je nejsnazší a nejvhodnější volbou pro většinu uživatelů. Přístup ke službě je řízen virtuálními organizacemi a skupinami v nich, takže S3 se hodí i pro sdílení dat mezi jednotlivými uživateli a skupinami, které mohou mít členy z různých institucí. Nástroje pro správu skupin a uživatelů poskytuje e-infrastruktura. Uživatelem s přístupem k S3 mohou být osoby, tak i „servisní účty“ například pro zálohovací stroje (řada moderních zálohovacích nástrojů S3 podporuje). Data jsou v S3 organizována do bucketů (kyblíků). Bývá vhodné jednotlivé buckety navázat na logickou strukturu práce s daty, například na různý stupeň jejich zpracování. Data je možné na úložiště ukládat v otevřené podobě, pro citlivá data je možno použít bucketů šifrovaných na straně klienta, v takovém případě k datům nemá přístup ani správce úložiště. Šifrování na straně klienta rovněž znamená, že přenos dat po síti je šifrován a v případě odposlechnutí během přenosu není možné data dešifrovat.

Soupis základních případů užití se selekcí vhodných typů služeb, jejichž popis naleznete v sekci Detailní popis služeb.

Zálohování velkých data setů pomocí nástrojů podporujících S3 protokol

Pokud používáte k zálohování specializované automatické nástroje, jako například Veeam, bacula, restic…, tak většina z těchto nástrojů umožňuje nativní použití S3 služby pro zálohování. Nemusíte tedy řešit připojování blokových zařízení apod. do vaší infrastruktury. Stačí si pouze požádat o zřízení S3 úložiště a překonfigurovat vaše zálohovadlo. Možné kombinovat s WORM modelem jako ochranu před nechtěným přepsáním, anebo ransomware útoky.

Sdílení výzkumných dat v organizaci/napříč organizacemi

Pokud spravujete více výzkumných skupin, v rámci kterých potřebujete, aby si uživatelé sdíleli data, například sběr dat a jejich následné zpracování, můžete použít službu S3. Služba S3 umožňuje sdílet data v rámci skupiny, případně mezi uživateli. Tento případ užití předpokládá, že každý uživatel má vlastní přístup na úložiště. Tento případ užití je rovněž vhodný, pokud potřebujete sdílet citlivá data mezi organizacemi a nedisponujete zabezpečenou VPN, protože můžete využít šifrovaných bucketů (client-side šifrování) v rámci služby S3. Šifrování na straně klienta rovněž znamená, že přenos dat po síti je šifrován a v případě odposlechnutí během přenosu není možné data dešifrovat.

Živé systémy spravující data - Learning Management System (např. Moodle), katalogy, repozitáře

Learning Management System (Moodle)

Mate objemna data a bezite u nas aplikaci ktera je vydava uzivatelum. Tento případ užití se týká zejména aplikací, které distribuují objemná data (raw skeny, objemná videa, velké vědecké data sety pro výpočetní prostředí…) koncovým uživatelům. Pro tento případ užití je možné použít opět službu S3. Výhodou použití služby S3 pro tyto aplikace je to, že není nutné data uploadovat na server s aplikací, ale koncový uživatel může data nahrávat/stahovat přímo na/z objektové(ho) úložiště s použitím presign requestů.

Zálohování velkých data setů vyžadující lokální filesystém

Pokud máte centralizovaný zálohovací systém (sada skriptů, bacula, BackupPC…) vyžadující lokální filesystém, pak vám doporučujeme použití služby RBD, viz níže. RBD obraz je možné připojit přímo ke stroji, kde běží centrální zálohovací systém, jako blokové zařízení. RBD je možné opatřit snapshoty viz, popis služeb, jako ochranu proti nechtěnému přepsání anebo ransomware útoku.

Centrální share pro vnitřní potřeby instituce

Pokud ukládáte živá data a potřebujete na úložiště pouštět jednotlivé uživatele, pak můžete využít službu RBD, kterou si připojíte k vám do infrastruktury pomocí linuxového stroje. Na připojeném blokovém zařízení si můžete udělat souborový systém, případně jej opatřit šifrováním a dále je reexportovat dovnitř vaší infrastruktury například pomocí samba, NFS, ftp, ssh, aj. (možno i formou kontejnerů zajišťujících distribuci protokolů do vaší interní sítě). Šifrování na straně klienta rovněž znamená, že přenos dat po síti je šifrován a v případě odposlechnutí během přenosu není možné data dešifrovat. Výhodou je, že si můžete vytvářet skupiny a spravovat práva zcela dle vašich preferencí, případně použít vaši lokální databázi uživatelů a skupin. Blokové zařízení RBD je dále možné opatřit snapshoty na úrovni RBD, tudíž pokud dojde k nechtěnému odmazání dat je možné se vrátit například ke snapshotu z předchozího dne.

Archivní prostor pro vaše data, kteý je přístupný z vnějšku pro jednotlivé uživatele

Studená data/teplá data, která je potřeba archivovat, sdílení v rámci distribuovaného týmu, nelze použít centralizovaný systém. Data přístupná z libovolného prostředí pro různé skupiny uživatelů. Jednorázový časově omezený přístup. Chci nalít data pro spolupracující subjekty - distribuce partnerům.

Osobní prostor pro vaše data

Tento případ je obdobou služby VO_storage. Jedná se o osobní prostor ve službě S3 jen pro vaše data, který neumožňuje sdílení s konkrétním uživatelem. Na buckety je možné nastavit veřejné čtení, případně je možné použít presign requesty.

Vyhrazený S3 endpoint pro speciální aplikace

Pozn. od Michala: Jedná se o speciální službu pro vybrané zákazníky. Tento vyhrazený S3 endpoint může sloužit pro kritické systémy jako ochrana před DDoS útoky. Endpoint by byl skrytý před uživateli, věděli by o něm pouze zasvěcení.

Jakákoliv další aplikace objektového úložiště

Pokud potřebujete kombinaci služeb uvedených výše, případně máte představu o nějaké další aplikaci služeb objektových úložišť, tak nás neváhejte kontaktovat.

Detailní popis služeb

Níže je detailní popis služeb včetně jejich technických možností, týkajících se redundance dat.

Jak je řešena redundance dat

Replicated

Vaše data jsou na úložišti uložena ve třech kopiích. V případě poškození dat v jedné kopi jsou původní data stále čitelná v nepoškozené formě a na pozadí dojde k obnově poškozených dat. Použití služby s příznakem replicated rovněž umožňuje rychlejší čtení, protože je možné číst ze všech replik najednou. Použití služby s příznakem replicated snižuje rychlost zápisu, protože operace zápisu čeká na potvrzení zápisu ze všech třech replik. Naopak čtení je rzchlejší, peorože dochází ke čtení ze všech replik současně.

Vhodné pro menší objemy živých dat s preferencí rychlostí čtení (ne příliš vhodná pro velké datvé objemy).

Erasure Coding (EC)

Erasure coding (EC) je metoda ochrany dat, jedná se o obdobu dynamického RAID známého z diskových polí. Erasure coding (EC) je metoda, kde jsou data rozdělena na jednotlivé fragmenty, které jsou následně uloženy s určitou redundancí napříč datovým úložištěm. Pokud tedy dojde k selhání některých disků (nebo celého storage serveru), tak jsou data stále přístupná a na pozadí dojde k jejich obnovení. Není tedy možné, aby vaše data ležela na jednom disku, který se poškodí a vy o data přijdete. Tato technologie je vhodná pro živější data (rychlejší zápis), ktere nevyžadují časté čtení. Zároveň je tato technologie úspornější co do množství obsazeného místa.

Vhodné např. spíše pro ukládaní velkých datových objemů.

Služba S3 - replikované/erasure coding

Služba S3 umožňuje přístup pomocí https protokolu. K datům je možné přistupovat buď pomocí grafických klientů, anebo pomocí klientů pro příkazovou řádku, které jsou dostupné jak v Linuxu tak ve Windows. Služba S3 umožňuje sdílení bucketů (lze i plně veřejné sílení), generování presign requestů, šifrování bucketů a další specializované funkcionality - WORM model, verzování bucketů. Služba S3 rovněž umožňuje offsite repliky (zóning) - klient automaticky přechází na jiné datové centrum v případě poruchy primárního datového centra.

Služba je vhodná pro automatické zálohování pomocí zálohovacích programů; sdílení dat v rámci skupin (lze i plně veřejné sdílení); osobní data - bez možnosti sdílení; přístup k datům mimo aplikační server - presign requesty.

Přístup k datům je možný z více IP adres a pro více uživatelů současně.

RBD - replikované/erasure coding

Rados Block Device ( RBD) je blokové zařízení, které si můžete připojit do vaší infrastruktury. Připojení je nutné provést pomocí linuxového stroje (nativní připojení RBD do Windows?). Následně si můžete připojené blokové zařízení reexportovat kamkoliv v rámci vašich systémů (samba remount do vaší sítě). RBD je vhodné zejména pro použití v centralizovaných zálohovacích systémech. RBD je velmi úzce specializovaná služba, která vyžaduje na straně uživatele širší zkušenosti se správou linuxových zařízení. Služba je určena řádově pro větší objemy dat - vyšší stovky TB. Blokové zařízení je možné rovněž na vaší straně opatřit šifrováním (client side) pomocí LUKS. Šifrování na straně klienta rovněž znamená, že přenos dat po síti je šifrován a v případě odposlechnutí během přenosu není možné data dešifrovat.

Připojení RBD je možné pouze z dedikovaných IPv4 adres, které jsou povoleny na firewallu. RBD obraz je možné následně připojit pouze na jednom zařízení, není možné, aby si každý z vašich uživatelů připojil stejné RBD na svoji pracovní stanici - za předpokladu, že RBD není použito pro clusterovaný file systém. Použití clusterovaných filesystemů nad RBD je potřeba nejdříve konzultovat s podporou Datových úložišť CESNET.
Pokud stroj, na který chcete připojit RBD, má pouze IPv6 adresu, tak NEbude RBD možné připojit a budete muset využít službu S3.

Služba je vhodná pro případy, kdy máme centralizovaný systém, kam potřebujeme připojit data; kdy máme připojený centralizovaný zálohovací systém, který potřebuje block storage/file systém; kdy potřebujeme velký prostor, který dále reexportujeme dovnitř naší infrastruktury, může být schováno za lokální menežment uživatelů (ldap).

Níže jsou uvedeny další nastavbové funkce k RBD službě.

RBD - snapshoty

Na úrovni RBD (replikované/erasure coding) je možné použít snapshoty. Ovládání snapshotů se provádí z klientské strany. RBD snapshotování je jedna z možností náhrady za tape_tape politiku v případě mirroringu snapshotu do jiné geografické lokality.

Synchronní geografická replika

Synchronní geografická replika chrání před výpadkem datového centra. Synchronní geografická replika zhoršuje rychlost zápisu, protože systém čeká na úspěšné potvrzení zápisu na obou geografických lokacích. Pokud máte dojem, že potřebujete tuto službu, tak se nám ozvěte.

Asynchronní geografická replika

Asynchronní geografická replika chrání částečně před výpadkem datového centra (může dojít ke ztrátě určitých dat mezi jednotlivými asynchronními synchronizacemi z důvodu časové prodlevy). U asynchronní geografické repliky je však čas v případě poškození dat (ransomware) zasáhnout a přerušit synchronizaci. Pokud máte dojem, že potřebujete tuto službu, tak se nám ozvěte.

Poslední úprava:: 25.03.2024 15:20