Python týden Letní akce
Pouze tento týden sleva až 80 % na kurzy Python. Lze kombinovat s akcí Letní slevy na prémiový obsah!
Brno? Vypsali jsme pro vás nové termíny školení Základů programování a OOP v Brně!
Avatar
neutr
Člen
Avatar
neutr:22.5.2017 17:07

Ahoj.

Potřeboval bych nějak vyřešit výpočetní kapacitu. Jednoduše bych potřeboval vytvořit několik (celkem mnoho :-) virtuálních strojů kterým bych zadal konkrétní výpočetní úlohu. Potřeboval bych správně nakopnout. Prohledávám recenze na různé cloudy a mám dojem že to není správné řešení. Popíšu problém :

Generuji soubory Partition (Partito Numerorum). Momentálně honím 1 stroj 16 hodin každý den. Je to obyčejný noťas - žádná pracovní stanice a tak je otázkou času kdy klekne. Na druhém stroji pracují a testuji takže vlastními silami už zvýšit výkon nemůžu. Když si spočítám cenu za VPS tak se mi spíš vyplatí koupit další šunku a doufat že chvíli vydží v provozu. Navíc nemám zkušenosti s obsluhou serverů a než se do něčeho takového pustím chtěl bych zjistit víc.

Pro představu PN81 (PartitioNumerorum n = 81) má 18 milionů řádků (- tedy víc nežli je potřeba na první ve sportce), ale PN100 už má 190 milionů. Výstupy jsou nastaveny do souborů 5000 řádků aby se s tím dalo pracovat - zejména filtrovat, slučovat ap. Soubory mimo pořadového čísla v systému a třídy obsahují počet číslic + separátor - takže pro PN100 je to 5000 x 201 znaků na soubor. Pochopitelně nastavení výstupů je možné nastavit podle potřeby.

Nastavení tak jak popisuji není asi nejoptimálnější ale je to 1 plná array která zapisuje poslední řádek aby se dalo plynule navázat pří vypnutí, nebo při pádu. Když stroj vypnu (nebo když spadne) tak přijdu jen o to co je v paměti. Takže těch 5000 řádků je kompromis. Vztahuje se na to uložení generátoru a podobně. Takže podle časů zřejmě budu muset později změnit nastavení. Rostou i nároky na úložiště. Například PN80 váží 2,8 GB ( - jenom folder s .csv bez komprese).

Poměrně zřejmé je že potřebuji (umím) rozsekat úkoly pro generátor na dílčí úlohy a spustit paralelní zpracování. Ale nevím jak by to bylo nejlepší. Jedná se o celkem uzavřenou úlohu. Pokud by to šlo chtěl bych vygenerovat až PN 121 a pak už bych musel generátor překopat. větší soubory PN(122 - XXL) by se měly skládat z databází PN2 - PN121.

Ovšem podle mých původních odhadů stačím tak na PN 85-90. Pak už budu někde daleko za hranicí dnů. Takže hledám možnost paralelního zpracování.

Umíte poradit jak na to ?

 
Odpovědět 22.5.2017 17:07
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 1 zpráv z 1.