Lekce 3 - Práce s obsahem - Sumarizace a zjednodušení Nové
V minulé lekci, Práce s obsahem - Psaní textů, jsme se naučili, jak nejlépe napsat různorodé texty pomocí AI včetně přípravy na psaní i různých modifikací.
V tomto tutoriálu umělé inteligence se zaměříme na práci s textem, konkrétně na důležité sumarizace a zjednodušování textů.
Sumarizace dlouhých textů
Sumarizace textu je jednou z nejúčinnějších metod, jak využít AI k zefektivnění práce s rozsáhlými dokumenty, kde je klíčové rychle pochopit podstatu dlouhých textů.
Příkladem vhodného využití sumarizace jsou pracovní meetingy. Představme si, že máme několikastránkový přepis z porady, na níž se probírala řada různých témat. Čtení celého přepisu by bylo časově náročné a mnohdy zbytečné. AI nástroje dokážou takový přepis zkrátit na několik klíčových bodů, které shrnou to nejdůležitější.
Další oblastí, kde je sumarizace neocenitelná, jsou vědecké, právní, akademické a další specifické dokumenty. Tyto texty bývají často velmi dlouhé a plné složitého jazyka, což může komplikovat jejich porozumění. Sumarizační nástroje nám dokážou zprostředkovat přehled hlavních závěrů a klíčových argumentů.
ChatGPT
Sumarizace velmi jednoduše používáme v ChatGPT. Takto promptujeme shrnutí delšího odborného textu:
Připrav mi sumarizaci hlavních myšlenek tohoto článku a shrň ho do maximálně 5 vět:
Původní text
Připrav mi sumarizaci hlavních myšlenek tohoto článku a shrň ho do maximálně 5 vět:
Modely hlubokého učení pro NLP Běžné vícevrstvé preceptory nejsou schopny zvládnout interpretaci sekvenčních dat, kde je důležité pořadí informací. Aby bylo možné se vypořádat s důležitostí pořadí v sekvenčních datech, používá se typ neuronové sítě, která uchovává informace z předchozích časových kroků v tréninku.
Rekurentní neuronové sítě jsou typy neuronových sítí, které zpracovávají data z předchozích časových kroků v opakujících se cyklech, přičemž tyto informace zohledňují při výpočtu vah aktuálního časového kroku. RNN mají v podstatě tři parametry, které se používají během dopředného tréninkového průchodu: matici založenou na předchozím skrytém stavu, matici založenou na aktuálním vstupu a matici, která je mezi skrytým stavem a výstupem. Protože RNN mohou vzít v úvahu informace z předchozích časových kroků, mohou extrahovat relevantní vzory z textových dat tím, že při interpretaci významu slova vezmou v úvahu dřívější slova ve větě.
Dalším typem architektury hlubokého učení používaného ke zpracování textových dat je síť s dlouhou krátkodobou pamětí (LSTM). Sítě LSTM jsou strukturou podobné RNN, ale vzhledem k některým rozdílům v jejich architektuře mají tendenci fungovat lépe než RNN. Vyhnou se specifickému problému, který se často vyskytuje při používání RNN, nazývanému problém explodujícího gradientu.
Tyto hluboké neuronové sítě mohou být jednosměrné nebo obousměrné. Obousměrné sítě jsou schopny vzít v úvahu nejen slova, která jsou před aktuálním slovem, ale i slova, která následují po něm. To sice vede k vyšší přesnosti, ale je to výpočetně dražší.
Výsledek sumarizace
Hluboké neuronové sítě, jako jsou rekurentní neuronové sítě (RNN), jsou speciálně navrženy pro zpracování sekvenčních dat, kde je důležité pořadí informací. RNN uchovávají informace z předchozích časových kroků, což jim umožňuje lépe interpretovat význam slova v kontextu předchozích slov. Síť LSTM (dlouhá krátkodobá paměť) je vylepšenou verzí RNN, která se lépe vyhýbá problémům, jako je explodující gradient, a proto dosahuje lepších výsledků. Hluboké neuronové sítě mohou být jednosměrné i obousměrné, přičemž obousměrné sítě dosahují vyšší přesnosti tím, že berou v úvahu jak předchozí, tak následující slova. Tento přístup však zvyšuje výpočetní náročnost.
SummarizeBot
Další z nástrojů pro sumarizace je SummarizeBot. Jde o rozšíření pro prohlížeč, který můžeme stáhnout z Google Workspace Marketplace. Samotný SummarizeBot pak najdeme v Google Chatu jako účastníka. Po rozkliknutí najdeme v chatu základní informace, že pro sumarizace (nebo zjištění klíčových slov a frází) můžeme vkládat odkazy na weby, dokumenty, audio soubory nebo obrázky s textem nebo promptovat pro shrnutí určitého tématu přímo SummarizeBot:
news about cloud computing
Prompty pro SummarizeBot jsou velmi jednoduché a krátké a je nutné je zadávat anglicky.
Do chatu můžeme zadat webovou stránku a po odeslání pak kliknout na View summary:
Takto získáme shrnutí, které můžeme ještě rozšiřovat či zmenšovat pomocí posuvníku Summary size. Také vidíme, kolik minut nám shrnutí ušetřilo oproti čtení celého článku:
Můžeme zde přepnout i na přehled klíčových slov (Keywords) a frází (Key fragments):
Zjednodušení odborných textů
AI pomáhá zjednodušovat odborný text tak, aby byl přístupnější širšímu publiku. Tento přístup je velmi užitečný zejména při komunikaci výsledků vědeckého výzkumu nebo technických specifikací širší veřejnosti.
ChatGPT
Zkusme si nechat zjednodušit velmi odborný text z oblasti bioinformatiky a genomiky v ChatGPT:
Maximálně zjednoduš tento odborný text pro absolutní laiky, použij běžnou mluvu – "Analýza sekvenčních dat prováděná pomocí algoritmu Hidden Markov Model (HMM) umožňuje predikci exon-intronových hranic v eukaryotických genech. Při použití alignmentu s referenčním genomem se hojně využívají heuristické metody jako BLAST nebo Smith-Waterman, které optimalizují lokální i globální alignment sekvencí. Důležitým krokem je následná anotace variant, kde se využívá pipeline GATK pro volání variant a detekci SNPs a indelů v populacích. Tyto varianty mohou být dále prioritizovány pomocí statistických modelů, které berou v úvahu frekvenci alel v referenčních databázích, jako je dbSNP nebo ExAC."
Výsledek promptu
Při zkoumání genů se používá metoda, která dokáže předpovědět, kde se nacházejí části genů zvané exony a introny. Když porovnáváme sekvence DNA s již známým genomem, používáme rychlé nástroje jako BLAST, aby se tyto sekvence co nejlépe seřadily. Potom je důležité najít genetické změny (mutace) a k tomu pomáhá program GATK. Tyto změny mohou být různé, od drobných až po větší, a vědci je mohou dále seřadit podle toho, jak často se vyskytují v databázích, které obsahují informace o genech lidí.
TextCortex
Vyzkoušet můžeme i další nástroje, jako například TextCortex, kde můžeme stejně jako v ChatGPT nahrát celý soubor a nechat ho vyhodnotit. Na homepage vybereme možnost Přepisování textů:
Na následující stránce zvolíme, co chceme s textem udělat. Nahoře můžeme volit mezi možnostmi Parafráze nebo Překladatel, my zde máme předvoleno Parafráze. Následně buď vložíme samotný text, nebo nahrajeme PDF dokument. Z možností vybereme Jednoduché. Pak už jen stiskneme pod vloženým textem Zjednodušit:
Výsledek zjednodušení části výukové lekce o JavaScriptu vypadá následovně:
AI nástroje nejen šetří čas při sumarizaci textů, ale také nám pomáhají odhalit skryté vzory a klíčové informace, které by mohly být v dlouhých dokumentech snadno přehlédnuty. Můžeme se také rychle zaměřit na to nejpodstatnější bez zbytečného procházení detailů.
V příští lekci, Práce s obsahem – Stylistické úpravy, se podíváme, jak využít AI pro stylistické a gramatické úpravy, parafrázování, změnu tónu i zjištění zaujatosti.