MS Office week
Pouze tento týden sleva až 80 % na e-learning týkající se MS Office
50 % bodů zdarma na online výuku díky naší Slevové akci!

Lekce 8 - Textové řetězce v jazyce C

V předešlém cvičení, Řešené úlohy k 7. lekci Céčka, jsme si procvičili nabyté zkušenosti z předchozích lekcí.

V minulé lekci, Řešené úlohy k 7. lekci Céčka, jsme si představili pole. Až doposud jsme se v našem kurzu programovacího jazyka C úspěšně vyhýbali textovým řetězcům a pracovali jsme pouze s čísly a znaky. V naprosté většině reálných aplikací ovšem figurují víceznakové texty. Těm se v programování říká textové řetězce (jelikož se jedná o řetěz znaků) nebo někdy jen řetězce. Důvodem odložení tohoto tématu je, že jazyk C jako nízký jazyk žádný datový typ pro řetězce nemá a vlastně s nimi téměř nepočítá. S textem však v céčku můžeme běžně pracovat, jen je to komplikovanější.

Pole znaků

S řetězci lze v céčku pracovat několika způsoby. My si v tomto dílu uvedeme zatím ten nejjednodušší, tzv. statický řetězec, kterým je pole charů. Když budeme chtít uložit do proměnné textový řetězec "itnetwork", potřebujeme v paměti vytvořit následující pole typu char (znak):

'i' 't' 'n' 'e' 't' 'w' 'o' 'r' 'k' '\0'

V každé přihrádce pole je uložený jeden znak. Všimněte si ovšem, že poslední přihrádka je navíc a obsahuje znak \0, což je tzv. nulový znak. Tím musí končit všechny textové řetězce. Ačkoli totiž céčko jako jazyk textové řetězce nepodporuje, obsahuje standardní knihovny, které s nimi pracují. A proto musíme řetězce ukládat tak, jak se předpokládá, že budou vypadat. Pole s řetězcem tedy musí být vždy o 1 delší, než je délka textu, který do něj vkládáme!.

Pozn.: Ačkoli je to nad rámec této lekce, uveďme si, že nulový znak je na konci řetězce z toho důvodu, abychom poznali, kde řetězec končí. Kromě statických polí můžeme totiž řetězce ukládat pomocí ukazatelů jako libovolně dlouhé úseky v paměti, kde se bez této berličky neobejdeme. Tento způsob si ukážeme dále v seriálu. Druhým způsobem, jak označit konec řetězce, je uložit jeho délku před první znak. Tento systém se používal např. v jazyce Pascal, mnohem častěji se však používá ukončení nulovým znakem.

Vytvořme si jednoduchý příklad. Do proměnné si uložme nějaký text a ten následně vypišme do konzole:

char text[5] = {'d', 'u', 'h', 'a', '\0'};
printf("%s", text);

Výsledek:

Konzolová aplikace
duha

Dobrá zpráva je, že jazyk C nám umožňuje zadávat text v uvozovkách, který následně nahradí tzv. řetězcovou konstantou (polem charů, zakončeným znakem \0). Kód výše můžeme přepsat na tuto podobu:

char text[5] = "duha";
printf("%s", text);

Všimněte si, že pole musí mít stále délku 5, i když má duha 4 písmena. Když bude ještě delší, nebude to vadit. Dokonce na céčku můžeme nechat zjištění délky textu:

char text[] = "duha";
printf("%s", text);

Co již bohužel nefunguje je přiřazení řetězcové konstanty do již existujícího pole:

char text[5];
text = "duha"; // Tento řádek způsobí chybu
printf("%s", text);
Tento výukový obsah pomáhají rozvíjet následující firmy, které dost možná hledají právě tebe!

Je to kvůli tomu, že nelze přiřadit pole do pole. Nic nám ovšem nebrání přiřadit jednotlivé znaky pomocí cyklu nebo použít funkce pro kopírování řetězců, viz. dále.

Práce s jednotlivými znaky

S řetězcem můžeme zacházet úplně stejně jako s polem, protože polem je :) Není tedy problém vypsat např. 1. znak nebo jej změnit, případně řetězec zkrátit:

char text[] = "duha";
text[0] = 'h';
text[3] = '\0';
printf("%s", text);

Výsledek:

Konzolová aplikace
huh

Změnou čtvrtého znaku na \0 jsme docílili ukončení řetězce před tímto znakem. Na nulový znak si dejte při editaci znaků řetězce pozor, když na něj zapomenete, program nebude vědět kde řetězec končí a dostanete se do paměti, která vám nepatří.

Čtení/výpis řetězce

Řetězce můžeme jednoduše načítat/vypisovat jako jsme byli zvyklí doposud, použijeme k tomu formátovací sekvenci %s. Proměnnou pro řetězec založíme jako pole charů a určíme si nějakou maximální velikost, např. 50 znaků (což je velikost 51). U parametrů typu %s vypouštíme před proměnnou znak &, jelikož s polem předáváme rovnou jeho adresu.

Následující program si nechá zadat vaše jméno a následně vás pozdraví:

printf("Zadej své jméno: ");
char jmeno[51];
scanf("%50s", jmeno);
printf("Ahoj uživateli %s, vítám tě!", jmeno);

Všimněte si, že ve formátovacím řetězci funkce scanf() je uvedena i maximální délka načítaného řetězce. Když bychom ji nezadali a natrefili na exotického uživatele nebo jen na záškodníka, došlo by k přetečení pole a rozbití programu.

Funkce scanf() text bohužel přeruší se zadáním mezery. Abychom mohli načíst např. Jan Novák" do jedné proměnné, upravíme formátovací řetězec ještě tak, aby načítal vše kromě konce řádku. Upravte si řádku s načítáním do této podoby (mezera na začátku je opravdu důležitá, protože v bufferu nenechá bílé znaky):

scanf(" %50[^\n]s", jmeno);

Někdy můžete při načítání textu z konzole narazit na použití funkcí gets() nebo fgets(). Funkci gets() se vyhněte, jelikož neumožňuje omezit délku načítaného řetězce a fgets() se musí přesměrovat na standardní vstup. Se scanf() si bohatě vystačíme.

Standardní funkce pro práci s řetězci

Specifikace jazyka C nám poskytuje mnoho připravených funkcí pro práci s řetězci, které zjednoduší naše programy. Pro práci s nimi musíme na začátek souboru přidat vložení hlavičkového souboru string.h:

#include <string.h>

Pozn.: Protože jsou funkce pojmenovány pomocí zkratek, uvádím vždy i z čeho název vychází pro lepší zapamatování.

strlen() - STRing LENgth

Délku řetězce můžeme zjistit pomocí strlen(). Jedná se o délku viditelné části bez znaku \0.

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(void)
{
    printf("%d", strlen("duha")); // vrátí 4
    return (EXIT_SUCCESS);
}

strcat() - STRing conCATenate

2 textové řetězce můžeme spojit do jednoho pomocí funkce strcat(). Dejte pozor, aby byl v prvním řetězci dostatek místa.

char text[20] = "duha";
strcat(text, " je na nebi"); // uloží do text "duha je na nebi"
printf("%s", text);

strcpy() - STRing CoPY

Jelikož pole nelze jednoduše celá kopírovat, je nám poskytnuta tato funkce, která naklonuje textový řetězec do jiné proměnné.

char text[5];
strcpy(text, "duha");
printf("%s", text);

strchr() - STRing CHaR

V textu si můžeme nechat vyhledat nějaký znak. Céčko ho od začátku do konce prohledá a pokud znak nalezne, vrátí na něj tzv. ukazatel. I když ty ještě neumíme, bude nám stačit, že když od této hodnoty odečteme řetězec, získáme pozici, na které se znak nachází. Pokud text znak neobsahuje, získáme hodnotu NULL.

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(int argc, char** argv) {
    char text[] = "Pan X znovu udeřil.";
    char *p = strchr(text, 'X'); // Zjistíme pozici znaku 'X' v textu
    int pozice = p - text;
    if (p != NULL)
    {
        printf("Nalezeno na pozici %d", pozice);
    }
    else
    {
        printf("Nenalezeno");
    }
    return (EXIT_SUCCESS);
}

Asi vás nepřekvapí, že se pozice indexuje od nuly.

strstr() - STRing subSTRing

Úplně stejně, jako můžeme vyhledat jeden znak, můžeme vyhledat i řetězec v řetězci. O tom dále hovoříme jako o tzv. podřetězci. Funkce se používá analogicky s funkcí strchr().

strcmp() - STRing CoMPare

Porovná 2 řetězce podle abecedy a vrátí záporné číslo pokud je první před druhým, 0 pokud jsou stejné a kladné číslo pokud je první za druhým.

printf("%d", strcmp("akát", "blýskavice")); // vrátí záporné číslo

Funkce pro práci s řetězci můžeme nalézt také v dalších variantách. Pokud chceme, aby céčko pracovalo s řetězcem odzadu (např. vyhledávalo od konce), vyskytuje se v názvu funkce písmeno r (jako reverse). Takovou funkcí je např. strrchr(). Další varianty funkcí mají v názvu navíc písmeno n (jako number) a přijímají navíc další parametr. Ten udává limit znaků, které funkce v řetězci zpracovávají. Pokud je řetězec delší, vrátí jen jeho část, useknutou na maximální počet znaků. Pozor, tato část neobsahuje znak \0. Příkladem takové funkce budiž strncat().

V příští lekci, Textové řetězce v jazyce C podruhé - Práce se znaky, budeme s textovými řetězci v jazyce C pokračovat, ukážeme si jak pracovat s jednotlivými znaky.


 

Stáhnout

Staženo 468x (31.89 kB)

 

Předchozí článek
Řešené úlohy k 7. lekci Céčka
Všechny články v sekci
Základní konstrukce jazyka C
Článek pro vás napsal David Čápka
Avatar
Jak se ti líbí článek?
8 hlasů
Autor pracuje jako softwarový architekt a pedagog na projektu ITnetwork.cz (a jeho zahraničních verzích). Velmi si váží svobody podnikání v naší zemi a věří, že když se člověk neštítí práce, tak dokáže úplně cokoli.
Unicorn university Autor sítě se informační technologie naučil na Unicorn College - prestižní soukromé vysoké škole IT a ekonomie.
Aktivity (18)

 

 

Komentáře
Zobrazit starší komentáře (33)

Avatar
DarkCoder
Člen
Avatar
DarkCoder:24.8.2019 15:14

Právě naopak, znamená to string s mezerou. Z popisu článku to není jasně zřejmé a chybí v něm jedna důležitá věc.

Funkce scanf() za použití běžného %s čte znaky dokud nenarazí na oddělovací znak (mezera, tabulátor, nový řádek). To co umožňuje funkci scanf() načítat i mezery je to, že má možnost určit sadu zpracovávaných znaků. Specifikátor povolených znaků se vytvoří tak, že se do hranatých závorek vloží seznam znaků.

Zde je příklad určení povolené sady znaků:

%[abcde]

To způsobí, že čtení bude pokračovat dokud je načtený znak součástí znakové sady.

Pomocí spojovníku (-) lze zadat rozsah sady znaků.

%[A-Z]

To způsobí, že budou načteny pouze znaky které jsou součástí velké abecedy.

Když je sada velká, je někdy dobré zadat to co není součástí povolené sady. Provádí se to za pomocí znaku stříška (^)

%[0123456789]

To způsobí, že budou načítány všechny znaky kromě číslic 0 až 9.

Ve všech těchto případech se písmeno s už za sadou znaků neuvádí.

Nyní by mělo být jasné, proč a jak funguje následující specifikace:

scanf(" %50[^\n]s", jmeno);

Jediný znak který není součástí povolené znakové sady je odřádkování. Proto tento zápis povoluje mezeru.

Kdykoli je ve formátovacím řetězci mezera, bude funkce scanf() hledat a odstraňovat oddělovací znaky, dokud není nalezen první znak, který není oddělovacím znakem.

Tou zásadní věcí která není v článku zmíněna je informace o vstupním bufferu, respektive o tom, že tam mohou některé znaky zůstat a mohou být tak načteny následující vstupní funkcí, což může vést a většinou vede ke špatné funkci programu. To že se omezí počet znaků ve funkci scanf() pomůže akorát od pádu programu, ale už nikoli ke špatné funkci programu. Pokud se zadá text delší než stanovená délka ve scanf(), zůstanou tyto znaky ve vstupním bufferu. Tento buffer je třeba čistit!

Následující příklad vykazuje tuto chybu:

#include <stdio.h>

#define BUFFSIZE 50

int main(void) {
        char buffer[BUFFSIZE];

        printf("Zadej delsi text: ");
        scanf("%10[^/n]", buffer);
        printf("%s\n", buffer);

        printf("Zadej znovu delsi text: ");
        scanf("%10[^/n]", buffer);
        printf("%s\n", buffer);

        return 0;
}

Když zadáš dlouhý text, zobrazí se Ti prvních deset znaků. Další znaky ale zůstávají ve vstupním bufferu. Druhá výzva na zadání vstupu je tak přeskočena a je vypsáno až dalších deset znaků z původně zadaného textu.

Funkce gets(), která je v článku zmíněna se skutečně dříve používala. Dnes je zastaralá a je vyřazena. Místo toho se používá pro čtení řetězců funkce fgets() se stdin streamem. Stále je však nutné vyprazdňovat vstupní buffer.

Nakonec dalším řešením je napsat si svou funkci pro čtení řetězců sám.

Odpovědět
24.8.2019 15:14
"„Učíš-li se proto, aby sis zapamatoval, zapomeneš. Učíš-li se proto, abys porozuměl, zapamatuješ si."
Avatar
Odpovídá na DarkCoder
Patrik Pastor:24.8.2019 16:18

no ale jak je to s regexp? funguji vsechny ve formatovem specifikatoru? jako [class], *,+,$,^ (zacatek konec radku), \w \s \i. Napsal jsi "\n" nepovoluje odradkovani, ale odradkovani je prece "\t" ne? ktere tedy specialni znaky mohou byt v c pouzity?

 
Odpovědět
24.8.2019 16:18
Avatar
Odpovídá na DarkCoder
Patrik Pastor:24.8.2019 17:25

jeste jsem taky zjistil, ze mi staci mit neco jako toto: (nize) bez headeru bez niceho, a kompiler mi to vschno vezme (sice mi da par warningu, ale jinak se nic nestane). compiluju s gcc, tak asi uz je to vymakane

1 int main(){
2 printf("%d\n",st­rcmp("8", "blyskavice"));
1 }
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
~
1.c 2/3

a stejne mi to compiler vezme - vyhodi -1

 
Odpovědět
24.8.2019 17:25
Avatar
Odpovídá na DarkCoder
Patrik Pastor:24.8.2019 20:48

a jeste neco, mas pravdu ze [^\n] ve specifiaktoru vyloucim mezeru ze sady znaku ve skenovani, ale ja mel nasledujici specifikator " %[^\n1-9][a-z]" ... tedy chtel jsem aby mi scanf vzal ze stdin pouze alpha slova. Kdyz jsem ale zadal ve stdin "abc 123 adf", napsal mi pouze "abc", ale uz nevypsal "adf" - a to jsem mel mezeru pred " %" procenty... ? jak tedy scanf vnitrne pracuje?

A taky mi prosim odpovez na ty regularni vyraze, fakt nechapu jak to ze [^\n] je mezera, kdyz by to melo byt novy radek jako newline "\n" - coz je v tech hranatych zavorkach. Ja jsem si myslel (a treba ve vim programu to tak i funguje) ze mezera je "\s", \t tabulator \n - novy radek, \r - novyradek + enter. JAK JE TO V CECKU S REGULARNIMA VYRAZEMA, na netu jsem to nikde nenasel

 
Odpovědět
24.8.2019 20:48
Avatar
DarkCoder
Člen
Avatar
Odpovídá na Patrik Pastor
DarkCoder:24.8.2019 21:36

Přesně naopak, tím že máš v sadě uveden znak ^, tak tím říkáš, že znaky uvnitř povolené sady nejsou akceptovány a pokud na nějaký z nich se při čtení narazí, načítání se ukončí. Pokud chceš pouze alfa znaky tak použij %[a-zA-Z]. Nebo načti normálně celý řetězec a pomocí funkce isalpha() ze ctype.h otestuj validitu řetězce. Jistě, nemohl vypsat zbylá tři písmena protože narazil na číslice které nemáš povolené a čtení se ukončilo. Jak funkce scanf() pracuje najdeš v knihovně stdio.h a v její dokumentaci. Pokud nemáš zdrojové kódy, můžeš si vše pouze domýšlet. A věz, že pochopení toho co vše načtení obnáší, si vyžaduje dosti dobrou znalost programování.

Regulární výrazy nejsou podporovány v čistém ANSI C. Je to záležitostí knihoven, které lze použít. Regulárními výrazy bych se být tebou nezabýval, věnuj ten čas jiným věcem, které při programování použiješ. To budeš potřebovat neporovnatelně častěji než regulární výrazy.

To co je \n \b \a \t \\ \r a další, to jsou escape sekvence. Tohle jsou ty věci, které by si měl znát.
Chceš-li znát pokročilé techniky, musíš znát všechny předchozí. Nelze začít nejvyšší úrovní.

Odpovědět
24.8.2019 21:36
"„Učíš-li se proto, aby sis zapamatoval, zapomeneš. Učíš-li se proto, abys porozuměl, zapamatuješ si."
Tento výukový obsah pomáhají rozvíjet následující firmy, které dost možná hledají právě tebe!
Avatar
Honza Černoch:25.11.2019 19:28

#include <stdio.h>
#include <string.h>

int main()
{
char text;
int pismena;
printf("Napis slovo a ja spocitam pocet pismen: \n");
scanf("%s", &text);
pismena = strlen(text);
printf("%d", pismena);

return 0;
}
poradite nekdo?

Odpovědět
25.11.2019 19:28
Podle někoho je nejrychlejší na světě myšlenka, podle druhého zase světlo. Já jsem však přišel na to, že to je průjem...
Avatar
Honza Černoch:25.11.2019 19:29

#include <stdio.h>
#include <string.h>

int main()
{
char text;
printf("Napis slovo a ja spocitam pocet pismen: \n");
scanf("%s", &text);
printf("%d", strlen(text));

return 0;
}

Odpovědět
25.11.2019 19:29
Podle někoho je nejrychlejší na světě myšlenka, podle druhého zase světlo. Já jsem však přišel na to, že to je průjem...
Avatar
Honza Černoch:25.11.2019 19:30

kde jsem udelal chybu?

Odpovědět
25.11.2019 19:30
Podle někoho je nejrychlejší na světě myšlenka, podle druhého zase světlo. Já jsem však přišel na to, že to je průjem...
Avatar
Odpovídá na Honza Černoch
Honza Černoch:25.11.2019 20:26

chybu jsem uz nasel:

#include <stdio.h>
#include <string.h>

int main()
{
char text[100];
int pismena;
printf("Napis slovo a ja spocitam pocet pismen: \n");
scanf("%99s", text);
pismena = strlen(text);
printf("Slovo ma %d pismen.", pismena);

return 0;
}

Odpovědět
25.11.2019 20:26
Podle někoho je nejrychlejší na světě myšlenka, podle druhého zase světlo. Já jsem však přišel na to, že to je průjem...
Avatar
DarkCoder
Člen
Avatar
Odpovídá na Honza Černoch
DarkCoder:25.11.2019 20:37

Slovo je skupina hlásek tvořící ustálený celek a mající určitý ustálený význam. Z programátorského hlediska se jedná o jednorozměrné pole znaků, někdy též nazývaný řetězec. Pro uložení slova je třeba deklarovat proměnnou jako pole znaků.

Např.

char text[50];

Tímto deklaruješ pole do kterého se vejde 50 znaků (v případě řetězce 49 plus '\0'). Pro čtení řetězců se používá funkce fgets(). Na výsledku bys pak prováděl některé úpravy. Když chceš použít funkci scanf(), je třeba si uvědomit, že načítání Ti ukončí bílý znak a nikoli tečka, čárka, vykřičník, otazník, apod. Pokud Ti stačí mezera, můžeš funkci scanf() použít. Při načítání řetězce se u funkce scanf() nepoužívá ampersand. Předává se adresa pole a tedy argumentem je jméno pole.

#include <stdio.h>
#include <string.h>

#define SIZE 50

int main(void) {
        char text[SIZE];

        scanf("%s", text);
        printf("%d\n", strlen(text));

        return 0;
}
Odpovědět
25.11.2019 20:37
"„Učíš-li se proto, aby sis zapamatoval, zapomeneš. Učíš-li se proto, abys porozuměl, zapamatuješ si."
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 10 zpráv z 43. Zobrazit vše