Glossário

casar
Combinar. Diz-se que uma expressão regular casa com um texto quando os caracteres e metacaracteres especificados na regex correspondem aos caracteres do texto, na ordem correta. Por exemplo, \d,\d casa com 9,1 mas não com 9, (falta o dígito após a vírgula), e nem com 91, (a vírgula não está entre os dígitos).
conjunto
Um conjunto de caracteres, como [AEIOUaeiou] para representar as vogais sem acentos, ou [0-9A-F] para os dígitos hexadecimais. Em uma expressão regular, um conjunto casa com uma ocorrência de um de seus caracteres, a não ser que o conjunto seja seguido de um quantificador. Existem metacaracteres que representam conjuntos pré-definidos, como por exemplo \d que é o mesmo que [0-9]. O conjunto pode ser negado pelo uso do sinal ^ na primeira posição. Assim, [^AEIOUaeiou] representa qualquer caractere que não seja uma vogal.
expressão regular
Da Wikipédia: “Em ciência da computação, uma expressão regular [...] provê uma forma concisa e flexível de identificar cadeias de caracteres de interesse, como caracteres particulares, palavras ou padrões de caracteres.” Na teoria das linguagens formais, as expressões regulares são exemplos de linguagens regulares, que podem ser processadas por um autômato finito. Na prática, as bibliotecas de regex mais populares são mais expressivas que as linguagens regulares, por exemplo ao permitir a definição de grupos e sua aplicação posterior na mesma expressão. (en: regular expression)
grupo
Uma parte de uma expressão regular delimitada por (). Os grupos servem para facilitar a aplicação de quantificadores, para indicar trechos repetidos de uma regex (através de metacarateres numéricos, como \1) ou para extração de partes específicas do texto através dos métodos
metacaractere
Um caractere que tem um significado especial dentro de uma expressão regular, como . ou ? ou ( e ). Alguns metacaracteres são representados por mais de um caractere literal, por exemplo, \w é um metacaractere que representa qualquer caractere alfanumérico. Alguns metacaracteres têm significado diferente conforme o local onde ocorrem na expressão regular. O sinal ? pode ser o quantificador de zero ou uma ocorrência, mas quando aparece após outro quantificador o ? modifica o quantificador anterior para deixá-lo não-guloso; e dentro de um conjunto como [abc?] o ? significa apenas um ponto de interrogação literal.
quantificador
Indicador que determina quantas vezes a sequência imediatamente precedente deve ocorrer no padrão. A sintaxe mais geral é {a,b} onde a é a quantidade mínima de ocorrências e b é a máxima. Os quantificadores abreviados ?, +, * significam respectivamente o mesmo que {0,1}, {1,} (1 ou mais) e {,} (0 ou mais).
raw string
(pt: string crua) Em Python, o prefixo r pode ser usado em strings literais como r'a\nb' ou ur'a\nb'` para indicar que as contra-barras ``\ devem ser interpretadas como caracteres comuns, e não como prefixos de sequência de escape. Nos exemplos acima, r'a\nb' é uma sequência de 4 caracteres: a, \, n e b. Em contraste, a string 'a\nb' tem 3 caracteres: a, \n (ASCII LF, decimal 10), e b. Note que o r é apenas um artifício sintático, ele não altera o tipo da string sendo criada mas apenas seu conteúdo, pela interpretação diferente dos caracteres literais.
word boundary
(pt: limite de palavra) A posição logo antes ou logo após uma palavra em uma expressão regular, denotada pelo metacaractere \b.

Previous topic

Exercícios

This Page