table of contents
other languages
other sections
REGEX(7) | Miscellaneous Information Manual | REGEX(7) |
NOME¶
regex - expressões regulares do POSIX 1003.2DESCRIÇÃO¶
Expressões regulares (ERs), como definidas no POSIX 1003.2, vêm em duas formas: REs modernas (grosseiramente, aquelas de egrep; o 1003.2 chama essas de ERs "estendidas" ERs) e ERs obsoletas (grosseiramente, aquelas de ed(1); REs "básicas" do 1003.2). REs obsoletas existem principalmente por causa de compatibilidade retrógrada em alguns programas antigos; eles serão discutidos no final. O 1003.2 deixa alguns aspectos da sintaxe e da semântica das ERs em aberto; portáveis para outras implementações do 1003.2. Uma (moderna) ER é uma† ou mais† ramificações† não-vazias† , separadas por '|'. Ele encontra tudo o que casa com uma das ramificações. Uma ramificação é um† ou mais pedaços, concatenados. Ele encontra um casamento para o primeiro, seguido por um casamento para o segundo, etc. Um pedaço é um átomo possivelmente seguido por um † '*', '+', Um átomo seguido por '*' encontra uma sequência de 0 ou mais casamentos do átomo. Um átomo seguido por '+' encontra uma sequência de 1 ou mais casamentos do átomo. Um átomo seguido por '?' encontra uma sequência de 0 ou 1 casamento do átomo. Uma composição é '{' seguido por um inteiro decimal sem sinal, possivelmente seguido por ',' , possivelmente seguido por outro inteiro decimal sem sinal, sempre seguido por '}'. Os inteiros devem estar entre 0 e RE_DUP_MAX (255†) inclusive, e se houver dois deles, o primeiro e não pode exceder o segundo. Um átomo seguido por uma composição contendo um inteiro i, sem vírgula, encontra uma sequência de i ou mais casamentos do átomo. Um átomo seguido por uma composição contendo dois inteiros i encontra uma sequencia de um mais i casamentos do átomo. Um átomo seguido por uma composição contendo dois inteiros i e j encontra uma sequência de i até j (inclusive) casamentos do átomo. Um átomo é uma expressão regular englobada em '()' (encontrando um casamento para a expressão regular), um conjunto vazio de '()' (encontrando a string nula)†, uma expressão agrupada (ver abaixo), '.' (encontrando qualquer caractere simples), '^' (encontrando a string nula no começo de uma linha), '$' (encontrando a string nula no fim de uma linha), um '\' seguido de um dos caracteres (encontrando aquele caractere tomado como um caractere ordinário), um '\' seguido por qualquer outro caractere† (encontrando aquele caractere tomado como um caractere ordinário, como se o '\' não estivesse presente†), ou um caractere simples se outro significado (encontrando qualquer caractere). Um '{' seguido por um caractere diferente de um dígito é um caractere ordinário, não o início de uma composição†. É ilegal terminar uma ER com '\'. Uma expressão agrupada é uma lista de caracteres englobados por um '[]'. Ele normalmente encontra qualquer caractere simples da lista (mas veja abaixo). Se a lista começa com '^', ele encontra qualquer caractere simples (mas veja abaixo) que não venha do resto da lista. Se dois caracteres na lista são separados por '-', isto é uma abreviação para a range completa de caracteres entre aqueles dois (inclusive) na sequência de combinação, por exemplo, '[0-9]' em ASCII encontra qualquer dígito decimal. É ilegal † que duas faixas compartilhem um ponto final, por exemplo, 'a-c-e'. As faixas são muito dependentes de sequência de combinação, e programas portáveis devem evitar confiar nelas. Para incluir um literal ']' na lista, torne-o o primeiro caractere (seguindo um possível '^'). Para incluir um literal '-', torne-o o primeiro ou o último caractere, ou o segundo ponto final da faixa. Para usar um literal '-' como o primeiro ponto final da faixa, englobe-o entre '[.' e '.]' para torná-lo um elemento de combinação (veja abaixo). Com a exceção destas e algumas combinações usando '[' (veja os próximos parágrafos), todos os outros caracteres especiais, incluindo '\', perdem seu significado especial dentro de uma expressão agrupada. Dentro de uma expressão agrupada, um elemento de combinação (um caractere, uma sequência multi-caractere que combina como se fosse um caractere simples, ou um nome de sequência de combinação se for o caso) englobado entre '[.' e '.]' significa a sequência de caracteres daquele elemento de combinação. A sequência é um elemento simples de uma lista de expressões agrupada. Uma expressão agrupada contendo um elemento de combinação multi-caractere pode, portanto, encontrar mais de um caractere, por exemplo, se a sequência de combinação inclui um elemento de combinação 'ch', então a ER '[[.ch.]]*c' encontra os primeiros cinco caracteres de 'chchcc'. Dentro de uma expressão agrupada, um elemento de combinação englobado por '[=' e '=]' é uma classe equivalente, que significa uma sequência de caracteres com todos os elementos de combinação equivalentes a aquele, incluindo ele mesmo. (Se não houver outro elemento de combinação equivalente, o tratamento é como se os delimitadores fossem '[.' e '.]'.) Por exemplo, se o e ^ são os membros de uma classe equivalente, então '[[=o=]]', '[[=^=]]', e '[o^]' são todos sinônimos. Uma classe equivalente não pode † ser um ponto final de uma faixa. Dentro de uma expressão agrupada, o nome de uma classe de caractere englobado por '[:' e ':]' significa a lista de todos os caracteres pertencente àquela classe. Os nomes padrão de classes de caracteres são:alnum digit punct alpha graph space blank lower upper cntrl print xdigit
VEJA TAMBÉM¶
regex(3) POSIX 1003.2, seção 2.8 (Notação de Expressão Regular).PROBLEMAS¶
Ter dois tipos de ERs é uma devastação. A especificação corrente do 1003.2 diz que ')' é um caractere ordinário na ausência de um '(' não casado; este era um resultado não-intencional de um erro de palavreamento, e mudanças são parecidas. Evite confiar nela. Referências para trás são uma destruição terrível, causando problemas sérios em implementações eficientes. Elas também são definidas um pouco vagamente (fazendo Evite usá-las. A especificação 1003.2 para casamentos independentes de caixa é vaga. A definição "um caso implica em todos os casos" dada acima é um consenso corrente entre implementadores como a interpretação correta. A sintaxe para os limites de palavra é incrivelmente feia.AUTOR¶
Esta página foi tomada do pacote regex de Henry Spencer.TRADUZIDO POR LDP-BR em 21/08/2000.¶
Rubens de Jesus Nogueira <darkseid99@usa.net> (tradução) André L. Fassone Canova <lonelywolf@blv.com.br> (revisão)07/02/1994 |