Espressões Regulares

Uma Expressão Regular, conhecidas por REGEX, é um método formal de se especificar um padrão de texto.

É uma composição de símbolos, caracteres com funções especiais, chamados “metacaracteres” que, agrupados formam uma sequencia, ou expressão regular

Uma expressão regular é testada em textos e retorna sucesso caso este texto obedeça exatamente a todas as suas condições. Neste caso dizemos que o texto “casa” com (match) a expressão regular.

As REGEXs servem para se dizer algo abrangente de forma mais rigorosa. Definido o padrão, tem-se uma lista (finita ou não) de possibilidades de casamento.

Exemplo: [rgp]ato pode casar com “rato”, “gato” e “pato” Mas não "mato"

Utilidade das Expressões Regulares e a busca de padrões em textos

Vários Linguagens de Programação, editores de texto têm suporte às REGEXs.

Para exemplificar o uso das REGEX em R , usaremos as funções grep, gsub

 

Retorna o índice de todos os elementos do vetor cores que possuem "blue"

Alguns Metacaracteres

Retorna o índice de todos os elementos do vetor cores terminados por "yellow"

 

cores começadas por vogais

 

cores terminadas por numeros

 

cor cinza seguida por dois caracteres qualquer

 

cores com apenas 4 caracteres

grep("[0-9]{3,5}",cores ,value=T) onde cores tem de 3 a 5 numeros

Para fazer um OU lógico, onde buscamos uma coisa OU outra, deve-se usar o | e delimitar as opções entre parênteses: ​

 

Não deve conter espaços! Nesse exemplo é o mesmo que

 

Pesquisa para retornar as cores que não começam por vogais

 

Ou usar negativa (NOT) usando “^”

 

repare que o não é o ^ que está dentro das chaves!

Busca por números de três dígitos ou mais

 

Busca por cores terminadas com letras entre r e z ​
A função gsub faz substituições em strings usando REGEX ​

 

Existem varias funções que podem usar REGEX, o R utiliza dialeto de REGEX aprenda um pouco mais nessa Vignette