Base/R

[R] R에서 사용되는 정규표현식(Regex) 표현 방법과 함수를 통한 사용 예제

반응형

정규표현식

- 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어


*  0 or more.
+  1 or more.
?  0 or 1.
.  무엇이든 한 글자를 의미
^  시작 문자 지정 
ex) ^[abc] abc중 한 단어 포함한 것으로 시작
[^] 해당 문자를 제외한 모든 것 ex) [^abc] a, b, c는 빼고
$  끝 문자 지정
[a-z] 알파벳 소문자 중 1개
[A-Z] 알파벳 대문자 중 1개
[0-9] 모든 숫자 중 1개
[a-zA-Z] 모든 알파벳 중 1개
[가-힣] 모든 한글 중 1개
[^가-힣] 모든 한글을 제외한 모든 것
[:punct:] 구두점 문자, ! " # $ % & ’ ( ) * + , - . / : ; < = > ? @ [ ] ^ _ ` { | } ~.
[:alpha:] 알파벳 대소문자, 동등한 표현 [A-z]
[:lower:] 영문 소문자, 동등한 표현 [a-z]
[:upper:] 영문 대문자, 동등한 표현 [A-Z].
[:digit:] 숫자, 0,1,2,3,4,5,6,7,8,9,
[:xdigit:] 16진수  [0-9A-Fa-f]
[:alnum:] 알파벳 숫자 문자, 동등한 표현[A-z0-9].
[:cntrl:] \n, \r 같은 제어문자, 동등한 표현[\x00-\x1F\x7F].
[:graph:] 그래픽 (사람이 읽을 수 있는) 문자, 동등한 표현
[:print:] 출력가능한 문자, 동등한 표현
[:space:] 공백 문자: 탭, 개행문자, 수직탭, 공백, 복귀문자, 서식이송
[:blank:] 간격 문자, 즉 스페이스와 탭.

 

 

#grep(pattern,date,[ignore.case],[value]) - 정규표현식을 사용해 원하는 값을 가져오는 함수

 

pattern - 찾으려는 패턴

date - 데이터

ignore.case - 대소문자 상관없이 찾는다(생략가능)

value - 값을 바로 출력 / 이게 아닐 경우 위치를 출력한다.

 

 

 

 

#gsub - 문자열에서 문자를 바꾸는 기능

 

 

 

 

 

#strsplit(data, split) - 문자열을 기준에 따라 쪼개는 함수 

#substr(data, start, stop) - 데이터에서 start/stop까지 의 문자열을 가져오는 함수

 

 

 

#str_extract/all - 정규표현식을 통해 추출하는 함수

 

 

 

 

예제

 

 

 

 

 

#단어와 숫자에 관련된 메타 문자

 

 

반응형