반응형

Python/PYTHON Natural Language Processing 3

[Python] text 편집 완전 기본

이번편은 text 문서 불러오는 법, 여기에 새로운 내용 추가하는 법등을 배워볼까 합니다. 우선 아무런 library도 필요없구요. 기본적으로 text file을 하나 만들어봅시다. 이거는 오로지 jupyter notebook에서만 사용가능한 방법이라 그외의 프로그램에서는 별 의미가 없습니다. 주피터에서는 다음과 같이 텍스트 파일을 생성할 수 있어요. %%writefile 파일명.txt %%writefile test.txt Hello, this is a quick test file. This is the second line of the file. 이렇게 우선 만들고 이 파일을 불러옵니다. 그냥 open만 해주면 됩니다. myfile=open('test.txt') 이렇게만 하면 안 읽히고 myfile.r..

[Python] text 검색 기본 function#3: group, ., +

앞에서 pattern은 이런 식으로 r'/d{3}-/d{3}-/d{4}' 이렇게 표현할 수 있다고 하는데요. 이번에는 이걸 하나씩 그룹으로 묶을 수도 있습니다. 예를 들어 숫자 안에 괄호를 넣어서, pattern을 만든 다음에, pattern=r'(/d{3}-)(/d{3}-)(/d{4})' text="my phone is 123-456-0022" mymatch=re.search(pattern, text) 이걸 그룹으로 묶은 다음에 각 그룹의 내용을 검색하라고 하면 됩니다. mymatch.group() # 전체 결과 mymatch.group(0) # 전체 결과 mymatch.group(1) # 결과는 123 mymatch.group(2) # 결과는 456 각 숫자가 들어간 모든 단어들을 뽑아내라고 하면 ...

[Python] text 검색 기본 function#2

저번에 이어 이번에는 특정 포맷을 검색하는 법을 알아보고자 합니다. 예를 들어 xxx-xxx-xxxx형태의 전화번호가 몇 번이나 나오는지 알고 싶다고 하면, 우선 포맷을 정의해줘야 합니다. 우선 패턴 타입을 지정해줘야 하는데 숫자는 /d를 통해서 표현해줍니다. 그런데 패턴을 적을 때는 반드시 r을 앞에다 붙여주는 거 잊지 마세요! myphone="My phone is 833-745-2155 and my wife's one is 833-222-4901." re.search(r'/d/d/d-/d/d/d-/d/d/d/d', myphone) 그러면 첫번째 결과를 찾아줍니다. 그런데 매번 r + /d 이 조합을 여러번 적는 건 귀찮기 때문에 아래처럼 해줘도 됩니다. re.search(r'\d{3}-\d{3}-\d..

반응형