요즘 많이 쓰이고 있는 quanteda library를 통해서 Natural Language Processing을 해보려고 합니다. 이번에 할 작업은, 각 사고 원인별로 따라 그 원인을 설명하는 특정 단어들이, "다른 원인들에 비해", 더 많이 나오는가 적게 나오는가를 그래픽화해보려고 합니다. 자세한 설명은 생략하고 핵심 명령어로 바로 들어가죠. 우선 원 자료는 accident_data_copy.csv라는 파일이고 여기서 NARRATIVE 칼럼을 핵심 단어 분석을 하려고 합니다. 우선 library를 불러오구요. require(quanteda) require(readtext) require(quanteda.corpora) require(ggplot2) 필요없는 리스트들 먼저 지워버리구요. rm(list=..