두 개 혹은 그 이상의 데이터프레임을 합칠 때 쓰는 함수는 일반적으로는 merge입니다. 그런데 merge는 다소 오래된 함수이고, 요즘은 dplyr library에 있는 join이라는 함수를 훨씬 많이 이용합니다. join 함수는 종류가 여럿인데, 많이 쓰이는 것으로는 left_join(), right_join(), inner_join(), full_join()이 있습니다. 두 개 혹은 그 이상의 데이터프레임을 합치려면 적어도 공통된 칼럼이 적어도 하나는 있어야 합니다. x와 y라는 데이터프레임을 "year"라는 공통된 칼럼으로 합치되, 두 데이터프레임에 missing value가 없는 것들만 합쳐라 이런 식으로 명령을 내리면,
inner_join(x, y, by="year") 이렇게 해주면 됩니다. 더 구체적인 예를 들기 위해 아래 그림을 첨부합니다. 자세한 내용은 아래 링크를 첨부하세용~
mikoontz.github.io/data-carpentry-week/lesson_joins.html
Multi-table joins
Learning objectives Focus on the third tidy data principle Each variable forms a column. Each observation forms a row. Each type of observational unit forms a table. Be able to use dplyr’s join functions to merge tables Joins The third tidy data maxim st
mikoontz.github.io
'R > R basic' 카테고리의 다른 글
%>%란 무엇인가 (dplyr) (0) | 2021.04.30 |
---|---|
3개 이상의 데이터프레임을 한 번에 합치기 (join 함수) (0) | 2021.04.26 |
데이터 불러서 한 번에 통합 (plyr::ldply 함수) (0) | 2021.04.21 |
한 폴더에 있는 파일을 한꺼번에 불러서 통합시키기 (list.files / do.call 함수) (1) | 2021.04.20 |
각 칼럼안에 있는 고유한 이름(혹은 값)은 몇 개나 있나 (n_distinct) (0) | 2021.04.14 |