반응형

전체 글 88

random variable #1

random variable을 그냥 랜덤한 수로 생각하고 있었는데 완전 오산. random variable은 함수다. 기본적으로 어떤 수를 다른 경우의 수로 매칭해주는 함수. 그런데 이걸 확률이랑 결합하면 예를 들어 동전 앞면이 나오는 경우를 확률이랑 매치했을 때 P(x=H) 이렇게 해주는 경우를 랜덤 variable이고 이 경우가 1/2이다. 이걸 주사위 얘기로 바꾸면 예를 들어 앞면이 2번 나올 경우 (4번 던졌을 때) 이렇게 매치할 수도. 그럼 결국 앞에서 배운 조합 수는 경우랑 비슷해져서 4C2 x (1/2)^1/2x(1/2)^1/2 이런식으로 변함. 랜덤 베리어블이 결국 조합의 수를 세는 거랑 비슷하다니 신기. 기대값은 뭐냐. 여기서는 확률과 각 변수값을 곱한 건데, 여기서 gravity라는 메..

Schemepack: STATA 그림 템플렛 바꾸기

stata를 쓰다보면 그래프가 너무 무미건조해서 쓰기 싫을 때가 있다. R이나 파이썬처럼 오픈 패키지가 있으면 모르겠는데 그림이 너무 밋밋하다 싶으면 아래 링크처럼 해보면 스타타 안에서도 다양한 모양의 그래프를 가져올 수 있다. Stata graph schemes. Learn how to create your own Stata… | by Asjad Naqvi | The Stata Guide | Medium Stata schemes Learn how to create your own Stata graph scheme. Several new schemes are also released with this guide. medium.com 위 링크처럼 schemepack을 깔았더니 다양한 모양의 그래프를 그릴 ..

STATA 2022.09.15

R 다른 코드 스크립트 불러올 때

작업을 하다보면 R코드가 너무 길어서 복잡할 때가 있는데, 코드를 좀 분리하는 게 편하죠. 일단 기존 코드로 짜다가, 너무 길다 싶은 부분은 새로운 창으로 옮겨서 짠 다음에, 기존 코드에 자연스럽게 부르는 형식을 취할 수도 있습니다. 그럴 때 쓰이는 게 source라는 명령어 입니다. source("C:/Users/nobody/Documents/R/MyScript.R") 위는 한 예이고 (당연히 개인 계정에 맞춰 폴더 이름과 R script 이름은 바꿔야겠죠?), 저렇게 치면 R 폴더 밑에 있는 MyScript.R이라는 코드를 돌려라 하는 명령어가 됩니다.

R/R basic 2022.08.18

조건 걸어 평균값 구하기

그냥 평균값 구하는 거야 mean을 쓰면 되는데 예를 들어 어떤 칼럼이 뭐 이상일 때 다른 칼럼의 평균값을 구해라, 뭐 이런 식의 조건이 들어가면 R에서는 직관적으로 명령문이 잘 안 나옵니다. stata나 sas는 이런 게 그냥 한 번에 쓸 수 있는데, R은 좀 솔직히 이런 간단한 것도 조금 불필요한 수식이 있죠. 어쨌든 예를 들어 df라는 데이터프레임에 T10Y2Y라는 칼럼 값이 음수일 때 Close라는 칼럼의 평균 값을 구하라는 명령어를 적으려면 아래처럼 하면 됩니다. mean(df[df$T10Y2Y < 0, "Close"], na.rm=TRUE) 여기서 중요한 게 na.rm인데 결측값을 무시하라는 얘기입니다. 다른 통계프로그램에서는 자연스럽게 결측값을 무시하는데 R은 그렇지 않으니, 결측값이 있고 ..

R/R basic 2022.08.17

중복 제거 #1: duplicated

R에서 중복된 값을 찾으려 할 때 같이 많이 쓰이는 함수가 duplicated와 unique입니다. duplicated는 말 그대로 중복된 값이 잇는지를 찾아주는 것이고 unique는 고유한 값을 뽑아내주는 함수입니다. R에서 iris라는 공용 데이터를 가져와서 duplicated라는 함수를 한 번 써보죠. 쳐보니 모두 다 다른 값을 같는 듯하네요. duplicated(iris) 그런데 위 값은 iris라는 모든 칼럼의 값이 일치하는 경우는 없다는 얘기이기 개별 칼럼 값이 같은 값이 없다는 얘기는 아닙니다. 예를 들어 iris 데이터 중에서도 Sepal.Width라는 칼럼이 동일한 값이 나오는 경우가 있는지를 보라고 치면 다음과 같이 나옵니다. duplicated(iris$Sepal.Width) 어떤 칼..

카테고리 없음 2022.07.29

missing value(결측값, 결측치) 0 (혹은 다른 값)으로 바꾸기

데이터는 많은 경우 missing value(결측값)들이 많은데요. 이걸 drop 할 수도 있습니다만 (아래 링크 참조), 열(row) 제거하기 (tistory.com) 열(row) 제거하기 앞서 칼럼(column)제거하는 글을 올렸는데 정작 열을 제거하는 법은 올리지 않았네요. 특정 열(column)만 선택 (keep) 혹은 제거(drop)하기 (tistory.com) 특정 열(column)만 선택 (keep) 혹은 제거(drop)하기 R에.. approximation.tistory.com 경우에 따라서 그냥 0 혹은 다른 값으로 바꾸고 데이터를 유지하고 싶은 경우도 있을 겁니다. 그럼 결측값을 특정 숫자로 바꾸는 명령어는 무엇일까요? 의외로 매우 간단합니다. 만약 df라는 데이터프레임에 모든 칼럼의 ..

R/R basic 2022.07.28
반응형