오즈비와 상대위험도의 이해 1 오즈란 무엇인가
여기까지는 알겠는데 통계에 어떻게 적용하는지는 또 다른 얘기입니다. 힌트를 드리자면 환자-대조군 연구의 정의에 도박의 바이브를 잘 엮으면 됩니다. 1 에서는 오즈에 대해 스토리텔링을 겸하여 설명을 하면서 보다 편하게 오즈와 가까워지게끔 하는 것을 목표로 하였습니다. 아래 결과에서 보듯이 Bassassinator을 사용했을때 물고기를 잡을 확률은 잡지 못할 확률에 1배이므로 같다고 할수 있다. 그렇지만 No bait를 한 경우는 물고기를 잡을 확률이 훨씬 작아진다. 어떤 데이터가 가설에 대한 증거가 되기 위해서는 베이즈 요소가 1보다 커야된다고 하였습니다.
범주형 자료 분석 : 왜 오즈비(odds ratio) vs 상대 위험도(relative risk) 를 만들었을까
여러분들도 처음 보아 낯설 수 있지만 하나의 자연스러운 개념으로 받아들이시면 좋을 것 같습니다. 오즈는 사실 확률론이 생기기 이전인 16세기에 등장한 개념입니다. 우선 오즈와 친해지는 것이 중요하다 생각하기에 오즈에 관해 스토리텔링을 진행하면서 시작하려고 합니다. 흔히 범하는 실수는 Bassassinator를 사용하는 낚시꾼들은 물고기를 낚을 확률이 2배가 높다라고 해석하는 경우가 있는데 이것은 잘 못된 해석이다.
- 타켓변수가 연속형 일때, 일반적인 선형 회귀로 회귀선을 적합하게 그리고 패턴을 파악하고 예측할 수 있다.
- 즉, 이 경우에는 사후 확률가 아닌 사후 오즈로 분석하면 안구 관련 증상이 실제로 마르판 증후군 판별에 있어 중요한 단서라고 생각할 수 있습니다.
- 특히 로지스틱 회귀 분석은 이항 분포를 따르는 종속 변수에 대해 사용되는 GLM이다.
- 로지스틱 회귀분석을 이해하기 전에 여러분들이 아셔야 하는 정보가 두 가지 있습니다.
A 그룹과 B 그룹에서 사건이 발생한 사람들의 비율을 각각 계산한 후, 그 비율을 나누면 됩니다. 오즈비는 두 그룹에서 어떤 일이 일어날 확률을 비교하는 지표예요. 쉽게 말하면, 특정 사건이 한 그룹에서 더 자주 발생하는지, 덜 자주 발생하는지 알아보는 수단이에요. (1) 종속 변수와 독립 변수 사이의 관계가 비선형 관계로 식별되기 때문에 정규 분포의 가정이 독립 변수에 적용되지 않습니다. 이 질병의 특징은 15000명의 사람 중 1명 꼴로 나타나는 유전 질환의 일종으로 특정 결합 조직에 이상을 끼치는 질병입니다. 이 마르판 증후군의 중요한 특성은 3가지의 안구와 관련된 증상이 나타난다는 점입니다.
이번 주제에서는 예측변수 X의 단위변화에 따른 결과변수의 확률 예측값의 변화를 알기위해 로그를 풀어주고 식을 다시 분해해 보았습니다. 그리고 그 결과 베타1에 따른 지수함수 꼴로 오즈(결과변수의 확률 예측값)가 변화하는 것을 확인할 수 있었습니다. 예측변수 x를 입력하였을 때 p(x)의 결과는 0과 1사이의 값이 나오게 됩니다. 하지만 이 함수를 그대로 로지스틱 회귀분석에 사용하지는 않습니다.
이것을 설명하기 위해서 다음과 같은 예를 들어보자. 즉 여기서는 당신이 몇번 던졌는지 정확히 알 수 있고 이것은 통계적으로 모집단의 수와 일치한다. 오즈비와 상대위험도는 2 X 2 분할표에서 가장 널리 사용되는 연관성 측도이다. 주로 의학분야에서 많이 사용되는데 위험인자와 질환 발생과의 연관성을 확인하기 위해서 사용된다. 이때, 유의할 점은 사례-대조군 연구에는 상대위험도가 쓰이면 안된다. 선형 회귀가 데이터의 이진 분류 특성을 제대로 반영하지 못한다이로 인해 분류 문제에서 패턴을 적합하게 모델링하지 못하고 예측 성능이 크게 떨어질 수 있습니다.
이제 정리를 해보자면 로지스틱 회귀분석의 목표는 예측변수 X를 통해서 결과변수가 발생할 확률을 계산합니다. 그렇다면 예측변수 X를 대입하면 확률이 나와야 하겠죠? 이 말은 예측변수 X를 넣을 경우 결과가 0과 1사이의 값이어야 함을 의미합니다. 이 결과를 해석해보면 안구관련 증상을 가지고 있는 사람을 보면 단순히 마르판 증후군에 대한 오즈보다 약 10배 정도 증가한 것을 볼 수 있습니다. 즉, 이 경우에는 사후 확률가 아닌 사후 오즈로 분석하면 안구 관련 증상이 실제로 마르판 증후군 판별에 있어 중요한 단서라고 생각할 수 있습니다. 결과적으로 오즈에 로그를 취해주니 우변이 선형회귀식과 동일해 졌습니다.
로짓(Logit) 함수와 로지스틱 회귀 분석
Odds는 위와 깉이 어떤 일이 발생할 확률과 발생하지 않을 확률 사이의 비율을 의미해요. 이 결과를 분석해보면 위의 증상을 가지고 있더라도 그 사람이 마르판 증후군을 가지고 있다고 보기에는 여전히 힘든 확률입니다. 종속변수는 카지노사이트추천 0과 1밖에 아닌데 예측 결과는 0도 아니고 1도아님. 그러면 0.5보다 높으면 생존이고 아니면 사망이라고 판단해도 되는걸까?
즉, 회귀분석은 범위에 대한 제한이 없기에 따라서 X의 범위와, y의 범위의 차이가 발생한다. 이진 분류 모델(여기선 Sigmoid 사용)을 사용한다고 가정한다. 오즈(odds)라는 단어 자체에 거부감이 들거든요.
상대위험도를 사례-대조군 연구에서 사용하면 안되는 이유
각 단계에서 필요한 검정 방법과 설명을 함께 정리했다. Odds(오즈)는 어떤 사건이 일어날 확률 대비 일어나지 않을 확률의 비율이다. 확률과는 다른 개념으로, 주로 통계학과 로지스틱 회귀에서 사용된다. (2) 명목형, 연속형, 순서형을 비롯한 다양한 독립 변수에 다양한 자료 유형을 사용할 수 있기 때문에 복잡한 현상을 설명할 수 있습니다. 선형 회귀는 연속형 데이터에 적합하지만, 종속 변수가 범주형 데이터인 경우에는 한계를 드러냅니다.
거의 모든 연구는 실제로 처리(treatment)그룹과 대조(control)그룹의 모집단수를 알 수 없다. 왜냐하면 연구자가 할 수 있는 것은 샘플수를 조정할 수 있을 뿐이다. 이전에 베이즈 추론에서 데이터가 여러 번 얻었을 때 반복해서 사후 확률을 계산했던 거 처럼 오즈 역시 동이랗게 할 수 있습니다. 사후 오즈는 사후 확률과 동일한 개념으로 사용될 수 있습니다.
근데 유독 ㅁㅁ학교에 다니는 아이들이 많이 걸... 특히 오즈비를 작성할 때는 신뢰구간(CI, Confidence interval)을 함께 제시 해주어야 한다. 이번 포스팅에서는 머신러닝 알고리즘에서 자주 쓰이는 Odds (오즈) 가 무엇인지에 대해서 배워볼게요.
Recent Comments