'수학'에 해당되는 글 4건

  1. 2013.06.12 분산 & 표준편차
  2. 2012.07.10 유사도 측정 (cosine similarity)
  3. 2012.06.08 False Positive 와 False Negative
  4. 2010.04.26 수학 사이트

분산 & 표준편차

 

회사직원의 급여의 총합을 전체 직원의 수로 나누어주면 급여의 평균이 나옵니다.

각 개인의 급여에서 급여의 평균을 뺀 수치가 편차가 됩니다.

편차의 합은 0이 되는 특징을 가지고 있습니다.

편차는 합이 0이기 때문에 산술적으로 아무런 의미를 가지지 못하게 됩니다.

따라서 편차를 제곱하여 평균을 구하는데 바로 이것이 분산이 되는 것입니다.

분산의 양의 제곱근을 구하면 표준편차가 됩니다.

분산과 표준편차는 자료가 평균을 중심으로 얼마나 퍼져있는지, 모여있는지를 보여주는 지표로

사용이 됩니다.

분산(표준편차)이 클수록 평균을 중심으로 멀리 퍼져 있는 것이며,

작을 수록 평균에 모여있는 특징을 가지게 됩니다.

 

 

자유도

 

자유도는 여러가지 면에서 사용되는데

의미는 자유롭게 변화할수 있는 변인(변수)수를 말하는거죠.

예를들어

k+1=3 이란 것이 있을때 자유도는 0 입니다.

K=2로 정해져 버리죠. 자유로운 변인(변수)가 하나도 없는거죠.

x+y=3 이것의 자유도는 1 입니다.

x나 y중 하나는 어떤 값을 넣어도 되고

나머지 하나의 변수는 그에 따라 확정 되기 때문이죠.

통계적인 면에서 자유도는 =>(자유도 = 사례수 - 제한조건 )요렇게 됩니다.

4명의 사람이 서로 자기가 좋아하는 사람을 선택할 때 자유도는

3명을 선택할 수 있으므로 3 입니다.

자신을 제외 해야죠.

자유도 = 사례수 - 제한조건

이며

위에서 사례수는 4명

제한조건은 자기자신 제외 1개

그래서 4 - 1= 3이 자유도가 됩니다.

우리가 보통 방정식을 풀때

1개의 해가 존재하죠.

그런경우 자유도가 0인 겁니다.

-마음대로 할 수 있는 변수가 없으니까요.-

쉬운예로 연립 방정식을 예를 들어 보겠습니다.

x + y + z =3

x + 2y + 3z= 6

3x+y+z=5

이건 유일한 해가 존재하죠.

변수가 3개이고 방정식이 3개이기 때문입니다.

여기서 변수는 사례수 방정식수는 제한조건(만족시켜야할 제한조건) 이 되어

자유도 = 사례수 - 제한조건 = 3 -3 =0

자유도가 0 입니다.

우리가 임의로 정할수 있는 변수 수가 0개라는 거죠.

그럼 아래와 같은 연립 방정식이 있을때

x + y + z =3

x + 2y + 3z= 6

자유도 = 사례수(변수수) - 제한조건(방정식수) = 3 -2 =1

자유도가 1

그러므로 x y z중 하나는 마음데로 숫자를 결정해도 되는 겁니다.

위에서 예를든

x+y=3 을 다시 살펴보면

자유도 = 사례수(변수수) - 제한조건(방정식수) = 2 -1 =1

그래서 자유도가 1인 거지요.




출처 : http://blog.naver.com/PostView.nhn?blogId=jindog2929&logNo=10094880077&categoryNo=0&parentCategoryNo=188&viewDate=&currentPage=3&postListTopCurrentPage=1&userTopListOpen=true&userTopListCount=20&userTopListManageOpen=false&userTopListCurrentPage=3

'수학 > 통계' 카테고리의 다른 글

분산 & 표준편차  (0) 2013.06.12
Posted by 그래제길

유사도 측정이란, 두 문서 사이의 관련 정도를 수치적으로 계산하는 것이다. 문서는 벡터로 표현되기 때문에 측정 방법들 역시 벡터 계산으로 이루어 진다. 이에 따른 계산 방법은 코사인 계수 (Cosine coefficient), 유클리디언 거리 (Euclidean distance), 벡터 내적의 곱 (inner product)이 있다.

 

참고자료 : 정보검색과 텍스트마이닝 (동아대학교)
               위키피디아(한국미국)


출처 : http://blog.daum.net/pirate2003/6?srchid=IIMgYNzN300#A170A87364EB3406B30A3D4










유사도 계산을 통한 유사도 계산의

        코사인 계산식의 의미

  0에서 1사이의 값을 갖는다. (Rating 음수가 아닌 경우 음의 값은 갖지 않는다.)

  1이면 같은 성향, 0이면 다른 성향 나타낸다

  코사인은 벡터의 각도만을 고려하므로 벡터의 크기는 무시된다.







'수학' 카테고리의 다른 글

유사도 측정 (cosine similarity)  (0) 2012.07.10
False Positive 와 False Negative  (0) 2012.06.08
수학 사이트  (0) 2010.04.26
Posted by 그래제길

출처 : http://minjang.egloos.com/1148299


먼저, False Positive 와 False Negative라는 개념이 있다. 간단히 이야기 하면, 앞에 것은 "병에 걸리지 않았는데 병에 걸렸다고 진단하는 오류"를 가리키며, 후자는 "병에 걸렸는데 병에 걸리지 않았다고 진단하는 오류"를 가리킨다. 컴퓨터 이야기로 응용하면, memory leak을 감지하는 도구가 있다고 할 때, memory leak이 아닌데 memory leak이라고 판단하여 보고하는 것이 False Positive라고 할 수 있다. 바이러스 검사 프로그램 같은 경우, 바이러스가 있음에도 바이러스가 없다고 보고하면 False Negative가 되는 것이다. 보듯이 False Negative가 더 위험한 경우가 많다.

보다 친숙한 통계 용어로 False Positive는 "제 1종의 오류"로 False Negative는 "제 2종의 오류"로 통계학 시간에 배운다. 용어들이 말 장난하는 것 같아서 헷갈리기 딱 좋다. 지금까지 말한 내용을 간단하게 도표로 정리하자. 임신 테스터의 경우를 예로 들어보자 (위키를 참고 하였음):


여기서 이제 실제 숫자를 가지고 이야기를 해보자. 어떤 암이 있는데 이 암에 걸릴 확률이 5/1000 = 0.5%로 알려져 있다고 하자. 어떤 병원에서 이 암을 혈액 검사로 판정하는 방법을 개발하였다. 이 방법의 정확도는 "암이 있을 때 정확히 진단할 확률(양성판정)이 95%", "암이 없을 때 암이 없다라고 정확히 판정할 확률(음성판정)이 99%"로 알려져 있다. 그러나 우리가 병이 있는지 없는지는 아직 모르므로 95%와 99%의 수치는 큰 의미를 가지지 못한다. 대신에, "양성 판정을 받았을 때, 실제 병이 있을 확률"이 결국 이 검사의 정확도를 말해준다.

헷갈린다 @.@ 이것은 수식으로 표현해야 정확해진다. 간단하게 조건부 확률 표기법을 복습하면: 


로 아마 그 옛날 고등학교 시절, 수학 시간에서도 마지막 단원 부근에서나 배웠을 것이다. 풀어서 설명하면, A가 일어났다는 조건하에 B가 일어날 확률을 뜻 한다.

이것을 바탕으로 문제에 주어진 값들을 수식으로 표현해보자. 먼저, 사건 D는 병이 있을 사건을, P는 양성 판정, N는 음성 판정을 가리킨다.


즉, "병이 일어났다는 조건하에 양성 판정을 받을 확률"은 95%로, "병이 일어나지 않았다는 조건하에 음성 판정 받을 확률" 99%로 해석할 수 있다. 그러면, 이제 우리가 구하고 싶은 것은 "양성 판정이 있다는 조건하에 병이 있을 확률"이다. 이것을 수식으로 표현하면:


앞뒤만 바뀐 셈이다. 이것을 구하는 방법은 Bayes's theorem으로 구할 수 있다. 꼭 그렇지 않더라도 줄줄 풀어서 생각하면 위 확률 값을 구할 수 있다.


놀랍게도 불과 32% 밖에 되지 않는다. 한 마디로, 병원에서 병이 있다고 판정이 내려도 실제 이 암에 걸렸을 확률은 32% 밖에 되지 않는다는 것이다. 

왜 이럴까? 일단, 병이 상대적으로 희귀하다는 점을 들 수 있다. 그리고, False Positive, 즉, 병이 없을 때 병이 있다라고 판정하는 비율이 상대적으로 크기 때문이다. 정말? 불과 1%인데? 라고 반문할 수 있을 것이다. 그러나 이 1%가 정확도에 아주 큰 악영향을 미친다. 만약, 이것을 1%에서 0.1%로 10배 개선하면 정확도는 32%에서 83%로 급증한다.

반면, False Negative, 즉, 병이 있는데 병이 없다고 말할 확률은 큰 영향을 주지 않는다. 지금 5%인데, 이것을 0.05%로, 즉 100배 개선을 하여도 정확도는 32%에서 33.43%로 거의 오르지 않는다. 그렇기 때문에 이 경우에는 False Positive를 줄이는 것이 중요하다. 마지막으로 병이 일어날 확률이 더 줄어들면 이 영향은 더욱 커진다. 병에 걸릴 확률이 1/1000 즉, 0.1%가 되면 위의 진단 법은 고작 8.6%의 정확도만 준다.

'수학' 카테고리의 다른 글

유사도 측정 (cosine similarity)  (0) 2012.07.10
False Positive 와 False Negative  (0) 2012.06.08
수학 사이트  (0) 2010.04.26
Posted by 그래제길
2010.04.26 17:42


http://mathclub.kr

http://cafe.daum.net/math?t__nil_cafemy=item

'수학' 카테고리의 다른 글

유사도 측정 (cosine similarity)  (0) 2012.07.10
False Positive 와 False Negative  (0) 2012.06.08
수학 사이트  (0) 2010.04.26
Posted by 그래제길
이전버튼 1 이전버튼