난분자생물학전공자_아무것도모르지

스피어만 상관분석 (Spearman's correlation) 방법

DiKiCHi 2022. 1. 10. 15:16

실험을 하다보면 세포에서 어떤 A유전자의 발현 정도와 B유전자의 발현 정도가 상관있는지 확인할 필요가 있습니다. 

변수간의 관련성을 평가하는 방법입니다. 

자세한 내용들은 인터넷을 찾으면 자세히 나옵니다.

왜 스피어만 상관분석을 알아야 할 까요?

스피어만 상관분석뿐만 아니라 통계적인 방법을 알고 있으면 하나의 실험을 하더라도 두개의 그림을 만들 수 있기 때문입니다. 

 

공짜 데이터를 얻을 수 있다는 점에서 알아두면 유익하다고 할 수 있습니다. 데이터 하나 만들기가 얼마나 어렵습니까! 통계적인걸 알아두면 좀더 논문이 풍성해 보일 겁니다. 

저는 간단하게 Spearman's correlation coffeicient (스피어만 상관계수)부터 말씀드리겠습니다. 

Rs값으로 표시되는 상관계수는 데이터간에 상관성을 나타내는 지표라고 할 수 있습니다. 

특히 

-1에서 1사이 값을 가집니다.

절대값으로 1에 가까워질수록 그 상관정도가 크다고 볼 수 있습니다. 


 

제가 할 것은 lung cancer cell line에서 miR-27a 발현SMAD2 유전자 발현의 상관 관계를 볼려고 합니다. 

엑셀로 파일을 만들었으니 참고 하시면 될 것 같습니다. 

짜잔~ 어설프게 만들어봤습니다.

1. 샘플 이름과 데이터 수치를 적어줍니다. 

빨강색 선 안에 자신에 데이터를 적어줍니다. 제가 적은 것은 엉터리 데이터를 무작위로 넣은 값입니다. 

 

그러면 miR-27에서 순위를 정해줍니다. 수치가 높은 것부터 1등~7등까지 자동으로 정해줍니다. 

d 값은 샘플 1의 rank에서 샘플 2의 rank 값을 뺀 값입니다

그래서 d값은 합은 무조건 0을 가집니다. 

d^2 값을 다시 구해주고 이 값을 이용합니다. 

d^2 값은 다양하게 나타납니다. 저는 90이 나왔습니다.  

 

상관계수 (Rs)를 구하기 위한 정보는 다음과 같습니다. 

1. 샘플 수

2. d^2의 합계

d^2 값을 얻기 위해 이 고생을 한 겁니다. 

상관 계수 공식을 말씀드리자면.

Rs=1-((6∑d^2)/(n*(n^2-1))

차근 차근 보시면 샘플 수d^2 합 값만 있으면 Rs 값을 구할 수 있다는 것을 아실 수 있을 겁니다. 

 

2. Rs 값이 나옵니다. 저는 -0.61 값을 얻을 수 있었습니다. 

엉터리로 데이터를 넣었지만 두 변수간에 상관이 있다는 것을 확인 할 수 있었습니다. 

앞에서 말씀드리다시피 

-1 ~ 1 사이값을 갖습니다.

저는 -0.61 값이니 Strong 하게 상관이 있습니다. 

적어도 moderate 정도는 나와야 논문에 실을 수 있습니다. 

 

 

유전자의 상관관계를 스피어만 상과분석을 통해서 그래프를 만들었는데요. 어설픈 것 같지만 논문에 충분히 실을 수 있는 그림입니다. 

물론 데이터가 더 많을수록 좋겠죠?

이론적인 것은 인터넷에 나와있으니 참고하시면 좋겠습니다. 

 

엑셀파일은 첨부했습니다. 함수 참고해서 보시면 더 이해하시기 쉬울겁니다. 

spearman's correlation ver1.1.xlsx
다운로드

 

 

<공감과 댓글, 광고 클릭은 늘 감사합니다.>