본문 바로가기
샐러던트/석사논문 쓰기

데이터 준비

by Dr. K 라운지 2023. 10. 28.
728x90

데이터, 기초통계,신뢰구간,빈도분석,t-test,ANOVA,카이제곱교차분석,비모수검정,상관분석,회귀분석

-------------------------------------

 

데이터 클리닝data cleaning, data cleansing

-본격적인 분석에 앞서 테이터 정리하기

-raw 데이터를 통계 분석용 데이터로 정리하는 과정

-데이터마다 상황별로 적용해야할 클리닝 방법이 상이하므로 경우/상황에 맞게 데이터를 분류/정리해야 함

  (실사례, <메디컬 빅 데이터 연구를 위한 R 통계의 정석(김종엽 저) p244 참고)

-같은 프로그램, 데이터를 사용해도 사람(연구자)마다 데이터를 담는 방식은 천차만별, 다양함

-실제 데이터 분석 과정에서 가장 귀찮고 하기 싫으면서도 시간도 가장 많이 잡아먹는 과정

  ->엉터리로 작업된(정리안된) 엑셀 내 데이터를 통계 프로그램에서 사용하기 쉽도록 다듬는 일

 

 

spreadsheet 스프레드시트

엑셀, 한셀, (공학용: origin, sigmaplot 등)  *프로그램 실행화면 캡쳐 삽입

-데이터를 모으고 클리닝하는 프로그램 

-데이터 시각화의 가장 기본적인 프로그램

 

 

통계프로그램에 로딩하기 위한 데이터 코딩

-엑셀등으로 정리된 데이터는 통계프로그램에서 로딩할 수 없음

-데이터 코딩을 위한 데이터 표준화된 저장형식: txt, csv

-txt

 ->장비 또는 기계로부터 받아들여지는 신호, 데이터값을 저장하는 가장 일반적인 형태  *신호 데이터 예시 삽입

 ->가장 일반적인 raw 데이터

-csv(; comma seperted value, 쉼표로 구분된 값)

 *팁, 엑셀 파일과 같은 위치에 csv파일을 저장해야 읿어버리고 다시 만드는 수고를 줄일 수 있어요

*엑셀 파일에서 csv로 저장하는 방법 설명 and 이미지 캡쳐 

 

 

 

728x90

'샐러던트 > 석사논문 쓰기' 카테고리의 다른 글

그룹간의 평균/비율 비교  (0) 2023.10.30
기초통계적인 검정 및 분석  (1) 2023.10.29
참고문헌  (0) 2023.09.13
W05/06-03-다중회귀분석  (0) 2023.09.09
W05/06-02-단순회귀분석  (0) 2023.09.08