노력만이 살길!/데이터분석
빅데이터 분석기사 3과목 요약
3과목 – 빅데이터 모델링 (1) 분석 모형 설계 1. 분석 모형 선정 - 탐색적 데이터 분석 EDA : 현상에서 패턴을 발견 - 통계적 추론 : 현상에서 인과적 결론을 도출 - 기계학습 : 현상을 예측 가. 통계 기반 분석 모형 선정 - 데이터를 처리, 분류, 분석 및 해석하는 일련의 체계가 통계분석 기술통계 데이터의 분포 파악(평균, 분산, 표준편차) 등 수집된 데이터를 확률,통계적으로 요약하는 기초통계 분산분석 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법 회귀분석 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 상관분석 변수 사이의 연관 관계를 분석 주성분분석 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 방법 판별분석 판별규칙을 만들고..
landsat8 위성영상으로 지표면 온도 추출하고 QGIS로 시각화하기
과정 위성영상 추출 -> 밴드10번, 4,5번 활용 LST 파일 확장자 .TIT 래스터 계산식 활용해서 지표 온도 계산 -> 단계구분으로 시각화하기 -> 힘들었던 점 : 데이터 구하고, 데이터를 전처리하고, 입맛에 맞게 시각화하려고 논문 찾아보고...

python을 활용한 스크래핑
웹페이지에서 데이터 추출하기 - 정규 표현식을 이용한 스크래핑은 HTML을 단순한 문자열로 취급하여 필요한 정보를 추출한다. 마크업되지 않은 웹페이지도 문자열의 특징을 파악하면 스크래핑이 가능하다. - XML파서를 이용한 스크래핑은 XML 태그를 분석(파싱)하여 필요한 정보를 추출한다. 블로그 또는 뉴스사이트 정보를 전달하기 위한 RSS와 같이 많은 데이터가 XML 형태로 제공된다. XML 파서를 사용하면 정규 표현식보다 간단하고 효과적으로 필요한 정보를 추출할 수 있다. - HTML 을 스크래핑 할 때는 HTML 전용 파서가 필요하다 PYTHON의 표준 모듈인 html.parser 모듈을 사용하면 HTML 파싱이 가능하다 BUT 복잡한 처리가 필요하다. lxml 등과 같은 라이브러리를 사용하여 HTMl..
pansdas 활용하기
.read_csv("C:\\Users\\pop_2014.csv", encoding='euc-kr') .read_csv pop_3=pd.read_excel('C:\\Users2014년.xlsx',header=1) #1번 행부터 불러와라~! .read_excel pop_5=pop_2.sort_values(by="행정구역명",ascending=True) 변수명.sort_values(by = "정렬할칼럼명", ascending=True) 오름차순으로 테이블을 정렬 pop_4.rename(columns={pop_4.columns[1]:'남자', pop_4.columns[2]:'여자' }, inplace=True) 변수명.rename(columns={ 변수명.columns[칼럼번호] : '바꿀이름' }, inpla..