웹페이지에서 데이터 추출하기
- 정규 표현식을 이용한 스크래핑은 HTML을 단순한 문자열로 취급하여 필요한 정보를 추출한다.
마크업되지 않은 웹페이지도 문자열의 특징을 파악하면 스크래핑이 가능하다.
- XML파서를 이용한 스크래핑은 XML 태그를 분석(파싱)하여 필요한 정보를 추출한다.
블로그 또는 뉴스사이트 정보를 전달하기 위한 RSS와 같이 많은 데이터가 XML 형태로 제공된다.
XML 파서를 사용하면 정규 표현식보다 간단하고 효과적으로 필요한 정보를 추출할 수 있다.
- HTML 을 스크래핑 할 때는 HTML 전용 파서가 필요하다
PYTHON의 표준 모듈인 html.parser 모듈을 사용하면 HTML 파싱이 가능하다 BUT 복잡한 처리가 필요하다.
lxml 등과 같은 라이브러리를 사용하여 HTMl 파싱이 필요하다.
1. 정규식을 이용해서 스크래핑하기
-> 정확하기 일치하는 텍스트 x 패턴이 일치하는 텍스트 찾기에 적합
정규식 Regualr expressions, Regex 또는 Regexp 라고 한다.
특정 검색 패턴에 대한 하나 이상의 일치 항목을 검색한다.
검색된 텍스트로부터 정보를 추출하는데 매우 유용하게 사용가능한 표현식이다.
문자열을 파싱 및 대체, 데이터를 다른 형식으로 변환, 웹 스크래핑 등 다양한 분야에서 응용하여 사용할 수 있다.
프로그래밍언어 python, java, javascript, c, c++ 등과 텍스트 에디터에 적용이 가능하다.
정규식의 패턴
'노력만이 살길! > 데이터분석' 카테고리의 다른 글
빅데이터 분석기사 3과목 요약 (0) | 2021.09.24 |
---|---|
landsat8 위성영상으로 지표면 온도 추출하고 QGIS로 시각화하기 (0) | 2021.08.06 |
pansdas 활용하기 (0) | 2021.06.22 |
데이터분석 입문 (0) | 2021.06.21 |