갱스타
갱스타의 블로그
갱스타
전체 방문자
오늘
어제
  • 분류 전체보기 (93)
    • TIL(Today I Learned) (10)
    • 노력만이 살길! (58)
      • 알고리즘 (29)
      • 네트워크 (3)
      • Python (1)
      • Spring Boot (1)
      • 합격하기 (0)
      • Adsp (3)
      • SQLD (10)
      • 데이터분석 (5)
      • 취업일기 (4)
      • IT 프로젝트 관리 (1)
      • 운영체제 (1)
    • Life (10)
      • 일상 그리고 리뷰 (10)
    • 기타 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • Get
  • 싸피7기
  • SWEA 13038
  • 백준 참외밭
  • swea
  • 통신
  • 싸피합격
  • 백준 달팽이
  • 백준 알고리즘
  • 백준
  • SW Expert Academy
  • 네트워크
  • java 알고리즘
  • 알고리즘
  • 달팽이 반복문
  • 백준 2477번
  • post
  • 싸피
  • 달팽이문제
  • mac 단축키

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
갱스타

갱스타의 블로그

python을 활용한 스크래핑
노력만이 살길!/데이터분석

python을 활용한 스크래핑

2021. 7. 12. 18:06

웹페이지에서 데이터 추출하기 

- 정규 표현식을 이용한 스크래핑은 HTML을 단순한 문자열로 취급하여 필요한 정보를 추출한다.

마크업되지 않은 웹페이지도 문자열의 특징을 파악하면 스크래핑이 가능하다.

 

- XML파서를 이용한 스크래핑은 XML 태그를 분석(파싱)하여 필요한 정보를 추출한다. 

블로그 또는 뉴스사이트 정보를 전달하기 위한 RSS와 같이 많은 데이터가 XML 형태로 제공된다.

XML 파서를 사용하면 정규 표현식보다 간단하고 효과적으로 필요한 정보를 추출할 수 있다.

 

- HTML 을 스크래핑 할 때는 HTML 전용 파서가 필요하다

PYTHON의 표준 모듈인 html.parser 모듈을 사용하면 HTML 파싱이 가능하다 BUT 복잡한 처리가 필요하다.

lxml 등과 같은 라이브러리를 사용하여 HTMl 파싱이 필요하다.

 

 

1. 정규식을 이용해서 스크래핑하기

-> 정확하기 일치하는 텍스트 x 패턴이 일치하는 텍스트 찾기에 적합

정규식 Regualr expressions, Regex 또는 Regexp 라고 한다.

특정 검색 패턴에 대한 하나 이상의 일치 항목을 검색한다.

검색된 텍스트로부터 정보를 추출하는데 매우 유용하게 사용가능한 표현식이다.

문자열을 파싱 및 대체, 데이터를 다른 형식으로 변환, 웹 스크래핑 등 다양한 분야에서 응용하여 사용할 수 있다.

프로그래밍언어 python, java, javascript, c, c++ 등과 텍스트 에디터에 적용이 가능하다.

정규식의 패턴

 

'노력만이 살길! > 데이터분석' 카테고리의 다른 글

빅데이터 분석기사 3과목 요약  (0) 2021.09.24
landsat8 위성영상으로 지표면 온도 추출하고 QGIS로 시각화하기  (0) 2021.08.06
pansdas 활용하기  (0) 2021.06.22
데이터분석 입문  (0) 2021.06.21
    '노력만이 살길!/데이터분석' 카테고리의 다른 글
    • 빅데이터 분석기사 3과목 요약
    • landsat8 위성영상으로 지표면 온도 추출하고 QGIS로 시각화하기
    • pansdas 활용하기
    • 데이터분석 입문
    갱스타
    갱스타
    열심히 배워보자

    티스토리툴바