웹 스크래핑
-
[나도 코딩] 웹 스크래핑 6. User AgentPrograming Language/Python 2020. 11. 9. 17:44
웹 스크래핑 User Agent 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편 3)]을 보고 공부한 내용입니다. 1. User Agent 이해하기 User Agent란? 웹 사이트에서는 접근하는 사용자의 정보 기기/브라우저별로 지원정보가 나와있어서 어떤 기기를 이용해서 접근하는지를 알 수 있음 스마트 폰에서 접속 -> 모바일 용 접속 웹에서 홈페이지 접속 -> 웹사이트 용 접속 웹 스크래핑을 할 때, 접근이 불가능한 경우가 발생하는 이유? 접속하는 브라우저에 따라서 유저 에이전트가 다름 ex) 같은 컴퓨터 내에서도 크롬, 인터넷 익스플로러의 유저 에이전트가 다름 컴퓨터가 웹스크래핑을 할 때, 홈페이지 입장에서 많은 정보를 빼갈 수도 있기 때문에 접속을 차단할 수 있음 서버 입장에서 유저 에이전씨..
-
[나도 코딩] 웹 스크래핑 6. 정규식 기본 2Programing Language/Python 2020. 11. 5. 19:45
웹 스크래핑 정규식 기본 2 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 웹 스크래핑 6. 정규식 기본편 공부하고 오기 1. 정규식 이해하기 정규식(regular expression)이란? 정해진 형태를 의미 약어로 re라고 함 ex1) 주민등록번호의 정규식: 앞 숫자 6 - 뒤 숫자 7 111111-0300303 (O) -> 올바른 정규식 dfdfdf-dofiudo (X) -> 올바르지 않은 정규식 2. 정규식 실습 2 정규식 기본 코드 복습하기 ## 복습하기 import re # 정규식(원하는 형태) 지정 p = re.compile("ca.e") # 매칭하기 m = p.match("주어진 식 or 비교할 문자열") # 확인하기 print(m.group()) ..
-
[나도 코딩] 웹 스크래핑 5. 정규식 기본 1Programing Language/Python 2020. 11. 4. 18:14
웹 스크래핑 정규식 기본 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 1. 정규식 이해하기 정규식(regular expression)이란? 정해진 형태를 의미 약어로 re라고 함 ex1) 주민등록번호의 정규식: 앞 숫자 6 - 뒤 숫자 7 111111-0300303 (O) -> 올바른 정규식 dfdfdf-dofiudo (X) -> 올바르지 않은 정규식 ex) gmail 이메일 주소 정규식: id@gmail.com datassung18@gmail.cpm (O) -> 올바른 정규식 dfdfdf@dfdfdfs@gmailcom (X) -> 올바르지 않은 정규식 2. 정규식 실습 특정한 패턴의 정규식을 찾을 때 활용함 정규식 기본 문법 compile : 정규식을 특정 문..
-
[나도 코딩] 웹 스크래핑 4. RequestsPrograming Language/Python 2020. 11. 3. 19:24
웹 스크래핑 Requests 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 용어가 어렵다면 웹 스크래핑 1.HTML 편, 2.Xpath 편 공부하고 오기 1. Requests 이해하기 Requests란? 웹 스크래핑: 웹에서 원하는 정보를 가져오기 웹 스크래핑을 하기위해서는 HTML 정보를 가져오기 위한 도구 Requests 설치 Visual Studio code에서 터미널 창 실행 -> [ctrl] + `(왼쪽 상단에 물결 키) 터미널 창에 pip install requets 치기 (requests 설치완료!) 에러 문제 참고 requests 설치가 안되고 계속 에러가 뜬다면 여기를 참고해주세요. 'Linter pylint is not installed' 에러가..
-
[나도 코딩] 웹 스크래핑 3. 크롬Programing Language/Python 2020. 11. 3. 18:02
웹 스크래핑 크롬 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 웹 스크래핑 2.XPath 편 공부하고 오기 크롬 Chrome(이)란? 구글에서 만든 인터넷 익스플로어 중 하나 ex) 네이버 웨일, 마이크로소프트 엣지 개발자도구를 활용해서 XPath를 얻기 쉽게 되어 있음 크롬에서 개발자 도구 사용법 1. 크롬에서 마우스 커서를 원하는 곳을 지정한 후 [마우스 오른쪽 클릭] -> [검사] 2. [ctrl+shift+I] -> [select an element in the page to inspect it] 버튼 누르기 3. 크롬 창 오른쪽 상단에 점 3개를 이용하기 [크롬 맞춤 설정 및 제어] -> [도구더보기] ->[개발자도구] 이 글은 나도코딩님의 [파이썬 코..
-
[나도 코딩]웹 스크래핑 2. XpathPrograming Language/Python 2020. 11. 2. 16:25
웹 스크래핑 Xpath 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 웹 스크래핑 1.HTML 편 공부하고 오기 1. Xpath 이해하기 Xpath(XML path language)란? HTML 문서의 특정 부분의 위치를 찾을 때 사용하는 언어 Xpath 구성 /html/body/div/div/div/div/span/a... '/' : '/' 아래의 한단계 아래에 자식 요소 지정 '//' : '//' 아래의 모든 요소 지정 @ : xpath에서 속성을 지정할 때 사용 예시 /학년/반 '학년' 아래 자식인 모든 '반' 요소를 선택 //@반 '반'이라는 속성을 모두 선택 //반[@학생='1번'] 학생이라는 속성이 1번인 모든 반 요소를 선택 Xpath 용어 부모: 현..
-
[나도 코딩] 웹 스크래핑 1.HTMLPrograming Language/Python 2020. 10. 29. 11:20
웹 스크래핑 HTML 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 주제: 웹 스크래핑 이해하고 실습해보기 1. 소개 및 오리엔테이션 웹 스크래핑? 웹에서 내가 원하는 정보를 추출해오는 행위 웹 스크래핑 vs 웹 크롤링 웹 스크래핑 웹 크롤링 웹에서 내가 원하는 부분만 떼어오는 개념 웹 페이지 내에서 허용된 데이터를 필요한 부분만 가져오기 웹 페이지 내에서 모든 내용을 가져오는 개념 웹 페이지 내에서 허용된 데이터를 모두 가져오기 웹 Naver, Daum, google 등과 같은 홈페이지 HTML(웹 뼈대) + CSS(웹 구성 및 디자인) + Java Script(웹이 살아있게 하기?)로 구성 주의사항 웹 스크래핑 교육을 위해서는 HTML 정도는 알고 넘어가기 웹..