python
-
[데이터 수집] selenium 유튜브 검색 결과 스크래핑Database/데이터 수집(Data Extraction) 2020. 12. 1. 18:00
유튜브 검색 결과 스크래핑 이 글은 유튜브 검색 결과를 데이터로 수집하는 글입니다. 유튜브 검색 결과에서 컨텐츠 제목, url 등의 가져와서 csv 파일로 저장해보았습니다. 열심히 배우고 있는 단계라서 실수가 있을 수도 있습니다. 선행 개념(웹 스크래핑, 크롤링, HTML) 이해하기 VsCode에서 작성한 코드이지만 쥬피터 노트북에서도 문제없이 작업을 했습니다. 1. 필요한 패키지 준비 유튜브 스크래핑할 때, Beautifulsoup 사용하면 움직이는 부분(동적 페이지)은 자료가 긁어오는데 문제가 발생합니다. ex) 유튜브 검색 결과 페이지에서 스크롤을 끝까지 내리는 작업은 Beautifulsoup에서는 할 수가 없음 ex) 특정 페이지를 이동하면서 자료를 가져오는 작업은 Beautifulsoup을 이용..
-
[나도 코딩] 웹 스크래핑 6. User AgentPrograming Language/Python 2020. 11. 9. 17:44
웹 스크래핑 User Agent 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편 3)]을 보고 공부한 내용입니다. 1. User Agent 이해하기 User Agent란? 웹 사이트에서는 접근하는 사용자의 정보 기기/브라우저별로 지원정보가 나와있어서 어떤 기기를 이용해서 접근하는지를 알 수 있음 스마트 폰에서 접속 -> 모바일 용 접속 웹에서 홈페이지 접속 -> 웹사이트 용 접속 웹 스크래핑을 할 때, 접근이 불가능한 경우가 발생하는 이유? 접속하는 브라우저에 따라서 유저 에이전트가 다름 ex) 같은 컴퓨터 내에서도 크롬, 인터넷 익스플로러의 유저 에이전트가 다름 컴퓨터가 웹스크래핑을 할 때, 홈페이지 입장에서 많은 정보를 빼갈 수도 있기 때문에 접속을 차단할 수 있음 서버 입장에서 유저 에이전씨..
-
[나도 코딩] 웹 스크래핑 6. 정규식 기본 2Programing Language/Python 2020. 11. 5. 19:45
웹 스크래핑 정규식 기본 2 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 웹 스크래핑 6. 정규식 기본편 공부하고 오기 1. 정규식 이해하기 정규식(regular expression)이란? 정해진 형태를 의미 약어로 re라고 함 ex1) 주민등록번호의 정규식: 앞 숫자 6 - 뒤 숫자 7 111111-0300303 (O) -> 올바른 정규식 dfdfdf-dofiudo (X) -> 올바르지 않은 정규식 2. 정규식 실습 2 정규식 기본 코드 복습하기 ## 복습하기 import re # 정규식(원하는 형태) 지정 p = re.compile("ca.e") # 매칭하기 m = p.match("주어진 식 or 비교할 문자열") # 확인하기 print(m.group()) ..
-
[나도 코딩] 웹 스크래핑 5. 정규식 기본 1Programing Language/Python 2020. 11. 4. 18:14
웹 스크래핑 정규식 기본 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 1. 정규식 이해하기 정규식(regular expression)이란? 정해진 형태를 의미 약어로 re라고 함 ex1) 주민등록번호의 정규식: 앞 숫자 6 - 뒤 숫자 7 111111-0300303 (O) -> 올바른 정규식 dfdfdf-dofiudo (X) -> 올바르지 않은 정규식 ex) gmail 이메일 주소 정규식: id@gmail.com datassung18@gmail.cpm (O) -> 올바른 정규식 dfdfdf@dfdfdfs@gmailcom (X) -> 올바르지 않은 정규식 2. 정규식 실습 특정한 패턴의 정규식을 찾을 때 활용함 정규식 기본 문법 compile : 정규식을 특정 문..
-
Visual Studio code에서 Requests 패키지가 설치가 안될 때Programing Language/Python 2020. 11. 3. 23:29
새 버전의 Python을 설치 후 Visual Studio code의 terminal창에서 requests 패키지 설치가 안될 때 나도코딩님의 스크래핑 강의를 따라 하다가 Path 문제가 생겨 새 버전의 python 다시 설치하였습니다. 그 후에 requests 패키지가 VScode 터미널에서 직접 설치가 안돼서 해결해본 과정입니다. 에러 pip : 'pip' 용어가 cmdlet, 함수, 스크립트 파일 또는 실행할 수 있는 프로그램 이름으로 인식 되지 않습니다. 이름이 정확한지 확인하고 경로가 포함된 경우 경로가 올바른지 검증한 다음 다 시 시도하십시오. 지 않습니다. 이름이 정확한지 확인하고 경로가 포함된 경우 경로가 올바른지 검증한 다음 다시 시도하십시오. 위치 줄:1 문자:1 + pip instal..
-
[나도 코딩] 웹 스크래핑 4. RequestsPrograming Language/Python 2020. 11. 3. 19:24
웹 스크래핑 Requests 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 용어가 어렵다면 웹 스크래핑 1.HTML 편, 2.Xpath 편 공부하고 오기 1. Requests 이해하기 Requests란? 웹 스크래핑: 웹에서 원하는 정보를 가져오기 웹 스크래핑을 하기위해서는 HTML 정보를 가져오기 위한 도구 Requests 설치 Visual Studio code에서 터미널 창 실행 -> [ctrl] + `(왼쪽 상단에 물결 키) 터미널 창에 pip install requets 치기 (requests 설치완료!) 에러 문제 참고 requests 설치가 안되고 계속 에러가 뜬다면 여기를 참고해주세요. 'Linter pylint is not installed' 에러가..
-
[나도 코딩]웹 스크래핑 2. XpathPrograming Language/Python 2020. 11. 2. 16:25
웹 스크래핑 Xpath 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 웹 스크래핑 1.HTML 편 공부하고 오기 1. Xpath 이해하기 Xpath(XML path language)란? HTML 문서의 특정 부분의 위치를 찾을 때 사용하는 언어 Xpath 구성 /html/body/div/div/div/div/span/a... '/' : '/' 아래의 한단계 아래에 자식 요소 지정 '//' : '//' 아래의 모든 요소 지정 @ : xpath에서 속성을 지정할 때 사용 예시 /학년/반 '학년' 아래 자식인 모든 '반' 요소를 선택 //@반 '반'이라는 속성을 모두 선택 //반[@학생='1번'] 학생이라는 속성이 1번인 모든 반 요소를 선택 Xpath 용어 부모: 현..
-
[Python] Visual studio 환경설정Programing Language/Python 2020. 10. 30. 14:45
주제: Python file을 생성 후 환경설정 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (기본편)]을 보고 공부한 내용입니다. 1. work space 만들기 바탕화면 or 자신의 폴더에 작업공간 만들기 ex) _Python_workspace visual studio code 프로그램 설치하기 code.visualstudio.com/ Visual Studio Code - Code Editing. Redefined Visual Studio Code is a code editor redefined and optimized for building and debugging modern web and cloud applications. Visual Studio Code is free and availabl..