전체 글
-
[데이터 수집] selenium 유튜브 검색 결과 스크래핑Database/데이터 수집(Data Extraction) 2020. 12. 1. 18:00
유튜브 검색 결과 스크래핑 이 글은 유튜브 검색 결과를 데이터로 수집하는 글입니다. 유튜브 검색 결과에서 컨텐츠 제목, url 등의 가져와서 csv 파일로 저장해보았습니다. 열심히 배우고 있는 단계라서 실수가 있을 수도 있습니다. 선행 개념(웹 스크래핑, 크롤링, HTML) 이해하기 VsCode에서 작성한 코드이지만 쥬피터 노트북에서도 문제없이 작업을 했습니다. 1. 필요한 패키지 준비 유튜브 스크래핑할 때, Beautifulsoup 사용하면 움직이는 부분(동적 페이지)은 자료가 긁어오는데 문제가 발생합니다. ex) 유튜브 검색 결과 페이지에서 스크롤을 끝까지 내리는 작업은 Beautifulsoup에서는 할 수가 없음 ex) 특정 페이지를 이동하면서 자료를 가져오는 작업은 Beautifulsoup을 이용..
-
[MySQL] RDBMS(Relational Database Management System)Database 2020. 11. 15. 15:41
RDBMS Relational Database Management System 이글은 잔재미코딩님의 RDBMS의 이해를 보고 공부한 글입니다. 1. RDBMS 이해하기 Relational Database Management System의 약자, 관계형 데이터베이스 관리 시스템 데이터베이스 중 가장 많이 사용되는 DB 개념 관계형 데이터베이스 = 테이블 데이터를 2차원 테이블 형식으로 정의 및 설명하는 모델 관계형 데이터베이스 : 데이터를 속성(Attribute)과 데이터 값(Attribute Value)으로 구조화 2차원 테이블 형태로 만듦 데이터를 구조화 : 속성(Attribue)과 데이터 값(Attribute Value) 사이에서 관계(Relation)을 찾아내고 이를 테이블 모양의 구조로 도식화함 ..
-
[나도 코딩] 웹 스크래핑 6. User AgentPrograming Language/Python 2020. 11. 9. 17:44
웹 스크래핑 User Agent 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편 3)]을 보고 공부한 내용입니다. 1. User Agent 이해하기 User Agent란? 웹 사이트에서는 접근하는 사용자의 정보 기기/브라우저별로 지원정보가 나와있어서 어떤 기기를 이용해서 접근하는지를 알 수 있음 스마트 폰에서 접속 -> 모바일 용 접속 웹에서 홈페이지 접속 -> 웹사이트 용 접속 웹 스크래핑을 할 때, 접근이 불가능한 경우가 발생하는 이유? 접속하는 브라우저에 따라서 유저 에이전트가 다름 ex) 같은 컴퓨터 내에서도 크롬, 인터넷 익스플로러의 유저 에이전트가 다름 컴퓨터가 웹스크래핑을 할 때, 홈페이지 입장에서 많은 정보를 빼갈 수도 있기 때문에 접속을 차단할 수 있음 서버 입장에서 유저 에이전씨..
-
[나도 코딩] 웹 스크래핑 6. 정규식 기본 2Programing Language/Python 2020. 11. 5. 19:45
웹 스크래핑 정규식 기본 2 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 웹 스크래핑 6. 정규식 기본편 공부하고 오기 1. 정규식 이해하기 정규식(regular expression)이란? 정해진 형태를 의미 약어로 re라고 함 ex1) 주민등록번호의 정규식: 앞 숫자 6 - 뒤 숫자 7 111111-0300303 (O) -> 올바른 정규식 dfdfdf-dofiudo (X) -> 올바르지 않은 정규식 2. 정규식 실습 2 정규식 기본 코드 복습하기 ## 복습하기 import re # 정규식(원하는 형태) 지정 p = re.compile("ca.e") # 매칭하기 m = p.match("주어진 식 or 비교할 문자열") # 확인하기 print(m.group()) ..
-
[나도 코딩] 웹 스크래핑 5. 정규식 기본 1Programing Language/Python 2020. 11. 4. 18:14
웹 스크래핑 정규식 기본 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 1. 정규식 이해하기 정규식(regular expression)이란? 정해진 형태를 의미 약어로 re라고 함 ex1) 주민등록번호의 정규식: 앞 숫자 6 - 뒤 숫자 7 111111-0300303 (O) -> 올바른 정규식 dfdfdf-dofiudo (X) -> 올바르지 않은 정규식 ex) gmail 이메일 주소 정규식: id@gmail.com datassung18@gmail.cpm (O) -> 올바른 정규식 dfdfdf@dfdfdfs@gmailcom (X) -> 올바르지 않은 정규식 2. 정규식 실습 특정한 패턴의 정규식을 찾을 때 활용함 정규식 기본 문법 compile : 정규식을 특정 문..
-
Visual Studio code에서 Requests 패키지가 설치가 안될 때Programing Language/Python 2020. 11. 3. 23:29
새 버전의 Python을 설치 후 Visual Studio code의 terminal창에서 requests 패키지 설치가 안될 때 나도코딩님의 스크래핑 강의를 따라 하다가 Path 문제가 생겨 새 버전의 python 다시 설치하였습니다. 그 후에 requests 패키지가 VScode 터미널에서 직접 설치가 안돼서 해결해본 과정입니다. 에러 pip : 'pip' 용어가 cmdlet, 함수, 스크립트 파일 또는 실행할 수 있는 프로그램 이름으로 인식 되지 않습니다. 이름이 정확한지 확인하고 경로가 포함된 경우 경로가 올바른지 검증한 다음 다 시 시도하십시오. 지 않습니다. 이름이 정확한지 확인하고 경로가 포함된 경우 경로가 올바른지 검증한 다음 다시 시도하십시오. 위치 줄:1 문자:1 + pip instal..
-
[나도 코딩] 웹 스크래핑 4. RequestsPrograming Language/Python 2020. 11. 3. 19:24
웹 스크래핑 Requests 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 용어가 어렵다면 웹 스크래핑 1.HTML 편, 2.Xpath 편 공부하고 오기 1. Requests 이해하기 Requests란? 웹 스크래핑: 웹에서 원하는 정보를 가져오기 웹 스크래핑을 하기위해서는 HTML 정보를 가져오기 위한 도구 Requests 설치 Visual Studio code에서 터미널 창 실행 -> [ctrl] + `(왼쪽 상단에 물결 키) 터미널 창에 pip install requets 치기 (requests 설치완료!) 에러 문제 참고 requests 설치가 안되고 계속 에러가 뜬다면 여기를 참고해주세요. 'Linter pylint is not installed' 에러가..
-
[나도 코딩] 웹 스크래핑 3. 크롬Programing Language/Python 2020. 11. 3. 18:02
웹 스크래핑 크롬 이 글은 나도코딩님의 [파이썬 코딩 무료 강의 (활용편3)]을 보고 공부한 내용입니다. 웹 스크래핑 2.XPath 편 공부하고 오기 크롬 Chrome(이)란? 구글에서 만든 인터넷 익스플로어 중 하나 ex) 네이버 웨일, 마이크로소프트 엣지 개발자도구를 활용해서 XPath를 얻기 쉽게 되어 있음 크롬에서 개발자 도구 사용법 1. 크롬에서 마우스 커서를 원하는 곳을 지정한 후 [마우스 오른쪽 클릭] -> [검사] 2. [ctrl+shift+I] -> [select an element in the page to inspect it] 버튼 누르기 3. 크롬 창 오른쪽 상단에 점 3개를 이용하기 [크롬 맞춤 설정 및 제어] -> [도구더보기] ->[개발자도구] 이 글은 나도코딩님의 [파이썬 코..