반응형

데이터가공 2

[PYTHON/파이썬] 요기요 음식점 크롤링하기

오늘은 요기요에 등록되어 있는 업체를 크롤링해보기로 했다. 크롤링을 하기위해선 로컬 크롬과 호환되는크롬드라이버가 필요하다. 실습을 위해 로컬에 크롬을 설치하고 도움말 -> chrome 정보로 들어가서 버전을 확인한다. 크롬드라이버를 검색하여 해당버전 드라이버를 찾아 운영체제에 맞게 다운로드 한다. 압축을 풀고 드라이버의 경로를 잘 적어놓자. 크롤링을 통해 수집할 데이터 항목은 아래와 같다. 1) 업체명 2) 평점 3) 리뷰수 4) 사장님 리뷰수 5) 배달가능금액 (11900원 이상 배달 등) 필요 모듈은 selecnium, time, beaufulsoup, re 정도이다. html을 그대로 파싱해서 특정 태그를 기준으로 텍스트를 찾기 때문에 데이터 정리를 위한 정규식(import re)모듈은 필수인 듯 ..

코딩/PYTHON 2021.07.08

[PYTHON/파이썬] 텍스트 파일 DB(Maria)저장

파이썬을 공부하다 텍스트(text)파일로 디비에 데이터를 입력해보기로 했다. 데이터는 행안부 도로명주소 사이트에서 가져왔다. 먼저, 다운받은 파일을 확인하고 컬럼 수를 계산하여 아래와 같이 테이블을 구성했다. (가장 아래 적재일자는 데이터 입력 시간을 확인하기 위해 추가함) 소스코드는 아래와 같다. for문으로 insert구문을 생성하여, 데이터를 삽입한다. import pymysql # pymysql 모듈 임포트 f = open("파일경로", "r") # 파일오픈 data = f.readlines() # 내용 읽어 오기 (리스트로 읽어온다 - reaplce및 개행문자 처리를 위함) lines_cnt = len(data) # 파일 라인수 계산(text) new_list = [] # 리스트 초기화 conn..

코딩/PYTHON 2021.07.05
반응형