본문 바로가기

Project/구름 프로젝트

(3)

0st. Intro.... NoSQL인 MongoDB와 백엔드 파이썬 웹 마이크로 프레임워크로, 백 엔드 서버 기능이 있는 Flask 둘 다 사용해 본적이 전혀 없는 툴이다. 사실 서버 개발 능력은 아기 수준,,, 그래서 일단 차근차근 배워가기보다는 쉬운 길을 어려운 길로 직접 가보면서 최선을 다해 충분한 시행착오를 겪을 생각! 일단. 내가 만들 첫번째 웹 사이트는 '네이버 크롤링 사이트'이다. 아래 이전에 올려놓은 크롤러를 이용하여 웹 페이지에 데이터베이스를 먼저 보여주고, 저장할 수 있는 서비스를 만들고자 한다. [ 이전 글 : 2024.01.08 - [Project/구름 프로젝트] - PBL 1 ) 네이버 뉴스 크롤링 작업(주제, 일 수) ] PBL 1 ) 네이버 뉴스 크롤링 작업(주제, 일 수) 구름 트레이닝 첫번째 PBL..

PBL 2 ) 네이버 뉴스 크롤링 작업(주제, 카테고리, 페이지 수) 구름의 트레이닝의 두번째 PBL, ' 네이버 뉴스 카테고리 분류기 만들기' 내가 수행해야할 3가지 1. 카테고리 별 페이지수를 지정할 수 있는 크롤러 만들기 2. Classification 모델 학습하기 3. TF-IDF / word3vec 사용해보기 이전에 만들었던 크롤러를 그대로 사용할 수 없기에 조금 수정! (생각보다 오래걸림....) def search_news_count(input_search, category, count): if input_search == '': input_search = '딥러닝' if count == '': count = 70 # count를 정수로 설정 title_list = [] date_list = [] category_list = [] press_list = []..

PBL 1 ) 네이버 뉴스 크롤링 작업(주제, 일 수) 구름 트레이닝 첫번째 PBL, '네이버 뉴스 크롤링 만들기' 내가 수행해야할 3가지 1. 5개의 카테고리(date, category, press, title, document, link)로 형성 2. 최근 3일간의 기사글 추출 3. 데이터를 정형화하여 csv로 저장하도록 하기 여기에서 나는 검색어와 최근 몇일 동안의 기사글을 모을 건지에 대한 일 수만을 가지고 함수를 만들고자 한다. def search_news(input_search, lately_day): ''' 최근 몇일간의 검색 데이터 추출 args: input_search : 원하는 검색어 '' 작성 / dtype == str lately_day : 당일 기준 이전 몇일 전부터의 사이트를 추출할 것 인지 작성 / dtype == int retur..

이전 1 다음

티스토리툴바