Project (6) 썸네일형 리스트형 구글 크롤러 제작 프로젝트(#1) : Google 크롤링 코드 제작_저장 이전 게시물 : 2024.06.28 - [Project/크롤러 제작] - 구글 크롤러 제작 프로젝트(#0) : 시연 영상 구글 크롤러를 구현하는 것은 어렵지 않지만, 이를 다른 사람들이 쉽고, 편하고, 유용하게 사용할 수 있도록 하려면 몇가지를 고려해봐야 한다고 생각했습니다. 현재까지 확인이 되는 오픈 구글 크롤러는 2가지 유형으로 웹 서비스, 오픈 소스로 볼 수 있었는데 각각의 단점을 아래와 같이 정리해 볼 수 있었습니다.1. 웹 서비스 : 사용자의 진입 허들. ( '직접 검색하는 시간'과 '해당 웹에 들어가서 검색'에 있어서 과연 메리트가 있을지....)2. 오픈 소스 : 최신 패치 x(html, css 등의 변화)이러한 단점들을 보완할 수 있는 방법을 마련하려고 고민을 해보았고 검색부터 저장까.. 구글 크롤러 제작 프로젝트(#0) : 시연 영상 아래의 영상은 코드가 어떤 식으로 동작하는지 확인할 수 있는 용도로 제작되었습니다. 코드를 보기 전에 먼저 시청하시면 보다 쉬운 코드 이해가 가능하실겁니다😊. [ 코드 테스트 영상 ] 이번에는 간단한 GUI를 통해 구글 이미지를 크롤링하고 중복이미지 검출할 수 있는 크롤러 폼을 만들어 보았습니다. 아직 PyQt5에 대한 이해도가 부족해서 폼 형식이 어설프지만(?) 최대한 사용자 입장에서 불필요한 부분은 제거하고, 필요한 기능만 넣어 보았습니다!해당 프로젝트에서는 python만으로 진행하였고, Visual Studio code에서 작업을 했습니다😄. class를 크게 보면 2개로 나누어 설명 드릴 수 있을 것 같아 나누어 설명드리도록 하겠습니다! 아래의 깃헙 주소로 가시면 해당 내용에 대한 코드를 .. 1st. Flask와 MongoDB Connecting하기 ( 정말 100번은 시도하고 구글링도 했ㄷr... 결국 !!! ) 먼저 visual basic code에서 구동될 Flask와 MongoDB를 연결하는 부분에서 여러 방법들이 존재하는데, 그중 MongoDB를 따로 다운로드해서 앱으로도 사용 가능하지만, 저는 컴퓨터에 조금이라도 부담을 줄이는 방법을 선택하게 되었습니다. 이 모든 과정은 window 기반이라 참고! 1. MongoDB 회원가입 우선 MongoDB 홈페이지에서 '무료 체험판 다운로드'를 눌러 Atlas 계정 만들기 (※ 비밀번호는 : / ? # [ ] @를 포함 X, 그냥 저는 특수기호 안하는 것을 추천..... 이거 몰라서 에러를 1시간 봤어요..) MongoDB Atlas Database | Multi-Cloud Database Serv.. 0st. Intro.... NoSQL인 MongoDB와 백엔드 파이썬 웹 마이크로 프레임워크로, 백 엔드 서버 기능이 있는 Flask 둘 다 사용해 본적이 전혀 없는 툴이다. 사실 서버 개발 능력은 아기 수준,,, 그래서 일단 차근차근 배워가기보다는 쉬운 길을 어려운 길로 직접 가보면서 최선을 다해 충분한 시행착오를 겪을 생각! 일단. 내가 만들 첫번째 웹 사이트는 '네이버 크롤링 사이트'이다. 아래 이전에 올려놓은 크롤러를 이용하여 웹 페이지에 데이터베이스를 먼저 보여주고, 저장할 수 있는 서비스를 만들고자 한다. [ 이전 글 : 2024.01.08 - [Project/구름 프로젝트] - PBL 1 ) 네이버 뉴스 크롤링 작업(주제, 일 수) ] PBL 1 ) 네이버 뉴스 크롤링 작업(주제, 일 수) 구름 트레이닝 첫번째 PBL.. PBL 2 ) 네이버 뉴스 크롤링 작업(주제, 카테고리, 페이지 수) 구름의 트레이닝의 두번째 PBL, ' 네이버 뉴스 카테고리 분류기 만들기' 내가 수행해야할 3가지 1. 카테고리 별 페이지수를 지정할 수 있는 크롤러 만들기 2. Classification 모델 학습하기 3. TF-IDF / word3vec 사용해보기 이전에 만들었던 크롤러를 그대로 사용할 수 없기에 조금 수정! (생각보다 오래걸림....) def search_news_count(input_search, category, count): if input_search == '': input_search = '딥러닝' if count == '': count = 70 # count를 정수로 설정 title_list = [] date_list = [] category_list = [] press_list = [].. PBL 1 ) 네이버 뉴스 크롤링 작업(주제, 일 수) 구름 트레이닝 첫번째 PBL, '네이버 뉴스 크롤링 만들기' 내가 수행해야할 3가지 1. 5개의 카테고리(date, category, press, title, document, link)로 형성 2. 최근 3일간의 기사글 추출 3. 데이터를 정형화하여 csv로 저장하도록 하기 여기에서 나는 검색어와 최근 몇일 동안의 기사글을 모을 건지에 대한 일 수만을 가지고 함수를 만들고자 한다. def search_news(input_search, lately_day): ''' 최근 몇일간의 검색 데이터 추출 args: input_search : 원하는 검색어 '' 작성 / dtype == str lately_day : 당일 기준 이전 몇일 전부터의 사이트를 추출할 것 인지 작성 / dtype == int retur.. 이전 1 다음