본문 바로가기

Programming Basics32

👩🏻‍💻 AWS 시작 & mac 원격 서버 접속 & 가상환경 설치 콘솔 홈 화면 I AM 으로 로그인 한 후, 비밀번호를 변경하면 아래 화면이 나타난다. (로그인 : 계정 ID(12자리) 또는 계정 별칭) 지역 변경 : 오사카 우측 상단 지역명 메뉴를 클릭하고, 오사카를 선택 서비스 : EC2 접속 팀 서버로 접속 위 화면에서 인스턴스를 클릭하면, 예시로 사용할 수 있는 팀 서버가 나타난다 해당 서버에 마우스 올리고 우클릭하면 인스턴스 시작 클릭 맥 원격 서버 접속하기 👩🏻‍💻 터미널 접속 chmod 400 뒤에 pem 파일이 있는 저장 위치를 입력 chmod 400 저장위치/*.pem 터미널창에서 AWS 서버 접속 : 터미널 접속 아이디와 서버 IP 기입 ssh -i 저장위치/*.pem 터미널접속ID@서버IP -p 22 conda 가상환경 설치 버전 확인 $ cond.. 2023. 10. 16.
[크롤링] 게시글 제목 크롤링해서 DataFrame으로 만들기 '공모전 분석사례' 게시글 제목을 크롤링 서울특별시 빅데이터 캠퍼스의 공모전 우수 사례를 분석하기 위함 ✔ 목표 : 98개의 게시물 제목 크롤링해서 데이터프레임으로 만들기 ✔ 게시물 제목 예시 : 서울시 차 없는 거리 효과 분석과 우선 입지 선정 [2022 빅데이터캠퍼스 공모전 - 우수상] 목표 제목 + [연도 공모전명 수상내용] 으로 구성되어 있어, 제목 컬럼 / 연도 컬럼 / 수상내역 컬럼의 3개 컬럼으로 데이터프레임을 만들어보자. 라이브러리 불러오기 from bs4 import BeautifulSoup import requests from lxml import html import pandas as pd 크롤링 코드 크롤링하려는 Url을 확인한다 : 잘 보면 url 마지막부분이 페이지 수 번호라는 .. 2023. 10. 4.
M1 환경설정 XGBoost & LightGBM with Streamlit in Python https://dschloe.github.io/python/2023/09/m1_settings_xgboost_lightgbm/#%ED%85%8C%EC%8A%A4%ED%8A%B8 M1 환경설정 XGBoost & LightGBM with Streamlit in Python 개요 M1에서 Python 환경설정을 해본다. XGBoost & LightGBM 및 Streamlit 설치를 진행한다. 아나콘다 설치 m1 버전의 아나콘다를 설치한다. 깃헙 레포 생성 먼저 github repo를 생성한다. Conda 가상환경 설정 git dschloe.github.io https://stackoverflow.com/questions/58479686/permissionerror-errno-1-operation-not-per.. 2023. 9. 7.
[Scrapy 크롤링] Worldometer에서 나라별 인구수 크롤링 직전 포스팅과 이어지는 예제입니다.👀 [활동2 ]Worldometer에서 나라별 인구수 크롤링 앞선 예제에서 웹사이트에 소개된 나라의 이름들을 가져왔다. 각 나라의 이름을 클릭하면 다음과 같이, 연도별 인구수가 나온다. 이렇게 나라별 링크를 타고 들어가, 연도별 인구수까지 크롤링해 보는 것이 두 번째 활동이다. 🧑🏻‍💻 def parse 부터 코드 작성 시작 나라 이름(contries) 정보는 countries = response.xpath('//tbody/tr/td/a') 에 Text() 로 저장되어 있다. 나라별로, 상대경로를 통해 링크에 진입해서 연도별 인수구를 알아내야 한다. for country in countries: 반복문을 사용하여 country_name과 link를 각각 추출해 저장한다... 2023. 8. 8.
[Scrapy 크롤링] Worldometer에서 나라이름 크롤링 scrapy 설치 후, import !pip install scrapy import scrapy 프로젝트 하나 만들기 $ scrapy startproject multiCam_tutorial 👉 폴더 생성 확인 ▶︎ 아래 명령어를 입력하여 사용할 수 있는 메서드 확인 $scrapy ⚡️ 예제 : Worldometer 웹사이트에서 인구 관련 데이터 크롤링해보기 아래 사이트를 크롤링할 예정 Population by Country (2023) - Worldometer Countries in the world by population (2023) This list includes both countries and dependent territories. Data based on the latest United N.. 2023. 8. 8.
XPath란 XPath란? XML 문서와 HTML 문서를 탐색하고 특정 요소나 속성을 선택하기 위해 사용되는 경로 표현 언어이다. XML 문서의 특정 노드를 찾기 위해 사용된다. XML 문서의 구조를 따라 DOM(Document Object Model)을 탐색하는 데에 도움이 된다. XPath 문법의 주요 구성 요소 1. 요소 선택 : / 를 사용하여 루트 요소부터 요소를 선택 2. 속성 선택 : @ 기호를 사용하여 요소의 속성을 선택 3. 조건부 선택 : [ ]를 사용하여 특정 조건을 만족하는 요소 선택 4. 축 : ancestor, parent, following-sibling, 등의 축을 사용하여 문서의 다른 요소를 찾을 수 있음 주요 문법 내용 //tagname 페이지 내 특정 태그 이름 모두 선택 //tag.. 2023. 8. 8.
[크롤링] 셀레늄(selenium) 활용 ; nate 검색어 1위부터 10까지 가져오기(동적화면에서의 크롤링) 동적화면 크롤링하기 🧐 동적화면에서 검색어 가져오기 다음 네이트 메인 화면의 실시간 이슈 키워드 10개를 뽑아보자. 이 화면의 특징은 1~5위가 나타난 다음, 6~10위가 나타나는 식이다. 10개 키워드가 한번에 나타나지 않으므로 유의가 필요하다! 라이브러리 Import from selenium import webdriver from selenium.webdriver.chrome.service import Service as ChromeService from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by impor.. 2023. 8. 8.
[크롤링] 셀레늄(selenium) 활용 ; 구글 검색 후 이미지 다운로드 셀레늄 활용하여 크롤링하기 webdriver-manager 라이브러리를 활용하여 크롬드라이버의 지속적 업데이트 없이 크롤링 하는 법 1. 라이브러리 설치 pip install webdriver-manager 2. 셀레늄 활용 기본 코드 기본적으로 활용할 수 있는 코드는 아래 네 줄이다. drivers.get() 에 웹사이트 주소를 입력하면 된다. 셀레늄 코드 작성 팁 : 사람이 찾는것과 동일한 동선을 떠올리며 코드를 작성한다 # 아래 네 줄을 계속 활용하면 됨! from selenium import webdriver from selenium.webdriver.chrome.service import Service as ChromeService from webdriver_manager.chrome impor.. 2023. 8. 8.
[웹 크롤링] 주식 일별 시세를 데이터프레임으로 저장하기 주식 일별 시세 >> dataframe으로 결합하기 다음과 같은 종목별 일별 시세 내용을 데이터 프레임으로 저장할 수 있도록 크롤링 해보자 1. 라이브러리 import import requests from bs4 import BeautifulSoup import pandas as pd from fake_useragent import UserAgent 2. 데이터를 가져올 수 있는 함수 정의 🔎 getData() 함수의 입력 파라미터는 다음과 같다 url: 데이터를 스크래핑할 웹 페이지의 URL com_code: 크롤링할 종목코드 soup: (다른 함수에서 return 할 값, 다른 함수 참고) page: 스크래핑할 페이지 수 (예, 1 페이지부터 ~ 10페이지까지 크롤링할 경우 >> 10) df 와 co.. 2023. 8. 5.
728x90