본문 바로가기

분류 전체보기339

[Plotly] 그래프 수정가능한 옵션 보기 Plotly 그래프의 다양한 수정 옵션 보는 법 그래프를 그리고 나서, 다음 명령어를 입력하면 그래프를 수정할 수 있는 다양한 옵션 값과, 그래프에 대한 상세 구조를 볼 수 있다 특히 data나 Layout의 하위항목을 확인하며 섬세하게 그래프를 수정가능하다. fig = go.Figure() fig.show('json') 2023. 8. 10.
[Plotly] 시작하기 : 막대그래프 예제 Plotly 시작하기 plotly 라이브러리를 사용하는 방법을 간단히 두 가지로 나눌 수 있다. 간단하게 그리고 싶을 때와, 디테일하게 옵션값을 변경하며 그래프를 손보고 싶을 때 아래 두 방법 중 하나를 경우에 따라 택한다 처음 다루며 사용할 때는 plotly.express를 추천한다 import plotly.express as px #seaborn 라이브러리와 비슷(간단하게 빠르게 그릴 경우, 추가 옵션 없이) import plotly.graph_objects as go #matplotlib 라이브러리와 비슷(디테일하게 다룰 경우) plotly.express 예제 1. 데이터 간단하게 만들기 temp = pd.DataFrame({ "Fruit": ["Apples", "Oranges", "Bananas".. 2023. 8. 10.
[pandas] pd.qcut() 과 pd.crosstab() pd.qcut()란 pd.qcut()은 pandas 라이브러리에서 제공하는 함수 연속형 데이터를 동일한 구간 또는 분위수로 나누는데 사용 이를 통해 데이터를 이산적인 범주로 나눌 수 있음 q는 quantile(분위수)의 약자 즉, 데이터를 주어진 분위수로 나누는 작업 다음 예시를 보면, totvars에 해당하는 컬럼만 covidtotlaonly에 따로 저장 새로운 컬럼 'total_cases_q'를 생성하는데, 이때 qcut을 사용한다 가장 먼저 나눌 데이터를 표시해준다 labels : 나눈 구간을 표현할 때 사용할 라벨 q : 나눌 구간의 개수나 분위수의 리스트 [참고] precision은 소수점 이하 자릿수를 나타내는 매개변수 (여기서는 0 이므로 정수형이 나옴) covidtotalsonly = co.. 2023. 8. 9.
Index Alignment란? Index Alignment란? 서로 다른 두 개 이상의 데이터 구조를 합칠 때 인덱스(또는 행 이름)를 기준으로 데이터를 정렬하고 맞추는 과정 데이터 구조의 크기가 다르거나 순서가 다른 상황에서도 데이터를 일관되게 조작하고 비교할 수 있다 예를 들어, 다음과 같은 두 개의 데이터프레임이 있다고 하자. 두 데이터프레임을 더하려고 할 때, 열이름이 다르거나 크기가 달라서 연산하기 어렵다. 그런데, index alignment가 동작하면 인덱스를 기준으로 데이터가 맞춰진다. df1: A B C 0 1.0 2.0 3.0 1 4.0 5.0 6.0 df2: B C D 0 7.0 8.0 9.0 1 10.0 11.0 12.0 결과적으로 각 셀에서 해당 인덱스의 데이터가 정렬되어 연산이 된다. result = df1 .. 2023. 8. 9.
[pandas] 결측치 처리하기 결측치 처리하기 [예제] 인구통계 컬럼에서 결측치 데이터 확인 1. 데이터 불러오기 DATA_PATH = './' covidtotals = pd.read_csv(DATA_PATH + "data/covidtotalswithmissings.csv") 2. 5가지 인구 통계를 나타내는 컬럼만 따로 객체에 저장 demovars = ['population','pop_density','median_age','gdp_per_capita', 'hosp_beds'] 3. 열 별로 결측치 수 파악 기본적으로 df['컬럼명'].isnull().sum() 을 사용한다 행/열 구분은 axis 로 하는데, axis = 0 이면 열 기준, axis = 1 이면 행 기준이다 # 열 별로 결측치 수 파악 covidtotals[demo.. 2023. 8. 9.
[pandas] 날짜 데이터 다루기 to_datetime 사용법 : pd.to_datetime(df) 문자열에 적용하면 timestamp 유형이 됨 리스트에 적용하면 datetime64 유형이 됨 #문자열에 to_datetime => timestamp date_string = "2023-03-02" print(type(date_string)) datetime_obj = pd.to_datetime(date_string) print(datetime_obj) print(type(datetime_obj)) #리스트에 to_datetime => datetime64 date_list = ["2023-03-02"] print(type(date_list)) datetime_obj = pd.to_datetime(date_list) print(datetim.. 2023. 8. 9.
[Scrapy 크롤링] Worldometer에서 나라별 인구수 크롤링 직전 포스팅과 이어지는 예제입니다.👀 [활동2 ]Worldometer에서 나라별 인구수 크롤링 앞선 예제에서 웹사이트에 소개된 나라의 이름들을 가져왔다. 각 나라의 이름을 클릭하면 다음과 같이, 연도별 인구수가 나온다. 이렇게 나라별 링크를 타고 들어가, 연도별 인구수까지 크롤링해 보는 것이 두 번째 활동이다. 🧑🏻‍💻 def parse 부터 코드 작성 시작 나라 이름(contries) 정보는 countries = response.xpath('//tbody/tr/td/a') 에 Text() 로 저장되어 있다. 나라별로, 상대경로를 통해 링크에 진입해서 연도별 인수구를 알아내야 한다. for country in countries: 반복문을 사용하여 country_name과 link를 각각 추출해 저장한다... 2023. 8. 8.
[Scrapy 크롤링] Worldometer에서 나라이름 크롤링 scrapy 설치 후, import !pip install scrapy import scrapy 프로젝트 하나 만들기 $ scrapy startproject multiCam_tutorial 👉 폴더 생성 확인 ▶︎ 아래 명령어를 입력하여 사용할 수 있는 메서드 확인 $scrapy ⚡️ 예제 : Worldometer 웹사이트에서 인구 관련 데이터 크롤링해보기 아래 사이트를 크롤링할 예정 Population by Country (2023) - Worldometer Countries in the world by population (2023) This list includes both countries and dependent territories. Data based on the latest United N.. 2023. 8. 8.
XPath란 XPath란? XML 문서와 HTML 문서를 탐색하고 특정 요소나 속성을 선택하기 위해 사용되는 경로 표현 언어이다. XML 문서의 특정 노드를 찾기 위해 사용된다. XML 문서의 구조를 따라 DOM(Document Object Model)을 탐색하는 데에 도움이 된다. XPath 문법의 주요 구성 요소 1. 요소 선택 : / 를 사용하여 루트 요소부터 요소를 선택 2. 속성 선택 : @ 기호를 사용하여 요소의 속성을 선택 3. 조건부 선택 : [ ]를 사용하여 특정 조건을 만족하는 요소 선택 4. 축 : ancestor, parent, following-sibling, 등의 축을 사용하여 문서의 다른 요소를 찾을 수 있음 주요 문법 내용 //tagname 페이지 내 특정 태그 이름 모두 선택 //tag.. 2023. 8. 8.
728x90