XPath란?
- XML 문서와 HTML 문서를 탐색하고 특정 요소나 속성을 선택하기 위해 사용되는 경로 표현 언어이다.
- XML 문서의 특정 노드를 찾기 위해 사용된다.
- XML 문서의 구조를 따라 DOM(Document Object Model)을 탐색하는 데에 도움이 된다.
XPath 문법의 주요 구성 요소
1. 요소 선택 : / 를 사용하여 루트 요소부터 요소를 선택
2. 속성 선택 : @ 기호를 사용하여 요소의 속성을 선택
3. 조건부 선택 : [ ]를 사용하여 특정 조건을 만족하는 요소 선택
4. 축 : ancestor, parent, following-sibling, 등의 축을 사용하여 문서의 다른 요소를 찾을 수 있음
주요 문법 | 내용 |
//tagname |
페이지 내 특정 태그 이름 모두 선택
|
//tagname[1] | 중복되는 특정 태그 중 한 개 선택 |
//tagname[@태그 내 속성 = "속성값"] | 특정 태그의 특정 속성 선택 (예 : //div[@class = "container"] |
contains("XML", "X") => true | 첫번째 문자열이 두번째 문자열을 포함하고 있으면 참, 그외는 거짓 |
starts-with("XML", "X") => true | 첫번째 문자열이 두번째 문자열로 시작하면 참, 그외는 거짓 |
//tagname[(표현식1) and/or (표현식2)] | //div[@class="container" and @id="second"] |
728x90
'Programming Basics' 카테고리의 다른 글
[Scrapy 크롤링] Worldometer에서 나라별 인구수 크롤링 (0) | 2023.08.08 |
---|---|
[Scrapy 크롤링] Worldometer에서 나라이름 크롤링 (0) | 2023.08.08 |
[크롤링] 셀레늄(selenium) 활용 ; nate 검색어 1위부터 10까지 가져오기(동적화면에서의 크롤링) (0) | 2023.08.08 |
[크롤링] 셀레늄(selenium) 활용 ; 구글 검색 후 이미지 다운로드 (0) | 2023.08.08 |
[웹 크롤링] 주식 일별 시세를 데이터프레임으로 저장하기 (0) | 2023.08.05 |