한국어 위키 데이터 검색해봤다
덤프 파일들 종류는 아래와 같다.
pages-articles.xml.bz2
- 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.
pages-current.xml.bz2 - 모든 문서의 최신 버전이 묶여 있습니다.
pages-full.xml.bz2/7z - 모든 문서(토론 포함)의 최신 버전이 묶여 있습니다.
pages-meta-history.xml.bz2 - 모든 문서의 모든 편집 내역이 묶여 있습니다.
abstract.xml.gz - 문서 요약을 묶어놓았습니다.
all_titles_in_ns0.gz - 문서 제목만을 묶어놓았습니다.
출처: https://kugancity.tistory.com/entry/한국어-위키피디아-덤프-다운로드-받기 [you've got to find what you love.]
위키 데이터는 xml로 되어 있기 때문에
이 안에서 본문만 추출하기 위해서는 parsing이 필요하다.
다음 포스팅에서는 위키 데이터 파싱하는 법을 이어서 설명하겠다.
'취준일기' 카테고리의 다른 글
정보처리기사 실기 독학 1.프로그래밍언어활용-서식문자열, 제어문자 (0) | 2020.04.15 |
---|---|
정보처리기사 실기준비 큐넷 2020 시험일정 같이 준비해요 (0) | 2020.04.14 |
파이썬 (Python) 형태소 분석기 KoNLPy 설치방법 (1) | 2020.04.02 |
자바 jdk 다운로드 하고 버전 확인, 환경변수 설정하기 (0) | 2020.04.01 |
구글 코랩 (colab) 사용법 (0) | 2020.03.31 |