취준일기

한국어 데이터 Tokenizer - 위키피디아 덤프 다운로드

둉영 2020. 4. 3. 16:23

 

 

위키백과:데이터베이스 다운로드 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 위키백과의 자료를 여러가지 용도로 이용하려는 사람들을 위해, 위키백과에서는 주기적으로 전체 문서를 묶어서 배포하고 있습니다. 여기에서 한국어 위키백과 덤프를 받을 수 있습니다. pages-articles.xml.bz2 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다. pages-current.xml.bz2 - 모든 문서의 최신 버전이 묶여 있습니

ko.wikipedia.org

한국어 위키 데이터 검색해봤다 

 

덤프 파일들 종류는 아래와 같다. 

 

pages-articles.xml.bz2

 - 일반 문서의 최신 버전만이 묶여 있고, 전체 편집 역사는 들어있지 않습니다. 대부분의 이용자는 이 파일을 이용하면 됩니다.

pages-current.xml.bz2 - 모든 문서의 최신 버전이 묶여 있습니다.

pages-full.xml.bz2/7z - 모든 문서(토론 포함)의 최신 버전이 묶여 있습니다.

pages-meta-history.xml.bz2 - 모든 문서의 모든 편집 내역이 묶여 있습니다.

abstract.xml.gz - 문서 요약을 묶어놓았습니다.

all_titles_in_ns0.gz - 문서 제목만을 묶어놓았습니다.



출처: https://kugancity.tistory.com/entry/한국어-위키피디아-덤프-다운로드-받기 [you've got to find what you love.]

 

 

위키 데이터는 xml로 되어 있기 때문에 

이 안에서 본문만 추출하기 위해서는 parsing이 필요하다. 

다음 포스팅에서는 위키 데이터 파싱하는 법을 이어서 설명하겠다.