형태소 분석 라이브러리 중 한국어 정보처리를 위한 파이썬 패키지인 KoNLPy (코엔엘파이) 를 설치해보도록 하겠습니다.
그전에 KoNLP와 KoNLPy의 차이점은 KoNLP는 R의 한국어 자연어 분석 패키지 이고 , KoNLPy는 Python의 한국어 자연어 분석 패키지 입니다.
여기서 NLP란 무엇일까요?
NLP란 Natural Language Processing 의 약자로 자연어 처리를 말합니다.
자연어는 사람들이 일상적으로 쓰는 언어를 말합니다.
처음 자연어 처리를 배웠을 때 컴퓨터언어를 자연어라고 착각했던 적도 있었답니다.(머쓱)
형태소 분석 라이브러리
설치환경은
IDE : 주피터 노트북(Jupyter Notebook)
버전: 4.8.3
Os: Windows 10
(↑) KoNLPy에 대해 자세히 설명되어있으니 참고해주세요.
1. Java 설치하기
2. Java 환경변수설정하기
자바 설치는 아래 링크 참고해주시면 될 것 같습니다😉
자바가 설치되어있는지 확인 해볼게요.
java -version javac -version
아래와 같이 나오면 잘 설치가 된 것 입니다.
자바 설치가 끝났으니 이제 JPype를 다운 받아 줄게요.
3. JPype(>=0.5.7)을 다운로드 받고 설치 해 줄거예요.
JPype는 자바 라이브러리를 파이썬으로 사용할 수 있게 해준다고 해요. 왜 파이썬 시간에 자바를 설치했는지 이제야 이해가 되었어요ㅜㅜ
사이트에 들어가면 JPype를 다운 받을 수 있는데 아래처럼 이건 뭐 어떻게 하라는 거지 라고 느껴지는 다운로드 페이지가 나와요. 함께 이 난관을 이겨내봅시다.
저 알수 없는 숫자를 이해하기 위해서는 우리는 파이썬의 버전과 파이썬 시스템 구조를 알아야 해요.
파이썬이 깔려있다는 전제하에 파이썬 버전은 cmd 창에서 python --version 으로 알수 있고요.
python --version
운영체제가 아닌 파이썬 자체가 몇 bit 인지 확인해야 하는데 파이썬 ide 에서 어떤 것이든 상관없어요. 편하게 사용하시는 IDE 이용해주세요.
import platform print(platform.architecture())
확인을 끝냈으면 다시 JPye 다운로드 페이지로 가봅시다.
cp다음의 숫자는 버전의 앞자리를 37, win 뒷부분은 bit로 맞춰서 다운 받아주세요. 저는 파이썬 3.7.6 버전의 64bit 환경이기 때문에 아래 파일로 다운로드 받았어요.
만약, 파이썬 3.6버전의 32bit 환경이라면 아래와 같이 다운받아주시면 된답니다. ㅎㅎ
JPype를 이제 설치해주면 거의 다 끝났어요. JPype 설치전에 pip 업그레이드를 해줘야 해요. 너무 성급하게 JPype부터 설치했다가 아주 빨간 프롬프트 창을 보게 되실겁니다.
* JPype를 설치 하기 전에 pip 업그레이드를 해주셔야 합니다.
pip install -upgrade pip pip install JPype1-0.7.2-cp37-cp37m-win_amd64.whl
JPype 파일 경로도 동일한 곳에 있어야 아래와 같은 오류가 나지 않는 답니다.
4. KoNLPy 설치하기
pip install konlpy
파이썬 IDE 에서 확인
저는 주피터 노트북에서 KoNLPy 의 tag 안에 있는 Hannaum을 사용해서 형태소를 분류해 보았습니다.
KoNLPy의 tag 에 담긴 분석기들도 다음 포스팅에 비교해보도록 할게요.
'취준일기' 카테고리의 다른 글
정보처리기사 실기준비 큐넷 2020 시험일정 같이 준비해요 (0) | 2020.04.14 |
---|---|
한국어 데이터 Tokenizer - 위키피디아 덤프 다운로드 (1) | 2020.04.03 |
자바 jdk 다운로드 하고 버전 확인, 환경변수 설정하기 (0) | 2020.04.01 |
구글 코랩 (colab) 사용법 (0) | 2020.03.31 |
파이썬 자료형(문자열) 문자열 포맷 코드, format 함수 (0) | 2020.03.30 |