본문 바로가기

Code/Phyton

파이썬으로 공연예술 검색엔진 만들기(2)

(3) 분석을 위한 데이터의 가공: 데이터는 가공되지 않으면 의미가 없으므로, 어떻게 어떤 정보를 Pyhton으로 추출했는지 설명함

 

 

사용 Library : 'BeatifulSoup' 과 'Pandas'

 

HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리인 BeautifulSoup을 활용하였다. 이를 활용하여 HTML 코드 안에서 원하는 Data 를 뽑아내었다.
Pandas는 파이썬에서 사용하는 데이터분석 라이브러리이다. 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하였다.

 

 

 

1. 공연시설 ID 추출

 

 

 

데이터 원본에서 공연장 ID, 공연시설 ID 추출

 

 

 

 

 

2. 공연시설 상세정보

 

 

 

 

 

(4) 분석 결과 도출: 논리적 방법을 Python으로 구현함으로서, 프로그램을 통해서 결과를 도출함

사용 Library : 'BeatifulSoup' 과 'Pandas'

 

 

 

HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리인 BeautifulSoup을 활용하였다. 이를 활용하여 HTML 코드 안에서 원하는 Data 를 뽑아내었다.
Pandas는 파이썬에서 사용하는 데이터분석 라이브러리이다 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하였다.

 

 

 

1. 공연예술 검색

 

 

 

 

날짜기준: 2019년 12월 1일 부터 2019년 12월 31일

 

 

 

 

 

2. 공연장 지도 시각화

 

사용 Library : 'Folium'

 

 

 

Folium 은 ‘Open Street Map’과 같은 지도데이터에 ‘Leaflet.js’를 이용하여 위치정보를 시각화하기 위한 라이브러리다. 기본적으로 ‘GeoJSON’ 형식 또는 ‘topoJSON’ 형식으로 데이터를 지정하면, 오버레이를 통해 마커의 형태로 위치 정보를 지도상에 표현할 수 있다.

 

 

 



별표(경희대학교) 기준,
현재 상영중인 공연 장소를 지도에 표시하였다.

 

 

3. 텍스트 마이닝

 

 

사용 Library : 'BeautifulSoup', 'Konlpy' 그리고 'Wordcloud'

 

 

 

HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리인 BeautifulSoup을 활용하였다. 이를 사용하여 HTML 코드 안에서 원하는 Data 를 뽑아내었다.
NLP (Natural Language Processing, 자연어처리)는 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합이다. 그 중 한국어 텍스트에서 자연어처리를 다룰 수 있는 Konlpy를 활용하였다.


네이버 검색도구를 통해 기사 제목에서 '입력 단어'가 포함된 네이버 기사제목을 추출

 

 

예시) 검색어 입력 : "국립현대무용단"

 

 

 

 

 

해당 문장에 포함된 단어를 기준으로 단어별 형태소 분석

 

 

 

 


형태소 분석 결과를 종합정리

 

 

 


워드클라우드 형성