(3) 분석을 위한 데이터의 가공: 데이터는 가공되지 않으면 의미가 없으므로, 어떻게 어떤 정보를 Pyhton으로 추출했는지 설명함
사용 Library : 'BeatifulSoup' 과 'Pandas'
HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리인 BeautifulSoup을 활용하였다. 이를 활용하여 HTML 코드 안에서 원하는 Data 를 뽑아내었다.
Pandas는 파이썬에서 사용하는 데이터분석 라이브러리이다. 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하였다.
1. 공연시설 ID 추출
데이터 원본에서 공연장 ID, 공연시설 ID 추출
2. 공연시설 상세정보
(4) 분석 결과 도출: 논리적 방법을 Python으로 구현함으로서, 프로그램을 통해서 결과를 도출함
사용 Library : 'BeatifulSoup' 과 'Pandas'
HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리인 BeautifulSoup을 활용하였다. 이를 활용하여 HTML 코드 안에서 원하는 Data 를 뽑아내었다.
Pandas는 파이썬에서 사용하는 데이터분석 라이브러리이다 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하였다.
1. 공연예술 검색
날짜기준: 2019년 12월 1일 부터 2019년 12월 31일
2. 공연장 지도 시각화
사용 Library : 'Folium'
Folium 은 ‘Open Street Map’과 같은 지도데이터에 ‘Leaflet.js’를 이용하여 위치정보를 시각화하기 위한 라이브러리다. 기본적으로 ‘GeoJSON’ 형식 또는 ‘topoJSON’ 형식으로 데이터를 지정하면, 오버레이를 통해 마커의 형태로 위치 정보를 지도상에 표현할 수 있다.
별표(경희대학교) 기준,
현재 상영중인 공연 장소를 지도에 표시하였다.
3. 텍스트 마이닝
사용 Library : 'BeautifulSoup', 'Konlpy' 그리고 'Wordcloud'
HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리인 BeautifulSoup을 활용하였다. 이를 사용하여 HTML 코드 안에서 원하는 Data 를 뽑아내었다.
NLP (Natural Language Processing, 자연어처리)는 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합이다. 그 중 한국어 텍스트에서 자연어처리를 다룰 수 있는 Konlpy를 활용하였다.
네이버 검색도구를 통해 기사 제목에서 '입력 단어'가 포함된 네이버 기사제목을 추출
예시) 검색어 입력 : "국립현대무용단"
해당 문장에 포함된 단어를 기준으로 단어별 형태소 분석
형태소 분석 결과를 종합정리
워드클라우드 형성
'Code > Phyton' 카테고리의 다른 글
파이썬으로 공연예술 검색엔진 만들기 (별첨) (0) | 2019.12.28 |
---|---|
파이썬으로 공연예술 검색엔진 만들기(3) (0) | 2019.12.28 |
파이썬으로 공연예술 검색엔진 만들기(1) (0) | 2019.12.28 |
[Phyton] List / Aliasing vs Slicing / List of lists (0) | 2019.10.07 |
[Phyton] Modules/ Method & Class/ Object (1) | 2019.09.30 |