본문 바로가기

Code/Phyton

Parallel coordinate plots / Andrews curve / 평행좌표그림 (Parallel coordinate plots) 입력 필드 X만큼 Y축을 만들고 동일한 행에 있는 값을 선으로 연결하여 그립니다. from sklearn.datasets import load_iris from pandas.tools.plotting import parallel_coordinates import pandas as pd import matplotlib.pyplot as plt import matplotlib # Look pretty... matplotlib.style.use('ggplot') # If the above line throws an error, use plt.style.use('ggplot') instead # Load up SKLearn's Iris Dataset.. 더보기
Matplotlib / Histogram / 2D & 3D Scatter Plots Histograms 히스토그램은 데이터의 분산된 특징들을 한눈에 볼 수 있는 특징이 있다. 이는 데이터가 1. 어디에 위치해있고(located at) 2. 얼만큼이 있는지(how many) 를 손쉽게 파악할 수 있다. 양적데이터와 범주형데이터 중 히스토그램은 범주형 데이터(categorical dat)에만 사용가능하다. 만일 양적데이터에 사용할 경우 다른 형태로 변환하는 작업이 필요하다. import pandas as pd import matplotlib matplotlib.style.use('ggplot') # Look Pretty # If the above line throws an error, use plt.style.use('ggplot') instead student_dataset = pd.re.. 더보기
Pure Textual Features /scikit-learn/countvectorize Pure Textual Features Scikit-Learn 의 문서 전처리 기능 SciKit-Learn에서 CountVectorizer() 의 방식, 이는 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩한 벡터를 만든다. 문법이나 글의 순서가 엉망이여도 이는 이러한 문제를 뛰어넘는 강력한 기능이다. >>> from sklearn.feature_extraction.text import CountVectorizer >>> corpus = [ ... "Authman ran faster than Harry because he is an athlete.", ... "Authman and Harry ran faster and faster.", ... ] >>> bow = CountVect.. 더보기
pandas/Textual Categorical-Features/ordinal/nominal Textual Categorical-Features 데이터의 분석방식은 데어터 셋이 순서자료인지 아니면 명목자료인지에 따라(ordinal or nominal) 분류된다. ordinal 데이터가 순서자료일때는 증가형태의 정수를 설정하면된다. 만일 데이터가 설정된 정수형에 해당하지않는다면 '-1'로 표기될 것이다. >>> import pandas as pd >>> ordered_satisfaction = ['Very Unhappy', 'Unhappy', 'Neutral', 'Happy', 'Very Happy'] >>> df = pd.DataFrame({'satisfaction':['Mad', 'Happy', 'Unhappy', 'Neutral']}) >>> df.satisfaction = df.satisf.. 더보기
파이썬으로 공연예술 검색엔진 만들기 (별첨) (7) 별첨: (2)의 획득한 데이터 원본 In [10]:import pandas as pd from bs4 import BeautifulSoup import requests url='http://www.kopis.or.kr/openApi/restful/prfstsCate?service=63001978c862427a9a2681445a158193&stdate=20191201&eddate=20191231' ##KOPIS 공연예술 통합전산망 웹크롤링 ## 2019년 12월 기준 req=requests.get(url) html=req.text temp_soup=BeautifulSoup(html, 'html.parser') print(temp_soup) 70314 990014230 3.5 147 연극 1555 1.. 더보기
파이썬으로 공연예술 검색엔진 만들기(3) (5) 결론: 본인의 말하고자 하는 바와 앞으로 나아가야 할 방향에 대한 구체적 정리 '공연예술 전문 커뮤니티' 현대인들의 공연예술에 대한 관심은 매우 부족하다. 물론 이는 안무감독와 연기자, 공연기획자 그리고 관객이 모두 고민해야될 문제이다. 그 중에서 관객으로서 느꼈던 가장 큰 아쉬움은 '공연에 대해 다양한 해석을 주고받는 소통의 제한성'이다. 공연을 보고나서 느낀 다양한 생각과 감정을 나눌 수 있는 소통의 매개체를 찾기가 어렵다. 또한 공연에 대해 검색을 해보아도 다양한 사람들의 의견을 찾기는 어렵다. 결과적으로 소통의 매체가 없기때문에 공연의 정보를 얻기위해서는 주로 공연 판플렛에 의지해야한다.관객이 많은 대중예술에는 이미 다양한 온라인 소통의 장이 존재한다. 예를 들어 음악이나 영화 시장에는 직.. 더보기
파이썬으로 공연예술 검색엔진 만들기(2) (3) 분석을 위한 데이터의 가공: 데이터는 가공되지 않으면 의미가 없으므로, 어떻게 어떤 정보를 Pyhton으로 추출했는지 설명함 사용 Library : 'BeatifulSoup' 과 'Pandas' HTML 및 XML 파일에서 원하는 데이터를 손쉽게 Parsing 할 수 있는 Python 라이브러리인 BeautifulSoup을 활용하였다. 이를 활용하여 HTML 코드 안에서 원하는 Data 를 뽑아내었다. Pandas는 파이썬에서 사용하는 데이터분석 라이브러리이다. 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하였다. 1. 공연시설 ID 추출 데이터 원본에서 공연장 ID, 공연시설 ID 추출 2. 공연시설 상세정보 (4) 분석 결과 도출: 논리적.. 더보기
파이썬으로 공연예술 검색엔진 만들기(1) (1) 주제 선정 이유: 왜 이 주제(분야)를 선정하게 된 이유를 나열함 '날짜, 키워드 기반 공연예술 검색엔진' 공연예술은 행위자와 관객이 동일한 시간과 장소에서 서로의 교감을 나누는 작업이다. 동일한 시간이라 함은 행위자의 실연을 실시간으로 관객이 관람하게 되는 것을 뜻하며, 동일한 공간은 무대를 의미한다. 공연예술은 생산과 소비가 동시에 이뤄진다는 특징을 지닌다. 따라서 관객들은 공연이 무대에서 실연되는 때에 시간을 할애해 공연장을 찾아가야한다. 하지만 이는 관객의 입장에서 공연관람을 하는데 커다란 제약으로 작용한다. 관객에게 공연정보가 제 때 전달되지 못한다면 관객은 공연을 놓치는 경우가 발생한다. 따라서 수요가 있는 관객들에게 신속하고 정확한 정보전달이 필요한 예술이다. "어떤 공연을 봐야할지 .. 더보기