본문 바로가기

Passion Python

(62)
[도서] 추천 시스템 구축, ,데이터가 너무 'big' 해서 생기는 문제 해결법? 해결방안 import pandas as pd books = pd.read_csv('data/books.csv') ratings = pd.read_csv('data/ratings.csv') C:\Users\one\AppData\Local\Continuum\anaconda3\lib\site-packages\IPython\core\interactiveshell.py:3057: DtypeWarning: Columns (3) have mixed types. Specify dtype option on import or set low_memory=False. interactivity=interactivity, compiler=compiler, result=result) 유저가 몇 번 별점을 매겼는지, 도서가 몇 번 ..
[도서] 추천 시스템 구축 초간단한 방법 import pandas as pd books = pd.read_csv('data/books.csv') ratings = pd.read_csv('data/ratings.csv') C:\Users\one\AppData\Local\Continuum\anaconda3\lib\site-packages\IPython\core\interactiveshell.py:3057: DtypeWarning: Columns (3) have mixed types. Specify dtype option on import or set low_memory=False. interactivity=interactivity, compiler=compiler, result=result) books.head() ISBN bookTitle boo..
데이터 사이언스 입문자를 위한 [시각화 / 예측] 타이타닉 승객 데이터셋을 이용한 데이터 시각화 / 예측 이전 글에서 이어집니다. 전처리 단계에서 새로 추가된 컬럼 설명 FamilySize -> 배에 탑승한, 나를 포함한 우리 가족의 총 인원수 입니다. Nationality -> 탑승한 항구로부터 유추한 탑승객의 국적 입니다. Nationality_FR / Nationality_UK -> 원-핫-인코딩한 국적 입니다. male / female -> 원-핫-인코딩한 성별 입니다. Fare_Low Fare_Med -> 수치형 자료인 Fare를 3 개의 그룹으로 나누었습니다. Fare_High Class_Low Class_Mid -> Pclass를 원-핫-인코딩 하였습니다. Class_High Load Dataset 모든 데이터 분석의 시작은 데이터를 읽어오..
데이터 사이언스 입문자를 위한 [데이터 전처리] 타이타닉 승객 데이터셋을 이용한 데이터 핸들링 실습 여기서 다운받으시면 됩니다.(무료 회원가입 필요) 컬럼 설명 survival -> 살아남았는가에 대한 지표입니다. 1 이 생존, 0 이 사망 입니다. pclass -> 사회경제적 지표입니다. 1 부터 3까지 Upper/Middle/Lower class 입니다. Sex -> 성별 입니다. male = 남자, female = 여자 입니다. Age -> 나이 입니다. sibsp -> 본인을 제외하고 배에 탑승한 형제자매 및 배우자의 인원수 입니다. parch -> 본인을 제외하고 배에 탑승한 부모/자식의 총 인원수 입니다. ticket -> 이 사람이 보유한 탑승권의 식별자를 의미합니다. fare -> 이 사람이 탑승하기 위해 지불한 금액을 의미합니다. ca..
발전소에서 나온 데이터 분석해보기 ''' Acknowledgements Source: Pınar Tüfekci, Çorlu Faculty of Engineering, Namık Kemal University, TR-59860 Çorlu, Tekirdağ, Turkey Email: ptufekci '@' nku.edu.tr Heysem Kaya, Department of Computer Engineering, Boğaziçi University, TR-34342, Beşiktaş, İstanbul, Turkey Email: heysem '@' boun.edu.tr ''' print("") Combined Cycle Power Plant Data Set 데이터분석, 시각화와 예측 모델 구축에 적용하기 이 데이터 셋은 발전소로부터 얻은 5년치..
산업 현장에서 다루는 데이터 분석하기 ''' Acknowledgements This dataset is publicly available for anyone to use under the following terms. von Birgelen, Alexander; Buratti, Davide; Mager, Jens; Niggemann, Oliver: Self-Organizing Maps for Anomaly Localization and Predictive Maintenance in Cyber-Physical Production Systems. In: 51st CIRP Conference on Manufacturing Systems (CIRP CMS 2018) CIRP-CMS, May 2018. Paper available open acces..
[영화] 아마존? 넷플릭스? 등에서 사용하는 추천 시스템 맛보기 영화 별점 데이터를 이용한 추천 시스템 구축 여기서 다운받으시면 됩니다. 이 데이터 세트는 9742 개 영화에 걸쳐 100836 개의 평가가 포함되어 있습니다. 1996-3-29 부터 2018-9-24 까지 약 22년 6개월 간 610 명의 사용자의 데이터입니다. 사용자는 무작위로 선별되었고, 나이/성별 등의 정보는 포함되지 않습니다. 최소 20 개 이상 평가한 사용자의 데이터만 추렸습니다. 컬럼 설명 movies.csv movieId 최소 한 개 이상의 별점이 있는 영화입니다. movies.csv 와 ratings.csv 를 이어줄 수 있는 역할을 합니다. title https://www.themoviedb.org/ 로부터 획득한 해당 영화의 제목 정보 입니다. genres 아래 목록 중에서 선별된(중..
Level_01_part_0 우리 작은 친구와 만나보기 -on going '시작이 반이다' 라고 했습니다. 이 글을 읽고 있다면 이미 시작 한 것이니 반은 된 것이에요! 제일 처음 할 일은 파이썬을 설치해 앞으로 할 일의 준비작업을 하는 것입니다. 시작이 반이라면, 파이썬 설치는 약 40 퍼센트 정도 됩니다. 그렇다면 시작부터 파이썬 설치까지가 90 퍼센트 이네요. 거의 다 된 상태에서 코딩을 시작할 수 있는 것이에요. 이번 장에서는 내 컴퓨터에 파이썬을 설치하는 것을 다룰 것입니다. '파이썬을 설치한다' 라는 것에 대해 잠깐 이야기하자면... 우리에게 필요한 것은 프로그래밍 언어를 문법에 맞게 적을 곳과 코드를 작성 한 이후 이를 실행해 줄 것 입니다. 이러한 코딩을 하기 위해 필요한 기능들이 편하게 묶여있는 도구를 '통합 개발 환경' 이라고 합니다. 이 과정에서 우리는 a..