본문 바로가기

[입문] 데이터 사이언스? 그게 뭔가요?

(8)
의사결정나무 기반 알고리즘 논문 리딩자료 Decision Tree와 Random Forest 에 대해 다룹니다. [Tree-based model 논문 리딩자료] Induction of Decision Trees J.R. QUINLAN, South Wales Institute of Technology, 1985 Random Decision Forest Tin Kam Ho, AT&T Bell Laboratories, 1995 Contents: Decision Tree와 Random Forest 창안자의 논문 중 Abstract, Introduction, Conclusion 부분의 영/한 번역입니다. Why: 이 자료는 알고리즘의 근본을 파악하기 위해 제작하였습니다. 모든 논문의 Abstract & Introduction 에는 해당 업계의 전반적인 ..
파이썬으로 데이터 주무르기 4장 코드에 주석을 달았다는 내용의 제목 원작자 : PinkWink¶주석 작성자 멘트 : 코드 호환성 문제 등으로 수정하여 작성한 부분이 있습니다.¶ 4장 셀프 주유소는 정말 저렴할까¶작성 : PinkWink¶4-1 Selenium 사용하기¶ In [1]: from selenium import webdriver 현재 최신 크롬드라이버의 명령 중 일부가 다른 버전과 다른듯 합니다. 본 Github에서 배포하는 driver를 사용하시기 바랍니다. In [2]: from bs4 import BeautifulSoup 4-2 서울시 구별 주유소 가격 정보 얻기¶ In [9]: import time from selenium.webdriver.support.ui import Select driver = webdriver.Chrome('../drive..
파이썬으로 데이터 주무르기 2장 코드에 주석을 달았다는 내용의 제목 ''' 원본 소스코드에 대한 설명: ### 작성 : [PinkWink](http://pinkwink.kr) * 강남3구의 주민들이 자신들이 거주하는 구의 체감 안전도를 높게 생각한다는 기사를 확인해 보도록 한다 * 기사 원문 http://news1.kr/articles/?1911504 * 작성 : PinkWink http://pinkwink.kr * Matplotlib의 heatmap 등을 그릴때 cmap의 디폴트 설정이 변경되어 heatmap 등에서 cmap을 적용할 때 옵션을 잡아주어야 교재와 동일한 효과가 나타난다. (소스코드에 모두 반영됨) * Folium이 0.4.0으로 판올림 되면서 choropleth 명령에서 geo_str 옵션명이 geo_data 옵션명으로 변경됨. (..
[뉴스 정보] 조금 진지한 크롤링, selenium / beautifulsoup # 마치 사람이 접속하는 것 처럼 브라우저로 서버에 정보를 요청하는 seleuium # 딕셔너리처럼 타고타고 들어가기에는 너무나도 복잡할 때 사용하는 bs4 !pip install selenium bs4 Requirement already satisfied: selenium in c:\users\one\appdata\local\continuum\anaconda3\lib\site-packages (3.141.0) Collecting bs4 Downloading https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89a94a1a4025fe967691de971f314/bs4-0.0.1.tar.gz Requirement alr..
[뉴스 정보] 데이터 수집/저장 입문_2 # xml 형식의 정보를 딕셔너리처럼 사용할 수 있게 도와주는 친구를 설치 !pip install xmltodict Requirement already satisfied: xmltodict in c:\users\one\appdata\local\continuum\anaconda3\lib\site-packages (0.12.0)import requests import xmltodict import pandas as pd # 네이버 검색 -> 뉴스 들어가서 RSS 복사/붙여넣기 url = 'http://newssearch.naver.com/search.naver?where=rss&query=%EC%82%BC%EC%84%B1%20%EB%B0%98%EB%8F%84%EC%B2%B4&field=0&nx_sea..
[환율 정보] 데이터 수집/저장 입문_1 import requests import pandas as pd # 구글 검색 = 환율 무료 api # 간단한 API 제공 사이트 happycgi # 홈페이지 바로가기 클릭 # 왼쪽 위 메뉴 -> exchange -> index 클릭 # 아래 주소 획득 url= 'https://api.manana.kr/exchange.json' # 해당 주소의 서버에 요청(request) 를 보내고, 그 결과를 req 로 저장한다. req = requests.get(url) # 이 결과는 json 이라는 형태로 들어오게 되는데 # 이는 결국 파이썬에서 리스트와 딕셔너리의 조합으로 다루게 된다. # .json() 이후부터는 리스트의 인덱싱과 딕셔너리의 키로 조회하는 방법을 사용한다. result = req...
데이터 사이언스 입문자를 위한 [시각화 / 예측] 타이타닉 승객 데이터셋을 이용한 데이터 시각화 / 예측 이전 글에서 이어집니다. 전처리 단계에서 새로 추가된 컬럼 설명 FamilySize -> 배에 탑승한, 나를 포함한 우리 가족의 총 인원수 입니다. Nationality -> 탑승한 항구로부터 유추한 탑승객의 국적 입니다. Nationality_FR / Nationality_UK -> 원-핫-인코딩한 국적 입니다. male / female -> 원-핫-인코딩한 성별 입니다. Fare_Low Fare_Med -> 수치형 자료인 Fare를 3 개의 그룹으로 나누었습니다. Fare_High Class_Low Class_Mid -> Pclass를 원-핫-인코딩 하였습니다. Class_High Load Dataset 모든 데이터 분석의 시작은 데이터를 읽어오..
데이터 사이언스 입문자를 위한 [데이터 전처리] 타이타닉 승객 데이터셋을 이용한 데이터 핸들링 실습 여기서 다운받으시면 됩니다.(무료 회원가입 필요) 컬럼 설명 survival -> 살아남았는가에 대한 지표입니다. 1 이 생존, 0 이 사망 입니다. pclass -> 사회경제적 지표입니다. 1 부터 3까지 Upper/Middle/Lower class 입니다. Sex -> 성별 입니다. male = 남자, female = 여자 입니다. Age -> 나이 입니다. sibsp -> 본인을 제외하고 배에 탑승한 형제자매 및 배우자의 인원수 입니다. parch -> 본인을 제외하고 배에 탑승한 부모/자식의 총 인원수 입니다. ticket -> 이 사람이 보유한 탑승권의 식별자를 의미합니다. fare -> 이 사람이 탑승하기 위해 지불한 금액을 의미합니다. ca..