본문 바로가기
Etc/Data Science

파이썬을 통한 데이터 사이언스_01

by happy coding! 2018. 8. 13.
반응형

facebook Innovation Lab Class

파이썬을 통한 데이터 사이언스 입문 과정 1일차




과정 소개 





데이터 사이언스란?


- 데이터에서 지식을 추출하는 학문

- 다양한 형태의 데이터에서 지식과 인사이트를 추출하기 위해 과학적 방법, 절차, 알고리즘과 시스템을 활용하는 학제 간 분야

- 데이터 과학은 '데이터로 실제 현상을 이해하고 분석'하기 위해 통계, 데이터 분석, 기계 학습 및 관련 방법을 통합하는 개념.

- 수학, 통계학, 정보 과학 및 컴퓨터 과학 맥락 안의 많은 분야에서 이끌어낸 기술과 이론을 사용함



● 데이터과학 


- 업계와 학계의 많은 응용 영역에서 점점 더 중요해지고 있는 여러 학문 분야의 기술을 통칭하기에 가장 적합한 용어 



● 데이터 과학 벤 다이어그램


- 드류 콘웨이의 데이터 과학 벤 다이어 그램 



● 데이터 과학은 여러 분야에 걸친 주제라는 본질을 가장 잘 포착


- 통계학 영역

- 컴퓨터 과학 영역 

- 도메인 지식 영역



● 데이터 과학자가 되기 위한 여덟 단계 


1. Get good at stats, math and machine learning

2. Learn to code

3. Understand databases

4. Explore the Data Science Workflow

5. Level up with Big Data

6. get experience, practice and meet fellow data scientists

7. Internship, bootcamp or get a job

8. Follow and engage with the community



● 데이터 분석 과정


- 데이터 분석 방법

1. 기술 통계

2. 인과 분석

3. 역학 데이터 분석



● 데이터 분석 과정


- 데이터 수집 -> 데이터 정제 -> 기술 통계 분석 및 탐색적 분석 -> 미래 예측


1) 데이터 수집 : 얼마나 좋은 데이터를 사용하느냐가 중요. 파일, 웹, 데이터베이스의 원천 데이터를 수집


2) 데이터 정제 : 더러운 데이터, 누락된 값, 이상치, 비정상적인 아이템. 원천 데이터를 얻으려면 데이터 정제 도구와 통계학적 지식을 동원, 데이터셋 정규화


3) 기술 통계 분석 및 탐색적 분석 : 산포도, 히스토그램, 통계적 요약 등의 결과물 


4) 미래 예측 : 만든 모델과 그 예측의 정확도를 평가해야함 



● 데이터 분석 방법


1) 기술(descriptive) 통계 

 - 데이터 셋을 취합, 시각화한 형태로 표현

 - 주어진 샘플 데이터의 크기가 작다. 통계에 기반한 추정 수행

 - 예측을 하고자 하는 분석가는 과거에서 배워 미래 예측


2) 인과(casual) 분석

 - 서로에게 영향을 미치는 변수들을 식별


3) 역학(mechanistic) 데이터 분석

 - 변수가 다른 변수에 정확히 어떤 영향을 주는지 탐구



● 데이터 수집 파이프라인


데이터 수집

- 다양한 출처에서 입력 데이터가 포함된 아티팩트(artifact)를 획득

- 데이터를 추출하며 추가적인 처리에 적합한 형태로 변환


[데이터 수집]



● 보고서 구조


- 데이터 분석 의뢰인(고객)에게 전달하는 결과물

- 보고서를 구성하는 항목

  - 요약 (짧은 프로젝트 설명)

  - 서론

  - 데이터 수집과 처리에 사용한 방법

  - 분석 결과 (중간 겨로가나 중요도가 떨어지는 내용은 포함하지 않고 부록에 삽입)

  - 결론

  - 부록



● 파이썬의 장점


- 막강한 파이썬 과학적 컴퓨팅 생태계 환경과 데이터 사이언스의 결합

  (IPython, NumPy, Pandas, Matplotlib, ....)

- 파이썬 전체 생태계와의 결합을 통해 다양한 분야로 확장 가능



● IPython 사용


- 시작 -> 프로그램 -> Anaconda3 -> Anaconda Prompt -> ipython + Enter





 데이터 사이언스 실습 환경 구축


- Spyder 환경 구축

- Cell 정의 : cell 은 '#%%'로 구분이 된 위/아래로 줄로 구분된 코드 덩어리







반응형

댓글