본문 바로가기
Etc/Data Science

파이썬을 통한 데이터사이언스_04

by happy coding! 2018. 8. 22.
반응형

facebook Innovation Lab Class

파이썬을 통한 데이터 사이언스 입문 과정 4일차





 배열 만들기


- numpy 배열

- 배열을 생성할 때는 효율성을 높이려고 배열을 데이터에 연결



import numpy as np

numbers = np.array(range(1, 11), copy=True)

numbers

>>>

array([1,2,3,4,5,6,7,8,9,10])



- 배열 차원의 개수, 모양과 데이터 타입을 ndim, shape, dtype 속성에 저장

- reshape(d0, d1, ...) 함수



● 인덱싱과 자르기


- numpy 배열은 인덱싱[i]과 슬라이싱[i:j]과 불 인덱싱이 가능함



● 브로드 캐스팅


- 배열에서의 벡터 여산


noise - np.eye(4) + 0.01 * np.ones((4, ))

noise

>>>

array([[1.01, 0.01, 0.01, 0.01]

        [0.01, 1.01, 0.01, 0.01],

        [0.01, 0.01, 1.01, 0.01],

        [0.01, 0.01, 0.01, 1.01]])



● 유니버셜 함수


- isnan()을 이용해 결측치 찾기



● 조건부 함수 이해하기


- 여러 조건부 함수

- where(c, a, b) 함수 : numpy 의 삼항 연산자(if~else)

- any(), all() 함수 : 각각 일부 혹은 모든 배열의 엘리먼트가 True 라면 True를 반환



● 배열 집계와 정렬하기


- comsum(x) 함수 : 누적 합을 구함 

- cumprod(x) 함수 : 누적 곱을 구함



● 배열을 셋처럼 다루기


- unique(x) 함수를 이용하여 유전자 염기 서열 분석하기



● 배열 저장하고 읽기


- save(file, arr)



● Pandas 로 데이터 프레임 다루기


- 데이터 시리즈와 프레임 다루기

- 시리즈 : 1차원 데이터 벡터


import pandas as pd

alco2009 = pd.read_csv("niaaa-report2009.csv", index_col="State")

alco2009

>>>


- 데이터 모양 바꾸기

- 인덱싱 

- 인덱스 : 행에 할당된 레이블의 묶음

- 재인덱싱

- 계층적 인덱싱



● 데이터 정렬하기


- 고유 값, 카운팅, 멤버십



● 시리즈(Series)


- 단순 혹은 계층적 인덱싱

- 결측치 처리

- 전체 열과 테이블에서 사칙 논리 연산

- 파일에서 데이터 읽고 쓰기




반응형

댓글