파이썬을 통한 데이터사이언스_04

Study/Data Science 2018. 8. 22. 21:49

facebook Innovation Lab Class

파이썬을 통한 데이터 사이언스 입문 과정 4일차

● 배열 만들기

- numpy 배열

- 배열을 생성할 때는 효율성을 높이려고 배열을 데이터에 연결

import numpy as np

numbers = np.array(range(1, 11), copy=True)

numbers

>>>

array([1,2,3,4,5,6,7,8,9,10])

- 배열 차원의 개수, 모양과 데이터 타입을 ndim, shape, dtype 속성에 저장

- reshape(d0, d1, ...) 함수

● 인덱싱과 자르기

- numpy 배열은 인덱싱[i]과 슬라이싱[i:j]과 불 인덱싱이 가능함

● 브로드 캐스팅

- 배열에서의 벡터 여산

noise - np.eye(4) + 0.01 * np.ones((4, ))

noise

>>>

array([[1.01, 0.01, 0.01, 0.01]

[0.01, 1.01, 0.01, 0.01],

[0.01, 0.01, 1.01, 0.01],

[0.01, 0.01, 0.01, 1.01]])

● 유니버셜 함수

- isnan()을 이용해 결측치 찾기

● 조건부 함수 이해하기

- 여러 조건부 함수

- where(c, a, b) 함수 : numpy 의 삼항 연산자(if~else)

- any(), all() 함수 : 각각 일부 혹은 모든 배열의 엘리먼트가 True 라면 True를 반환

● 배열 집계와 정렬하기

- comsum(x) 함수 : 누적 합을 구함

- cumprod(x) 함수 : 누적 곱을 구함

● 배열을 셋처럼 다루기

- unique(x) 함수를 이용하여 유전자 염기 서열 분석하기

● 배열 저장하고 읽기

- save(file, arr)

● Pandas 로 데이터 프레임 다루기

- 데이터 시리즈와 프레임 다루기

- 시리즈 : 1차원 데이터 벡터

import pandas as pd

alco2009 = pd.read_csv("niaaa-report2009.csv", index_col="State")

alco2009

>>>

- 데이터 모양 바꾸기

- 인덱싱

- 인덱스 : 행에 할당된 레이블의 묶음

- 재인덱싱

- 계층적 인덱싱

● 데이터 정렬하기

- 고유 값, 카운팅, 멤버십

● 시리즈(Series)

- 단순 혹은 계층적 인덱싱

- 결측치 처리

- 전체 열과 테이블에서 사칙 논리 연산

- 파일에서 데이터 읽고 쓰기

저작자표시 비영리

'Study > Data Science' 카테고리의 다른 글

파이썬을 통한 데이터 사이언스_05 (0)	2018.08.29
파이썬을 통한 데이터 사이언스_03 (0)	2018.08.20
파이썬을 통한 데이터 사이언스_02 (0)	2018.08.17
파이썬을 통한 데이터 사이언스_01 (0)	2018.08.13

ABOUT ME

제로의 프로그래밍 블로그 제로의 프로그래밍 블로그

'Study > Data Science' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Study > Data Science' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바