-
파이썬을 통한 데이터사이언스_04Study/Data Science 2018. 8. 22. 21:49반응형
facebook Innovation Lab Class
파이썬을 통한 데이터 사이언스 입문 과정 4일차
● 배열 만들기
- numpy 배열
- 배열을 생성할 때는 효율성을 높이려고 배열을 데이터에 연결
import numpy as np
numbers = np.array(range(1, 11), copy=True)
numbers
>>>
array([1,2,3,4,5,6,7,8,9,10])
- 배열 차원의 개수, 모양과 데이터 타입을 ndim, shape, dtype 속성에 저장
- reshape(d0, d1, ...) 함수
● 인덱싱과 자르기
- numpy 배열은 인덱싱[i]과 슬라이싱[i:j]과 불 인덱싱이 가능함
● 브로드 캐스팅
- 배열에서의 벡터 여산
noise - np.eye(4) + 0.01 * np.ones((4, ))
noise
>>>
array([[1.01, 0.01, 0.01, 0.01]
[0.01, 1.01, 0.01, 0.01],
[0.01, 0.01, 1.01, 0.01],
[0.01, 0.01, 0.01, 1.01]])
● 유니버셜 함수
- isnan()을 이용해 결측치 찾기
● 조건부 함수 이해하기
- 여러 조건부 함수
- where(c, a, b) 함수 : numpy 의 삼항 연산자(if~else)
- any(), all() 함수 : 각각 일부 혹은 모든 배열의 엘리먼트가 True 라면 True를 반환
● 배열 집계와 정렬하기
- comsum(x) 함수 : 누적 합을 구함
- cumprod(x) 함수 : 누적 곱을 구함
● 배열을 셋처럼 다루기
- unique(x) 함수를 이용하여 유전자 염기 서열 분석하기
● 배열 저장하고 읽기
- save(file, arr)
● Pandas 로 데이터 프레임 다루기
- 데이터 시리즈와 프레임 다루기
- 시리즈 : 1차원 데이터 벡터
import pandas as pd
alco2009 = pd.read_csv("niaaa-report2009.csv", index_col="State")
alco2009
>>>
- 데이터 모양 바꾸기
- 인덱싱
- 인덱스 : 행에 할당된 레이블의 묶음
- 재인덱싱
- 계층적 인덱싱
● 데이터 정렬하기
- 고유 값, 카운팅, 멤버십
● 시리즈(Series)
- 단순 혹은 계층적 인덱싱
- 결측치 처리
- 전체 열과 테이블에서 사칙 논리 연산
- 파일에서 데이터 읽고 쓰기
반응형'Study > Data Science' 카테고리의 다른 글
파이썬을 통한 데이터 사이언스_05 (0) 2018.08.29 파이썬을 통한 데이터 사이언스_03 (0) 2018.08.20 파이썬을 통한 데이터 사이언스_02 (0) 2018.08.17 파이썬을 통한 데이터 사이언스_01 (0) 2018.08.13