ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 파이썬을 통한 데이터사이언스_04
    Study/Data Science 2018. 8. 22. 21:49
    반응형

    facebook Innovation Lab Class

    파이썬을 통한 데이터 사이언스 입문 과정 4일차





     배열 만들기


    - numpy 배열

    - 배열을 생성할 때는 효율성을 높이려고 배열을 데이터에 연결



    import numpy as np

    numbers = np.array(range(1, 11), copy=True)

    numbers

    >>>

    array([1,2,3,4,5,6,7,8,9,10])



    - 배열 차원의 개수, 모양과 데이터 타입을 ndim, shape, dtype 속성에 저장

    - reshape(d0, d1, ...) 함수



    ● 인덱싱과 자르기


    - numpy 배열은 인덱싱[i]과 슬라이싱[i:j]과 불 인덱싱이 가능함



    ● 브로드 캐스팅


    - 배열에서의 벡터 여산


    noise - np.eye(4) + 0.01 * np.ones((4, ))

    noise

    >>>

    array([[1.01, 0.01, 0.01, 0.01]

            [0.01, 1.01, 0.01, 0.01],

            [0.01, 0.01, 1.01, 0.01],

            [0.01, 0.01, 0.01, 1.01]])



    ● 유니버셜 함수


    - isnan()을 이용해 결측치 찾기



    ● 조건부 함수 이해하기


    - 여러 조건부 함수

    - where(c, a, b) 함수 : numpy 의 삼항 연산자(if~else)

    - any(), all() 함수 : 각각 일부 혹은 모든 배열의 엘리먼트가 True 라면 True를 반환



    ● 배열 집계와 정렬하기


    - comsum(x) 함수 : 누적 합을 구함 

    - cumprod(x) 함수 : 누적 곱을 구함



    ● 배열을 셋처럼 다루기


    - unique(x) 함수를 이용하여 유전자 염기 서열 분석하기



    ● 배열 저장하고 읽기


    - save(file, arr)



    ● Pandas 로 데이터 프레임 다루기


    - 데이터 시리즈와 프레임 다루기

    - 시리즈 : 1차원 데이터 벡터


    import pandas as pd

    alco2009 = pd.read_csv("niaaa-report2009.csv", index_col="State")

    alco2009

    >>>


    - 데이터 모양 바꾸기

    - 인덱싱 

    - 인덱스 : 행에 할당된 레이블의 묶음

    - 재인덱싱

    - 계층적 인덱싱



    ● 데이터 정렬하기


    - 고유 값, 카운팅, 멤버십



    ● 시리즈(Series)


    - 단순 혹은 계층적 인덱싱

    - 결측치 처리

    - 전체 열과 테이블에서 사칙 논리 연산

    - 파일에서 데이터 읽고 쓰기




    반응형
Designed by Tistory.