방법 #1
1. 파이썬에 기본으로 내장된 csv 모듈을 import한다.
2. open() 함수로 csv파일을 연다.
3. csv.reader() 함수로 한 line 단위로 읽어온다.
4. for문을 이용하여 파일 전체를 읽어들인다.
방법 #2
1. numpy를 import한다.
2. numpy.loadtxt() 함수를 이용하여 데이터를 읽어들인다.
(ex) import numpy as np
data = np.loadtxt('testdata.csv', delimiter = ',')
"데이터/수치 분석을 위한 파이썬 라이브러리 SciPy와 NumPy" (한빛미디어)를 보다가 알게되었는데, 위 두 방법은 처리해야할 데이터의 크기가 커지면 성능면에서 차이를 보인다고 한다.
책의 내용을 인용하면,
...
이렇게 데이터에 접근하고 기록하는 방식(방법 #1)은 유연하고 빠르지만, 한 가지 단점이 있다. 만일 파일의 크기가 크다면 데이터 접근과 처리가 느릴 수 있다. 이때는 numpy.ndarray로 데이터를 직접 가져오는 것이 가장 좋으며, numpy의 loadtxt함수로 이를 할 수 있다. 데이터가 행과 열로 되어 있으면 값들이 정수나 부동소수 같은 비슷한 형식으로 구성되어 있는 한 아주 잘 동작한다. numpy.savetxt로 numpy.loadtxt와 마찬가지로 쉽고 빠르게 데이터를 저장할 수 있다.
....
2017년 12월 3일 일요일
피드 구독하기:
댓글 (Atom)
람다 표현식 (Lambda expression)
람다 표현식(Lambda expression) 람다 표현식으로 함수를 정의하고, 이를 변수에 할당하여 변수를 함수처럼 사용한다. (1) 람다 표현식 lambda <매개변수> : 수식 ※ 람다식을 실행하...
-
데이터 과학자가 알아야 할 5가지 클러스터링 알고리즘 February 26,2018 클러스터링은 데이터 포인트의 그룹화와 관련된 머신러닝 기술입니다. 데이터 포인트 집합이 주어지면 클러...
-
Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-Between 출처: < http:...
-
영교차점(zero-crossing) 찾기 (파이썬) a = [1, 2, 1, 1, -3, -4, 7, 8, 9, 10, -2, 1, -3, 5, 6, 7, -10] 일 때, In[61]: z = np.where(np.diff(np.sign(...
댓글 없음:
댓글 쓰기