multiprocess

    pandas 멀티프로세스 사용하기 + 큰 csv 데이터 나눠서 가져오기

    프로젝트를 진행하면서 , 대량의 cvs 데이터를 읽어와 처리할 일이 생겼다. 컴퓨터 램의 용량보다 데이터가 무조건 크므로, csv_read 함수를 사용하면 램이 터져나갈 것. 이를 해결하기 위해 chunksize를 구분하여 일부분씩 쪼개서 가져오는 방법을 선택했다. csv_chunk = pd.read_csv("G:\ks_data/"+filename+".csv",chunksize=2000000) for chunk in csv_chunk : print(chunk) 방식은 c언어 등에서 fopen - fread 시에 사용하는 방법과 유사한데, 한번 read_csv를 실행하면 동일 파일에 대해 파일 포인터같은게 유지되어 파일 스트림 방식으로 데이터를 읽어오게 된다. 즉, chunksize를 지정했다면 아래의 f..