파이썬 ORC pyorc로 끝내는 대용량 데이터 분석 포맷 압축과 인덱스까지 정리 📌 ORC 컬럼형 포맷의 스트라이프 구조, 통계 기반 인덱스, snappy·zlib·zstd 압축까지 한 번에 이해하고…
파이썬 Parquet 데이터 저장 최적화 가이드, 컬럼형 포맷과 파티셔닝으로 빠르게 분석하는 방법 🚀 판다스 DataFrame을 Parquet으로 저장하면 왜 속도와 용량이 달라질까? 컬럼형 구조부터 파티셔닝까지 핵심만…
pandas 정렬 안정성 완벽이해 mergesort stable sort와 카테고리 순서 보존 🧠 판다스 sort_values 정렬이 왜 원래 순서를 유지할까 mergesort stable 옵션과 카테고리 order 동작을 데이터…
pandas Copy-on-Write와 Arrow 백엔드 마이그레이션 가이드, 코드베이스에 어떤 영향이 생길까? 🚀 pandas Copy-on-Write와 Arrow 기반 dtype 전환, 업그레이드 전에 꼭 점검해야 할 변화 포인트 데이터…
파이썬 pandas 마이그레이션 가이드 append 제거와 sort_values sort_index 키워드 변경 총정리 🧭 코드가 한 번에 돌아가게 만드는 안전한 전환 전략과 실전 예시를 담았습니다 데이터 처리…
pandas merge_asof 시계열 비정렬 조인 완벽 가이드: direction=’nearest’, tolerance=’5min’ ⏱️ 초간격이 어긋난 로그도 한 번에 맞추는 pandas 시계열 조인 레시피 데이터를 다루다 보면 서로 다른…
파이썬 pandas 시계열 이동 평균 rolling(‘7D’).mean() 이상치 제거 후 적용 가이드 📌 이상치를 먼저 걷어낸 뒤 7일 이동 평균으로 신뢰도 높은 추세를 얻는 방법을 실제…
파이썬 pandas 정렬 정합 가이드 서로 다른 인덱스 산술은 outer join 정합과 fill_value로 정확히 채우기 🧮 누락 없이 계산하려면 인덱스 정렬 원리와 fill_value 활용법을 익히세요…
파이썬 pandas 중복 제거 완벽 가이드 duplicated subset keep drop_duplicates 🐼 데이터프레임 중복을 한 번에 정리하는 실전 코드와 개념을 깔끔하게 정리합니다 데이터 분석을 하다 보면…