Apache Spark

{{{#!wiki style="margin:-10px -10px"	<tablebordercolor=#356fa5>	Python 패키지 목록	}}}
{{{#!wiki style="margin: 0 -10px -5px; min-height: 28px;" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px; word-break: keep-all;"	<colbgcolor=#356fa5><colcolor=#fff> 수학	NumPy
데이터 가공	Pandas, Polars, PySpark^{Pandas on Spark 포함}
데이터 시각화	matplotlib, Plotly
웹 프레임워크	동기 Django, Flask
웹 프레임워크	비동기 FastAPI
머신 러닝·딥 러닝	TensorFlow · Keras, PyTorch, JAX · Flax
프론트엔드·GUI	PyQt, wxPython, PyGTK
게임	Pygame, Ren'Py
기타	SQLAlchemy^DB, OpenCV^{컴퓨터 비전}, Requests^HTTP, OpenZL^{데이터 압축}, Playwright^CUA

}}}}}}}}} ||

<#ffffff,#1c1d1f>

1. 개요2. 상세

1. 개요

#!syntax python
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql import types as T
from pyspark.sql.window import Window
import pyspark.pandas as ps

아파치 스파크(Apache Spark)는 오픈 소스 클러스터 컴퓨팅 프레임워크다. #

2. 상세

원래 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다.

Spark는 GIL (Global Interpreter Lock)의 제약과 벡터화 연산을 쓰지 못 하는 기본 Pandas 모듈의 단점을 개선시킨 자체적인 Pandas 구현체를 탑재했다. pyspark.pandas라는 네임스페이스에 있다. Polars에서 구현되지 않은 기능을 사용해야 하나 기본 Pandas의 느린 성능에 발목 잡히는 대부분의 실무에서 쓰인다.

Apache Spark

1. 개요

2. 상세

분류