install.packages("sparklyr")
Installation du package R sparklyr
Installation de Java
Pour installer Spark, il faut d’abord installer Java.
java -v # vérifier que java n'est pas installé
sudo apt update
sudo apt install default-jre
sudo apt install default-jdk
Installer Spark
Toutes les dernières versions de Spark ne fonctionnent pas avec la dernière version de Java, d’où :
::spark_install(version = "3.1") sparklyr
Se connecter
<- sparklyr::spark_connect(master = "local")
sc ::spark_disconnect("sc") sparklyr
Pourquoi Spark ?
Essentiellement pour la modélisation sur des données volumineuses. Pour les manipulations simples il est semble beaucoup plus simple d’utiliser arrow, éventuellement en conjonction avec duckdb.
Citation
BibTeX
@online{boulakia2023,
author = {Boulakia, Théo},
title = {Spark},
date = {2023-10-21},
url = {https://tblk.github.io/data-tips/spark/},
langid = {fr}
}
Veuillez citer ce travail comme suit :
Boulakia, Théo. 2023. “Spark.” October 21, 2023. https://tblk.github.io/data-tips/spark/.