Spark

Installation de spark, sparklyr
Installer
Auteur·rice
Date de publication

21 octobre 2023

Modifié

3 septembre 2024

Installation du package R sparklyr

install.packages("sparklyr")

Installation de Java

Pour installer Spark, il faut d’abord installer Java.

java -v # vérifier que java n'est pas installé
sudo apt update
sudo apt install default-jre
sudo apt install default-jdk

Installer Spark

Toutes les dernières versions de Spark ne fonctionnent pas avec la dernière version de Java, d’où :

sparklyr::spark_install(version = "3.1")

Se connecter

sc <- sparklyr::spark_connect(master = "local")
sparklyr::spark_disconnect("sc")

Pourquoi Spark ?

Essentiellement pour la modélisation sur des données volumineuses. Pour les manipulations simples il est semble beaucoup plus simple d’utiliser arrow, éventuellement en conjonction avec duckdb.

Citation

BibTeX
@online{boulakia2023,
  author = {Boulakia, Théo},
  title = {Spark},
  date = {2023-10-21},
  url = {https://tblk.github.io/data-tips/spark/},
  langid = {fr}
}
Veuillez citer ce travail comme suit :
Boulakia, Théo. 2023. “Spark.” October 21, 2023. https://tblk.github.io/data-tips/spark/.