Dans cette introduction à SAS Base, nous allons commencer à explorer le monde SAS, en commençant par le bloc de construction fondamental: le langage de programmation.
Il s’agit de la première leçon du cours de SAS Base, qui sera suivie par d’autres axées sur les différents aspects du langage d’analyse et d’exploration de données.
Présentation de SAS Base
SAS, un acronyme qui signifie Système d’Analyse Statistique, est l’un des outils logiciels les plus utilisés pour effectuer des analyses sur les données. La société, basée à Cary (Caroline du Nord), produit une grande variété d’outils logiciels, mais chacun d’entre eux repose sur son propre moteur de calcul: SAS Base.
C’est un vrai langage de programmation. Grâce à SAS Base, il est en effet possible de rendre automatique toute analyse statistique, et donc ré-exécutable.
Le langage est divisé en deux étapes logiques:
- Data Step — Vous permet d’effectuer des opérations ETL et de manipulation de données. Il s’agit notamment des opérations d’extraction, de transformation et de chargement des données;
- Proc Step — Encapsule toutes les procédures SAS (proc est l’abréviation de procedure). Parmi les procédures les plus utilisées, il y a par exemple le PROC PRINT, qui permet d’afficher à l’écran les n premiers enregistrements d’un dataset; le PROC SQL, qui permet d’exécuter du code SQL dans l’environnement SAS, etc.
Interface
L’interface graphique de SAS Base est minimale et propre. Il comporte deux panneaux principaux, le premier à gauche, nécessaires pour explorer les ressources provenant des SAS libraries ou du file system. Dans la seconde, celle qui occupe la majeure partie de l’écran, trois vues sont préchargées:
- Output — Ce panneau affiche les rapports, qu’ils soient graphiques ou tabulaires, des procédures effectuées.
- Log — Permet de vérifier la bonne exécution des procédures lancées
- Editor — Il s’agit d’un éditeur de texte intelligent, doté de fonctionnalités pratiques telles que la coloration syntaxique. Ici, vous pouvez saisir le code SAS que vous pouvez ensuite exécuter.
Un exemple
Commençons maintenant à mettre main au code, en développant un petit exemple qui nous sera utile pour explorer les premières fonctionnalités du data step. En fait, l’extrait de code suivant vous permet de charger un dataset en insérant les données un enregistrement après l’autre avec l’instruction datalines. L’exemple en question examine un dataset personnelles de 5 sujets, rapportant leur nom, prénom, sexe, âge, taille exprimé en centimètres et poids exprimé en kilogrammes.
Exécutons donq le code SAS suivant dans l’éditeur:
data people_registry;
input id name $ surname $ sex $ age weight height;
datalines;
1 Julia Smith F 29 56 172
2 Mark Ronson M 47 78 182
3 Patrick Lane M 33 69 177
4 Allie White F 45 62 189
5 Owen Peterson M 39 71 176
;
run;
Une fois que vous exécutez le code, le dataset SAS People_registry est disponible et peut être visualisé en cliquant sur le panneau de gauche au chemin Libraries > Work. Ici, nous trouverons notre table SAS chargée et visible comme indiqué ci-dessous.
Maintenant, pratiquons également l’utilisation des variables calculées dans une étape de données. On calcule donc l’Indice de Masse Corporelle (Body Mass Index) de chaque sujet, qui s’exprime en
Par conséquent, l’extrait de code SAS suivant prend le dataset people_registry en entrée et crée une nouvelle variable calculée bmi, qui calcule la valeur exprimée par la formule précédente.
data people_registry;
set people_registry;
bmi = weight / ( ( height / 100 ) ** 2 );
run;
Index des cours de base SAS
Pour vous faciliter la lecture du cours SAS Base, l'index comprenant tous les sujets abordés est présenté à la fin de chaque article.
- Presentation de SAS Base
- Instructions conditionnelles dans SAS Base
Téléchargements
- La version pdf de cet article : Introduction à SAS Base PDF
- Le fichier SAS utilisé dans cet article people_registry