Programmazione SAS, fondamenti

Con questo articolo inauguro una nuova serie di articoli riguardanti le fondamenta di SAS.

Cos’è SAS?

SAS è l’acronimo di “Statistical Analysis System” ed è una suite di prodotti software che permettono di effettuare tutte quelle operazioni ricorrenti negli ambiti in cui si effettua l’analisi di grandi moli di dati.

Le componenti basilari di SAS sono le seguenti:

Base SAS Software, utilizzato per l’import e la gestione dei dati
SAS procedures software, per l’analisi, operazioni comuni sui dati ed il reporting
Macro facility, per estendere e personalizzare le applicazioni
DATA step debugger, il debugger utilizzato da SAS.
Output Delivery System (ODS), permette di effettuare l’output dei risultati ottenuti in SAS.
SAS windowing environment/SAS Studio, sono softtware che permettono di eseguire e testare le applicazioni sviluppate in SAS.

I contenuti di questa serie di Articoli

L’idea che c’è dietro questi articoli è di far comprendere al lettore cos’è un Software SAS, mostrarne le potenzialità, le fondamenta e qualche limite.
Non mi soffermerò dietro alle finezze o ai casi particolari in quanto tali, tenterò di concentrarmi maggiormente sulle istruzioni basilari e sugli aspetti come i vantaggi e gli svantaggi nell’utilizzo della piattaforma.

Le fondamenta  di un software SAS

I software SAS sono essenzialmente composti da due tipologie di istruzioni.

  1. Data step
  2. Proc Procedure

Il Data Step si utilizza in per creare nuovi Dataset o per effettuare degli output su file in formato testo.
Le Proc procedure effettuano operazioni su Dataset o permettono di effettuare operazioni di analisi e reportistica su essi.

Questa suddivisione già ci permette di capire come utilizzare SAS: importare dati, manipolarli e utilizzarli. È tutto qui: il focus sono i dati, il software permette di gestire molte fonti di input ed è in grado di catturare gran parte delle eccezioni e/o sfumature degli stessi.

Un semplice Data Step è il seguente:

data myContacts;
set SASHELP.contacts;
run;

Questo dataset è una copia speculare del dataset SASHELP.contacts all’interno del dataset myContacts.

Il dataset “contacts” si trova in un grande raccoglitore di dataset, ovvero una libreria,  che si chiama SASHELP.
Il dataset “myContacts” si trova in memoria, tale libreria si chiama Work ed è implicita.

Al termine della sessione SAS, tutto il contenuto della libreria Work viene eliminato.

Per stampare un dataset occorre eseguire una procedura di print, come segue:

proc print data=MYcontacts;
run;

Attenzione, SAS non è case sensitive, pertanto “MYcontacts” e “myContacts” sono due nomi che puntano alla stessa libreria.

Ogni istruzione termina con un “;”,  normalmente sia i Data step che le Proc terminano con l’istruzione “run”.

Fonti:

Dataset definition

Proc Print definition

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *