13 febbraio 2007

Excel 2007 e R(D)COM

Un aspetto interessantissimo della nuova versione di Excel è sicuramente il suo nuovo e più ampio limite in termini di "dimensione": 1,048,576 "righe" e 16,384 "colonne" (rispettivamente records e campi per un informatico, casi e variabili per uno statistico :-). Questi limiti, infatti, rendono sicuramente possibile l'utilizzo di excel come piattaforma di "base" per la gestione di dataset abbastanza grandi. Leggendo questa mia affermazione, un dataminer che lavora con SAS si farà una bella risata nel pensare alle dimensioni (in termini di records, campi e terabyte) dei dataset che lui stesso reputa grandi!!!!! Tuttavia il passaggio da 65,536 a 1,048,576 records aumenta di molto le possibilità di usare Excel come strumento di analisi di dati. Ovviamente non sto pensando a questo foglio elettronico come al motore di analisi del dato, ma sto considerando la possibilità di interagire, tramite R(D)COM, con il software R. Quest'ultimo, infatti, permette sicuramente la possibilità di ricorrere ad un elevato numero di librerie di "funzioni" che, a volte, mi sembrano più aggiornate e più affidabili di quanto sviluppato nei software commerciali.
Attualmente sto seguendo (sulla mailing list) le discussioni degli sviluppatori relative agli aggiornamenti di R(D)COM (o meglio, aggiornamento di RExcel) per una release compatibile con Excel 2007 e, ovviamente, non tarderà ad arrivare una versione stabile.
Infine, ma non per importanza, bisogna sottolineare che le possibilità di utilizzo di R ed Excel per dataset "grandi" (...e ancora una volta ci saranno sicuramente pareri discordanti...) sono direttamente dipendenti dalla macchina sui cui girano i dati. Le possibilità di sfruttare questi nuovi e più ampi limiti di Excel, infatti, sono legati ad un doppio processore e a macchine con ram più consistenti di quelle a cui siamo stati abituati fino ad ora.