14 novembre 2006

MARS: multivariate adaptive regression splines

Tra le varie tecniche di analisi dati sviluppatesi ultimamente nell'ambito del data mining, in relazione al tanto noto problema di modellazione statistica con un numero elevato di variabili esplicative, segnalo i modelli MARS. A differenza di altre tecniche statistiche, inoltre, penso ci sia meno materiale in giro (in particolare in italiano). In questo mio articolo, comunque, non intendo affrontare l'argomento nello specifico, ma segnalare solo alcuni link dal quale trarre le giuste informazioni. La logica alla base del modello si sviluppa, anche in questo caso, nel mitico dipartimento di statistica della Stanford University. Ovviamente penso che la consultazione di tale sito sia d'obbligo per chi vuole essere aggiornato sugli sviluppi scientifici del data mining: si provi, tra i tanti, a dare un'occhiatina alla pagina di Jerome H. Friedman...Il rischio di "partire" con altre discussioni off topic è davvero elevato se si dovessere prendere spunto da tutto quello che ha scritto Friedman...Comunque, ritornando ai modelli MARS, ci sono tanti articoli liberamente scaricabili a questo indirizzo. Potete notare che il materiale deriva dal sito della Salford System, società americana che produce software per sviluppo di analisi di data mining. Non a caso, la società collabora con i big della Stanford University (...non ho ben capito che legame ci sia tra l'università e l'azienda, comunque nel sito dell'università non sono pochi i link che rimandano alla Salford System...). In Italia non vi sono sedi di tale società, ma il software è ad esempio distribuito dalla TStat. Comunque, tornando ai modelli MARS, penso che per la comprensione a fondo dell'argomento sia anche qui necessaria una buona preparazione di matematica, infatti come lo stesso Friedman dice : ...the procedure is implemented by constructing a set of (globally defined) basis functions that span the space of qth order approximations... (in particolare, con tale frase ci si riferisce alle funzioni spline, e a tal proposito un seggerimento lo trovate qui). Infine, voglio riportare una frase molto significativa di Friedman, sottolineando che sulla curse of dimensionality (maledizione della dimensionalità) potete trovare un bel paragrafo nel libro di Azzalini-Scarpa: Analisi dei dati e data mining. Penso che sia un ottimo libro in lingua italiana sul data mining, ma il livello è sicuramente introduttivo. Dimenticavo :-), ecco la frase di cui parlavo:...the direct extension of piecewise parametric modeling to higher dimensions (n > 2) is straightforward in principle but difficult in practice. These difficulties are related to the so called “curse-of-dimensionality,” a phrase coined by Bellman (1961) to express the fact that exponentially increasing numbers of (data) points are needed to densely populate Euclidean spaces of increasing dimension. In the case of spline approximations the subregions are usually constructed as tensor products of K + 1 intervals (defined by K knots) over the n variables. The corresponding global basis is the tensor product over the K + q + 1 basis functions associated with each variable (6). This gives rise to (K + q + 1)^n coefficients to be estimated from the data. Even with a very coarse grid (small K), a very large data sample is required... . Per quanto riguarda la possibilità di implementare un tale modello con strumenti open source, per fortuna che c'è R. Nell' mda Package è disponibile la funzione mars, tuttavia lo stesso autore sottolinea che si tratta di una procedura ancora in fase di test (...svantaggi dell'essere gratis????.... :-)

11 novembre 2006

aritmetica floating point

Spesso mi è capitato di riflettere sull'importanza dell'utilizzo del calcolatore in un contesto lavorativo in cui si analizzano dati. La cosa sorpendente è come la gestione di questi possa avvenire (...entro certi limiti...) senza interrogarsi affatto su quello che accade a livello di linguaggio macchina.Allo stesso tempo, comunque, spinto dal desiderio di capire a fondo le modalità di risoluzione di un problema da parte di un eleboratore, mi sono imbattuto in alcuni testi di calcolo numerico. A tal proposito penso che il corso di laurea in Scienze Statistiche debba necessariamente prevedere un esame in tale ambito, essendo oggi giorno fondamentale per uno statistico capire quello che accade "dietro le quinte" del calcolatore. Allo stato attuale, invece, mi sembra che ciò non accada nelle facoltà italiane di statistica (ma probabilmente è solo una mia impressione sbagliata).Lo studio dell' aritmetica floating point, quindi, è fortemente consigliata. Tra i vari testi che in passato ho utilizzato mi permetto di consigliarne uno introduttivo ed abbastanza semplice:Fondamenti di Calcolo Numerico - G. Monegato - Levrotto&Bella.In particolare, il primo capitolo consiste in un'introduzione chiarissima alla rappresentazione dei numeri in un calcolatore, al condizionamento di un problema e alla stabilità di un algoritmo.Tra il materiale free (in italiano, altrimenti ce n'è una marea) disponibile in rete, invece, segnalo questo e quest'altro.Sempre nel testo di Monegato (...giacché ci troviamo, sperando di non essere off topic... :-) consiglio fortemente anche la lettura del capitolo 5 che riguarda, invece, l'approssimazione di dati e di funzioni. Noi statistici, infatti, siamo continuamente di fronte alla necessità di costruire un modello matematico che descriva sufficientemente bene un insieme di "punti". Gli argomenti trattati in questo capitolo, infatti, possono essere visti come introduzione di taglio matematico ai metodi di analisi dei dati che, in maniera molto generale, mi piace vedere come capitoli del data mining (si pensi, ad esempio, all'interpolazione polinomiale di Lagrange e alle funzioni spline).

05 novembre 2006

Basilea 2



Per chiunque fosse interessato a Basilea 2, il nuovo accordo internazionale sui requisiti patrimoniali delle banche, vi segnalo un buon libro uscito da poco per la FrancoAngeli:Basilea 2: diagnosi e terapie. Guida pratica per le imprese di Marco Muscettola.
Ovviamente :-)))), tra i contributi al libro di altri autori, segnalo il mio, ossia il capitolo in appendice sul rischio di redito. In esso ho cercato di riassumere i concetti di incertezza, rischio e previsione, soffermandomi sui metodi di gestione del rischio di credito e sui metodi di credit scoring a supporto delle decisioni di affidamento.

04 novembre 2006

una breve premessa

Un po' di info su le trovate su linkedin. Se volete, potete contattarmi su micheledemeo-gmail-com.