22 dicembre 2006

Google PageRank

L'anno scorso lessi un breve ed interessante manualetto sul fuzionamento di Google ed ora segnalo l'esistenza della seconda edizione.
L'argomento a cui ero molto interessato era il calcolo del PageRank (discusso nel libro in maniera generica e senza affrontare gli aspetti matematici e computazionali), ossia al voto che la rete stessa assegna ad ogni singola pagina Web. In parole povere (...ma molto povere visto che l'algoritmo di calcolo si basa sul concetto di processo di Markov...) il PageRank è una "somma pesata" del numero di link che rimandano alla pagina in questione, utilizzando come pesi dei "coefficienti di importanza e popolarità" del sito da cui parte il collegamento.
Tra tutto il materiale che ho letto in rete mi è piaciuto molto quello che ho trovato su
questo sito, in particolare la pagina relativa all'algoritmo di calcolo.
Per rendersi conto dell'importanza del PageRank basti pensare al fatto che la rilevanza di un sito in rete, secondo un mio parere personale, si misura ormai in base alla posizione che questo occupa nei risultati di una ricerca fatta su Google.

13 dicembre 2006

R commander e SciViews-R

Con questo post segnalo l'esistenza di alcuni progetti volti a creare una GUI per R , considerando che mi sembra che tale aspetto sia poco "pubblicizzato". Per un po' ho lavorato cercando di limitare il più possibile l'interfacca a linea di comando per testare quelli che dovrebbero essere i progetti più interessanti: R Commander e SciViews-R. R Commander è "semplicemente" una libreria da richiamare per poter poi usufruire di un'interfaccia grafica come aiuto nella gestione dei dati: importazione di un dataset, esecuzione delle più comuni procedure di analisi statistiche, esportazione dei dati. In base i miei gusti (anche se immagino che come me a molti non interessi), penso che come interfaccia non sia molto accattivante per quanto riguarda la sua veste grafica (aspetto da non sottovalutare da un punto di vista commerciale), ma le possibilità offerte sono veramente interessanti. In particolare, l'operazione più disincentivante nell'utilizzo di un software come R penso sia la semplice importazione della matrice di dati. Se lavorate, ad esempio, con un foglio excel che dovete importare in R per poi effettuare una analisi di regressione, vi scontrerete sicuramente con l'uso di read.table e dovrete stare attenti a precisare l'indirizzo a cui corrisponde il file da importare, il separatore, la presenza o meno di una riga di intestazione e soprattutto il separatore per i decimali!!!! (che per gli anglosassoni è il punto e per noi italiani la virgola; a proprosito, in excel evitate di usare il separatore delle migliaia se dovete importare in R). Tutta questa operazione va semplicemente eseguita (dopo aver richiamato la libreria R Commander: Rcmdr) con una serie di click in maniera sostanzialmente analoga a quanto avviene nei software commerciali. Infine, penso che l'altro aspetto importantissimo sia la possibilità di leggere il codice R corrispondente ad una qualunque procedura di analisi eseguita tramite l'ausilio dell finestre di Rcmdr (acquisendo padronanza con il linguaggio).Per quanto riguarda SciViews-R, credo che la sostanza non cambi, mentre cambia la veste grafica che mi sembra più interessante (ma ripeto, questo è forse un aspetto che non interessa). In particolare, segnalo che le procedure "guidate" di analisi dati si ottengono richiamando la stessa libreria Rcmdr (quindi ritorniamo sempre alle stesse finestrelle di cui sopra). Uno strumento sicuramente interessante è invece l' Object explorer che permette di osservare l'elenco di funzioni e dataset presenti in ogni libreria, con la possibilità di richiamare esempi associati alle stesse.Infine, un problema esistente attualmente ma che dovrebbe essere risolto è la versione di R. Alla data in cui scrivo la 2.4.0 è la versione più recente, mentre SciViviews-R "gira" correttamente con la 2.2.0. Sul sito è chiaramente indicato che la versione richiesta è la 2.2.0, ma nel manuale si legge <<...you must make sure you install at least R version 2.2.0..>>. Io comunque ho testato il tutto ed ho avuto una discussione via email con Philippe Grosjean: attualmente è necessario usare la 2.2.0, quindi ho risolto installando sial la 2.4.0 che la 2.2.0. Quest'ultima la uso solo quando avvio SciViews-R.
Comunque, concludendo, io continuo a lavorare con la linea di comando di R, richiamando Rcmdr ogni tanto, soprattutto per l'importazione dei dataset (è veramente comodo), mentre uso SciViews-R solo per richiamare l'esploratore di oggetti. Penso però che si tratti di strumenti utilissimi (soprattutto per chi è alle prime armi) da usare come guida di fronte alla necessità di eseguire un'operazione della quale non si conosce bene il codice in linguaggio R.