Outro dia, em virtude da participação da minha namorada [Aline](http://slewofreluctance. blog blog journal spot.com) no vestibular da UFRJ, descolei do site da Folha Dirigida os dados completos com todos os alunos e as notas da UFRJ. Interessava-nos ver em que percentil do total do concurso ela estava, de modo a obter uma estimativa da probabilidade dela passar.
Para o primeiro passo — um histograma — o add-in de Análise de Dados do Excel foi o suficiente. Mas quando quis fazer uma matriz de correlações, as coisas se tornaram mais complicadas — principalmente considerando que era uma base com mais de 50 mil observações. Decidi, então, aprender de uma vez por todas a usar o GNU R, um belíssimo sistema de computação estatística open-source, carregadíssimo de recursos, fortemente extensível e numericamente muito rápido. A partir do exemplo da UFRJ, discutiremos aqui como fazer análises simples e orientar-se no software — um conhecimento de bom valor para quem trabalha com massas de dados.
Abrindo os dados
O primeiro passo é importar os dados para o ambiente do R. Faremos isto com o seguinte comando:
> ufrj< -read.table("ufrj.csv", header=TRUE, sep=",")
A função read.table() retorna um objeto, que armazenamos em ufrj. Os dados consistem de uma tabela contendo matrícula, nome, oito notas (Port, Red, L.E., Hist, Geo, Quim Bio, Fis , Matem) e a Soma dessas oito notas.
Para acessar os dados com maior naturalidade, é interessante que possamos nos referir às notas pelo seu nome, no lugar da coluna que ocupam na tabela ufrj. Isto é feito com o comando attach:
> attach(ufrj)
Histograma e análise de quantil
Montar os histogramas é simples agora. Como todos os comandos, hist tem diversas opções, que podem ser consultadas com o comando help(hist), mas é simples usá-lo da forma mais comum, dizendo simplesmente
> hist(Soma)
{ ℘ continues here. }
{ 300 words, 1 image, estimated 1:12 mins reading time)}