Diferencia entre revisiones de «Guía de campo de R»

De Wiki IMBIV
Saltar a: navegación, buscar
Línea 28: Línea 28:
 
Creemos importante comenzar la guía resaltando la importancia de que lo que se va a aprender es un lenjuaje y como tal es un proceso el cual esta asociado a una curva de aprendizaje (Fig. 1). Tener esto en mente, pensamos, debería de disminuir la ansiedad al tratar de comunicarse con R. También, en esta sección te compartimos cuatro simbolos básicos para comenzar a entender la sintaxis de R.
 
Creemos importante comenzar la guía resaltando la importancia de que lo que se va a aprender es un lenjuaje y como tal es un proceso el cual esta asociado a una curva de aprendizaje (Fig. 1). Tener esto en mente, pensamos, debería de disminuir la ansiedad al tratar de comunicarse con R. También, en esta sección te compartimos cuatro simbolos básicos para comenzar a entender la sintaxis de R.
  
 +
----
 
[[Image:curva de aprendizaje.png|800px|fig1]]
 
[[Image:curva de aprendizaje.png|800px|fig1]]
 +
----
  
 
{| class="wikitable" border="1"  
 
{| class="wikitable" border="1"  

Revisión del 20:20 2 dic 2013

portada


Con esta guía buscamos aportar los fundamentos básicos para utilizar R de la manera más eficiente. R es un programa con grandes capacidades, sin embargo, en esta guía nos enfocamos en el manejo de bases de datos y análisis básicos. En particular, como somos biólogos esta guía está sesgada al contexto de análisis de datos biológicos seguiendo la lógica de una guía de campo la cual, idealmente, debe ser concisa, liviana y bien ilustrada.

Para aquellos que comienzan a usar R, el manejo de bases de datos, modificar columnas y/o filas o la obtención de estadísticas básicas son uno de los principales retos. Muchas veces los principiantes se ven tentados a regresar a los viejos programas y dejan R para el momento de hacer análisis "sofisticados". Esta práctica es en realidad muy poco eficiente y cortoplacista ya que obtienes lo necesario en el momento pero dejas de lado el proceso de aprendizaje de un lenguaje que, a largo plazo, impactará en tu capacidad de análisis y creatividad. Otra ventaja importante, es que de la misma manera en la que comunicas ideas al escribir un libro o un artículo, puedes escribir los análisis usando R. Esto permite dejar un registro completo de los procedimientos que se siguieron, permitiendo repetir los análisis meses o años después, además de poder compartirlos con otras personas.

Esta guía está dirigida a aquellas personas que quieren comenzar a utilizar R o a aquellas personas que, como nosotros, siempre olvidan algunas funciones y quisieran tener una ayuda a mano. En especial pensamos en estudiantes de licenciatura y en aquellos que comienzan su posgrado pero también estamos seguros que hay varios investigadores consagrados que quisieran comenzar a usar este lenguaje.

La guía está estructurada siguiendo las etapas generales del análisis de datos tales como: ingreso de datos, modificación de bases de datos, estadísticos básicos, gráficos y modelos lineales. No pretendemos cubrir exhaustivamente diferentes análisis estadísticos sino brindar una guía básica para el proceso de análisis usando R.

Finalmente, R es un software libre que puede ser copiado, distribuido y modificado a voluntad, lo que permite generar nuevas rutinas y paquetes de análisis. Esto te convierte en participante del desarrollo científico y no en un simple cliente que condiciona su creatividad a la paga de una licencia de un software cerrado, el cual evoluciona independientemente de las necesidades del usuario. La utilización de programas como R es una oportunidad que instituciones de caracter público y en especial de países en desarrollo, no deben dejar pasar.

Esperamos que esta versión wiki de la Guía de Campo de R sea de utilidad para cualquiera que quiera comenzar a trabajar con este lenguaje y de manera especial esperamos contribuir a la formación de los estudiantes e investigadores del Instituto de Ecología de la Universidad Nacional Autónoma de México y del Instituto Multidisciplinario de Biología Vegetal de la Universidad Nacional de Córdoba - CONICET, las instituciones donde trabajamos. Por ser esta una versión wiki esperamos que sufra modificaciones con el tiempo y estamos abiertos a sugerencias, correcciones y adiciones de nuevos capítulos por parte de cualquier interesado en colaborar con esta tarea. Los contenidos de esta guía son de libre difusión citando la fuente.

Los autores
Diego Carmona
Santiago Benitez-Vieyra


INTRODUCCIÓN

Antes de empezar

Creemos importante comenzar la guía resaltando la importancia de que lo que se va a aprender es un lenjuaje y como tal es un proceso el cual esta asociado a una curva de aprendizaje (Fig. 1). Tener esto en mente, pensamos, debería de disminuir la ansiedad al tratar de comunicarse con R. También, en esta sección te compartimos cuatro simbolos básicos para comenzar a entender la sintaxis de R.


fig1


Cuatro símbolos básicos
#
#esto es una nota
El espacio a la derecha de este símbolo no es leído, por lo que sirve para poner anotaciones.
<-
a<-4+6
El símbolo asignar. Guarda el resultado de una operación dentro de un objeto llamado a en el ejemplo (el nombre es elegido arbitrariamente por el usuario). Si utilizo nuevamente ese nombre en una asignación (por ej a<-c(1:20)) el primer objeto se pierde. El símbolo = puede sustituir a <- (hay rutinas donde lo hacen así) pero esto podría resultar confuso en ciertos casos, por lo que no es recomendable.
?
?mean
?lm
??"linear models"
Si tienes duda sobre una función, puedes obtener información (poco amable, pero básica) usando el signo de interrogación. Si desconoces el nombre de la función que realizaría determinada acción, puedes hacer que R busque en todos los paquetes instalados usando ??
c
vector<-c(1,2,3,4)
vector<-c(1:4)
vector<-c(“a”,”b”,”c”,”d”)
vector<-c(“1”,”a”,”2”,”b”)
C concatena (pega) elementos, ya sea numericos, categoricos. Es una de las funciones más básicas.

Las ayudas para R

El símbolo ? sirve para acceder a las ayudas de cada una de las funciones de R, lo que requiere conocer el nombre de la función por anticipado. Cuando esto no sucede, la solución es sencillamente buscar el nombre del análisis que queremos hacer más “R” en internet (por ejemplo, “generalized linear models R”). En esta sección revisaremos las ayudas “oficiales” de R, las cuales pueden ser poco amigables. Sin embrago es crucial que utilices internet y que guardes las páginas que te resultaron útiles en una carpeta de marcadores o bookmarks en tu navegador. Algunas páginas de internet pueden ser de ayuda general, pero además existen muchas listas de correo donde los usuarios postean preguntas y respuestas. Casi siempre alguien ha tenido previamente el mismo problema que tu tienes, estas listas son el lugar ideal para buscar posibles soluciones.

Secciones de la ayuda de una función cualquiera.

  • función {paquete}

Esta parte identifica la función. El paquete debe estar cargado (ver sección 1.3) para que la ayuda funcione.

  • Description.
Breve descripción de lo que realiza la función. A veces es demasiado breve.
  • Usage.
Parte central de la ayuda. Toda función actúa sobre una serie de argumentos, los cuales se hallan encerrados entre paréntesis y separados por comas. En esta sección se enumeran todos los argumentos posibles (a veces es posible agregar argumentos adicionales no descriptos, en este caso se indica con puntos suspensivos). Estos argumentos se dividen en dos grupos, aquellos fijados en un valor por defecto (por ejemplo na.rm = FALSE, notar el símbolo igual) y aquellos que requieren que se especifique su valor (por ejemplo data). Estos últimos pueden ser optativos u obligatorios.
  • Arguments.
Descripción más detallada de los argumentos. Es muy importante que prestes atención al tipo de objeto (como marcos de datos, vectores, fórmulas o valores lógicos) que requiere cada argumento.
  • Value.
Especifica la salida de la función. En general cuando se realiza un análisis la función crea un objeto que guarda diferentes aspectos del resultado. Por ejemplo, si lo que realizamos es una regresión lineal y llamamos fit a nuestro análisis, los parámetros de la regresión estarán en fit$coeffcients, los residuales en fit$residuals, etc. Muchas veces no queremos conocer todos esos resultados, sino solamente un resumen. Esta actividad la realiza casi siempre la función summary.

Las funciones gráficas solamente crean o modifican gráficos, en general no tienen salidas que mostrar.

  • Author.
El autor o autores de la función.
  • References.
Posibles libros o trabajos donde hay ayuda sobre el análisis que realiza la función.
  • See Also.
Lista de funciones relacionadas.
  • Examples.
Otra sección importante. Si copias y pegas el ejemplo en la consola de R, verás como trabaja la función. Es importante notar que los autores de los ejemplos en general incluyen una simulación de datos (para evitar que la ayuda tenga un set de datos que haya que ingresar cada vez), y que esta simulación a veces es confusa para los principiantes. Debes concentrarte en la parte donde se ejecuta la función.


Páginas de ayudas generales en R.

http://www.r-project.org/
http://www.r-bloggers.com/
http://www.statmethods.net/index.html/
http://rwiki.sciviews.org/doku.php
http://r-forge.r-project.org/
http://finzi.psych.upenn.edu/nmz.html
http://www.rseek.org/