bioinfo09

lunes, 7 de diciembre de 2009

NOTAS

Las notas de tarea 2, presentación y 1/2 de tarea 3, están en el cuadrito siguiente, junto con las ponderaciones que me parecieron cuerdas, y la nota final que resulta:

Pensaba dejar la segunda mitad de tarea 3 (3.3 y 3.4) como voluntaria/recuperativa, pero dado lo avanzado de la fecha, creo que más bien cerraremos aquí. Excepto quienes:

no hayan entregado alguna tarea: quedarían I hasta que me manden la tarea correspondiente; la nota de la tarea estaría en rango [0,70].
no hayan dado alguna prueba [sí, tú, Debora]: la opción (si gustas) es que hagas la tarea 3.3+3.4 y esa nota reemplace el 0 de la prueba.

En ambos casos, quedarían "I" hasta que envíen lo que corresponde (con tope máximo: 20 de marzo). IMPORTANTE: Avísenme pronto, porque el miércoles 9 tengo que poner las notas en el SIGA.

Observaciones de yapa:

Felicitaciones a Heck & Mella por el programa de la P2 de tarea 2.
Felicitaciones a Mella (again) por el bello ejemplo de filogenia (ritmos musicales).
No penalicé demora en entrega de la tarea 3, porque las demoras fueron chicas y los timestamps poco fiables.
Todavía me gustaría recibir las presentaciones que jamás se enviaron.

viernes, 20 de noviembre de 2009

Tarea 3.1 y 3.2

Los enunciados están linkeados en la barra de archivos (a la derecha). Plazo para 3.1 y 3.2: sábado 28/nov.

Les recuerdo que me manden las presentaciones (sólo tengo la de ensamblado & anotación, que subí aquí).

Subí también el ppt de redes booleanas; el applet que mostré, si les interesa, está aquí (y acompaña a este artículo).

miércoles, 11 de noviembre de 2009

Notas tarea 1

Felipe Ramirez: 97
Rodrigo Lisperguier: 100
Emilio Heck: 100
Lily Anguita: 95
Debora Olivares: 100
Ignacio Mella: 90

martes, 27 de octubre de 2009

Tarea 2

Aquí está finalmente la tarea 2; también la pueden ver en este pdf.

La pueden hacer sólos o de a pares [pero máximo pares, 3 es multitud].
Fecha de envío: lunes 9 de noviembre.
Consultas, por mail o posteando aquí (igual me entero vía mail).

TAREA #2

1.

a) Investigue y conteste. ¿Cuántos megabytes requiere la secuencia del genoma de un ser humano (admitiendo agrupar varias bases en un mismo byte, pero sin comprimir más allá de eso)? Si sólo nos interesan las secuencias que codifican proteínas (“CDS”), ¿cuántos megas necesitaríamos?

b) Tenemos un cierto gen (humano) y queremos escoger un trocito de él (un segmento de N bases contiguas) que sea único dentro del genoma completo. Suponiendo que las bases del genoma fuesen equiprobables e independientes, ¿cuál es el menor valor de N que nos garantizaría una probabilidad menor a 0.01 de encontrar la misma secuencia en otro punto del genoma? Explique su cálculo y detalle cualquier supuesto adicional que haga.

c) Pequeñas secuencias como la descrita en la parte anterior se usan en al menos dos tecnologías importantes, la PCR (reacción en cadena de polimerasa) y los microarrays. Averigüe qué son esas tecnologías y comente sobre la necesidad (o no) de unicidad de la secuencia en cada una.

2.

Programe en su lenguaje favorito. Necesitará (al menos) funciones que hagan lo siguiente:

Generar una secuencia aleatoria de 200 bases (A,C,G,T) equiprobables e independientes.
Una función que aplique una mutación a una secuencia; la mutación se escoge entre inserción, borrado y reemplazo de manera equiprobable, y su lugar de aplicación se elige al azar a lo largo de la secuencia. El borrado borra una letra, la inserción inserta una letra (equiprobable), y el reemplazo reemplaza una letra por cualquiera de las otras 3 (de manera equiprobable).
Una función que calcule la distancia de Levenshtein entre dos secuencias (implementando Needleman-Wunsch).

Con esas funciones, hará lo siguiente:

a) Generar una secuencia, y aplicar M mutaciones; para M entre 0 y 300, grafique la relación entre M y D, donde d es la distancia de Levenshtein entre la secuencia final y la secuencia inicial.

b) Genere una secuencia, clónela, y a cada copia aplíquele M mutaciones (de modo que tendrá dos secuencias crecientemente distintas). Grafique la relación entre M y D’, donde D’ es la distancia entre las dos secuencias que están mutando.

c) Genere 10.000 pares de secuencias (largo 200 c/u) y evalúe su distancia de Levenshtein; haga un histograma de la distribución de estos valores, y calcule media y .

d) Considerando (b) y (c), ¿por sobre qué valor de M diría usted que el parentesco entre las secuencias es indetectable?

3.
a) Siga programando en su lenguaje favorito. Esta vez, haga un programa que reciba una secuencia de DNA y encuentre en ella los 10 palíndromes más largos (un palíndrome es una palabra que se lee igual en orden inverso).

b) Aplíquelo al genoma de Methanococcus jannaschii; lo puede encontrar en aquí.

c) Sugiera una estrategia, basada en Smith-Waterman, para realizar esta tarea si nos interesaran palíndromes aproximados, donde se permitan reemplazos o inserciones.

4. Retome las 6 proteínas encontradas en la tarea 1 (los primeros 6 matches que les dio BLAST).

a) Alinee sus secuencias usando Clustal (www.clustal.org). Muestre el alineamiento. ¿Quedan alineados entre sí los segmentos que se alineaban con su nombre?

b) Corte, de cada secuencia, el segmento que se alinea con su nombre. Con las 7 secuencias, haga un alineamiento en Clustal.

c) Usando ese alineamiento, construya y dibuje (“a mano”, es decir, sin usar software de HMM) un HMM.

d) Determine la secuencia de estados internos más probable en ese HMM para emitir su nombre.

jueves, 22 de octubre de 2009

Temas y anuncio de tarea2

UPDATE: Ok, tenemos con tema 1 a Lily y Sebastián, con tema 2 a Rodrigo y Felipe, con tema 3 a Ignacio y Emilio; por descarte se asignaría el 4.

Hoy sólo llegaron 2 alumnos, y ambos formaron grupos, así que urge coordinar al resto con temas. La idea es que se formen 4 grupos (2 ó 3 personas c/u), y que cada grupo presente un tema en una de las próximas clases. Los temas son:

29/Oct: Filogenia. Es decir, construcción del "árbol familiar", a partir del alineamiento de un conjunto de secuencias.
5/Nov: Ensamblado y (principalmente) anotación: Cómo se pegan trozos de secuencia (obtenidos en laboratorio) para obtener un genoma, y cómo después distingo las CDS o RNAs codificados en él.
12/Nov: Estructura 2d y 3d. Principalmente de RNA y de modelos simplificados de proteínas.
19/Nov: Inferencia de redes regulatorias. Es decir, redes de interacción entre los genes (sólo las veremos vía modelos booleanos), y el problema de deducirlas desde datos de laboratorio.

De los temas 1 y 2 tengo ppts que se pueden usar como materia prima; para los otros tendrán referencia a materiales e indicaciones sobre qué incluir.

Rodrigo y Felipe ya tomaron el tema 2; me apura que alguien tome el 1 (y ahí enviaré material). Pueden mandar mail o comentar aquí en este post.

Ah, sobre tarea #2: la publico el lunes (para respetar la paz de semana sansana).

martes, 20 de octubre de 2009

Acuso recibo

Acuso recibo de tareas provenientes de F. Ramírez (ambas versiones), R. Lisperguier, E. Heck, I. Mella, L. Anguita y D. Olivares. Si llega alguna tarea atrasada aplicaré un factor de 0.9 por día transcurrido.

miércoles, 14 de octubre de 2009

Precisando la tarea #1

Ir a Blast en Genbank. Hacer una búsqueda de proteínas ("protein blast"), usando como "proteína" de consulta el nombre del alumno, limitado a los aminoácidos estándar (ACDEFGHIKLMNPQRSTVWY); por ejemplo, yo buscaría ANDRESMREIRA.

Tomen nota de la base de datos que usan y de los parámetros de la búsqueda (abajo en "Algorithm parameters"), de modo que yo pueda luego repetir sus querys.

Para el mejor match obtenido por la búsqueda:

- Muestre el dotplot entre su nombre (en la forma que se usó en la búsqueda) y un segmento de la proteína encontrada, que incluya el match.
- Muestre el alineamiento entre su nombre y el segmento de la proteína.
- ¿Qué función cumple la proteína? ¿Se sabe con certeza (base experimental), o es una hipótesis?
- El organismo en que la encontró: ¿qué es? (clasificación, descripción, imagen si existe)
- ¿Dónde y cómo está codificada la proteína? (Indique la ubicación de la CDS -"coding sequence"- de DNA que codifica la proteína, y acaso está en la hebra primaria o secundaria, si es continua o tiene interrupciones, etc.; incluya el código de acceso o URL de la secuencia de DNA)
- ¿Qué origen tienen los datos? (¿fue proyecto de secuenciamiento masivo? ¿Paper específico sobre el gen? ¿Estudio filogenético?)

Considerando ahora además los 5 matches siguiente (por lo tanto, 6 secuencias encontradas),

- ¿En qué organismos están? ¿Son especies cercanas a las del primer match?
- Dibuje el "árbol familiar" que muestre las relaciones entre los 6 organismos, de acuerdo a la información en Genbank.

Enviar por mail hasta el lunes 19 de octubre.