TP 10. Predicción de Desorden
Slides mostrados en la clase
PARTE I: Predicción de Desorden
Recursos online
- ProViz http://slim.icr.ac.uk/proviz/
- IUPred2A https://iupred2a.elte.hu/plot
- DisProt https://www.disprot.org
Objetivos
- Interpretar alineamientos múltiples de secuencias
- Identificar regiones ordenadas y desordenadas en alineamientos múltiples de secuencia
- Familiarizarse con la base de datos DisProt
- Entender las técnicas experimentales que permiten la identificación de regiones desordenadas
- Familiarizarse con distintos métodos de predicción de desorden (sólo en ejercicios adicionales)
- Interpretación de los resultados de los distintos métodos de predicción de desorden (sólo en ejercicios adicionales)
Métodos de predicción de desorden
Uno de los mayores desafíos en el campo de las proteínas es la predicción de la estructura tridimensional a partir de la estructura primaria incluyendo aquellas proteínas que son total o parcialmente desordenadas. Mientras que las proteínas globulares adquieren una única estructura nativa, las proteínas intrínsecamente desordenadas (IDPs, del inglés intrinsically disordered proteins) son un conjunto de estructuras tridimensionales. También pueden existir regiones desordenadas conectando dos dominios globulares, como los loops; o incluso regiones más largas, que abarcan más de 30 residuos de longitud, que reciben el nombre de IDRs (del inglés intrinsically disordered regions).
En el año 2020, AlphaFold2 gana la competición de predicción de estructuras (CASP14) con un amplio margen prediciendo estructuras con muy alta precisión. Sin embargo, aún la predicción de un conjunto de estructuras para proteínas desordenadas no se ha resuelto.
La predicción de IDRs/IDPs a partir de la secuencia de aminoácidos permite un análisis rápido y abarcativo de distintas proteínas permitiendo establecer hipótesis sobre la presencia de desorden en las proteínas (Dunker et al., 2008; van der Lee et al., 2014). La importancia que adquirieron las IDRs/IDPs en los últimos años llevó al desarrollo de numerosos métodos de predicción, pero en general se basan en tres estrategias de predicción de desorden:
- a partir de composición de secuencia,
- a partir de machine learning sobre estructuras determinadas por cristalografía de rayos X y
- a partir de meta-predictores que integran los resultados predichos por diferentes métodos.
Entre los algoritmos que se basan en composición de secuencia podemos nombrar IUPred (Dosztányi et al., 2005; Erdös et al., 2021), que aplica un campo de energı́a desarrollado a partir de un gran número de proteínas con estructura determinada obtenidas de PDB. El primer algoritmo en machine learning fue PONDR (Obradovic et al., 2003; Romero et al., 1997), entrenado a partir de un grupo estructuras de proteínas globulares y atributos de secuencia asociados a residuos no resueltos en dichas estructuras, que corresponden a regiones flexibles dentro del cristal. GlobPlot (Linding et al., 2003) fue entrenado estudiando la tendencia de un residuo a adquirir determinada estructura secundaria, hélices α o láminas β.
Ejercicios
Ejercicio 1. Visualización de Alineamientos en ProViz
Antes de empezar, piensen ...
¿Porqué es importante visualizar un MSA?
¿Qué información podemos obtener de los MSA?
ProViz es una herramienta que permite visualizar alineamientos y estructura de dominios de una proteína online. Ingresa a la web de ProViz http://slim.icr.ac.uk/proviz/, y busca la proteína p53 ingresando su Accession Number en la ventana “search” (Accession Number: P04637):
Selecciona la proteína que se llama: Cellular tumor antigen p53 (TP53) Homo sapiens (Human). Es la primera de la lista.
IMPORTANTE
Para responder las preguntas debajo, asegúrate de que en el panel superior de la página, en alignments, esté seleccionada la opción QFO. (Puedes investigar qué pasa si cambian a otras opciones, como mammalian o vertebrates).
En Options a la izquierda haz click en Show/hide gaps. Aparecen más posiciones con gaps en el alineamiento que antes estaban ocultas.
1.1. ¿Qué regiones parecen estar mejor alineadas (indicar aproximadamente de qué posición a qué posición de la primera secuencia)?
1.2. ¿Existe diferencia en la composición de secuencia entre las regiones mejor alineadas y las no tan bien alineadas?
1.3. ¿Se observan diferencias en el grado de conservación de estas regiones?
1.4. ¿A qué pueden deberse las diferencias observadas?
Ejercicio 2. Predicción de desorden a partir de la secuencia
Ingresa en la web de IUPred2A https://iupred2a.elte.hu e ingresa la proteína p53 (puede ingresarse la secuencia de aminoácidos, el Uniprot ID - P53_HUMAN o el accession number - P04637).
Score IUPred
El algoritmo IUPred brinda una puntuación. En general se considera que un residuo es:
- Desordenado cuando el valor de IUPred es mayor o igual a 0.5
- Ordenado cuando es menor a 0.5
Nota: Esta es una convención. El umbral lo puede decir el usuario a su propia conveniencia.
2.1. Anota las posiciones iniciales y finales de las regiones predichas como desordenadas.
- ¿Se correlacionan las regiones predichas como ordenadas o desordenadas con las diferencias observadas en el ejercicio anterior?
2.2. Imaginemos que queremos correr la predicción de desorden para cientos de proteínas, o que queremos contar el porcentaje de aminoácidos que se encuentran en regiones desordenadas:
- ¿Le parece que el visualizador online sería una herramienta útil para hacerlo?
¡Claro que no! Por suerte, el algoritmo IUPred puede también correrse de manera local y además es rápido. Para hacer esto, primero descarguen IUPred desde este link.
Abre una terminal, descomprime el archivo iupred2a.tar.gz
y ve al directorio dónde está IUPred
cd ~/Tools/IUPred/
# Primero corremos IUPred sin ninguna opción para ver cómo es su uso:
./iupred2a.py
Usage: ./iupred2a.py (options) (seqfile) (iupred type)
Available types: "long", "short", "glob"
Options
-d str - Location of data directory (default='./')
-a - Enable ANCHOR2 prediction
El archivo con la secuencia de p53 (P53_HUMAN.seq
) está guardado en el mismo directorio que IUPred. En base a esto, el comando a utilizar es el siguiente
./iupred2a.py -a P53_HUMAN.seq long > P53_HUMAN_long.iupred
2.3. Explora el archivo generado (P53_HUMAN_long.iupred
) y responde.
- ¿Cómo es el formato de los datos?
- ¿Las columnas tienen nombre? ¿Serán interpretadas correctamente por R?
2.4. Crea un script en R.
Para esto, abre RStudio y elije:
New → RScript
Recuerda ver en qué directorio estás trabajando y configurarlo para trabajar en el directorio deseado, por si no lo recuerdas las funciones eran:
getwd()
: Devuelve el directorio de trabajosetwd()
: Configura el directorio de trabajo
2.4a. ¡A cargar los datos!
¿Te acordás cómo se hacía?
Se utilizaba la función fread()
. Vamos a modificar algunos argumentos para que lea correctamente el archivo. Si querés saber qué es cada argumento siempre se puede revisar el uso de las funciones con help(fread)
library(data.table)
fileIN <- "~/Tools/IUPred/P53_HUMAN_long.iupred"
header <-c("Posicion","Aminoacido","Iupred","Anchor")
p53 <- fread(file=fileIN, header=T ,sep="\t", col.names=header, skip="POS")
2.4b. Ahora quisiéramos clasificar las posiciones en pase a la predicción realizada por IUPred como Orden y Desorden.
¿Se te ocurre cómo hacerlo?
Primero crearemos una columna en el data.table:
umbral <- 0.5
p53$Prediccion <- ""
p53[Iupred>=umbral]$Prediccion <- "Desorden"
p53[Iupred<umbral]$Prediccion <- "Orden"
Para obtener un gráfico similar al que brinda el servidor de IUPred, utilizaremos la librería ggplot2
:
library(ggplot2)
plot_p53 <- ggplot(p53,aes(x=Posicion,y=Iupred)) +
scale_x_continuous(n.breaks = 20,expand = c(0.01,0.01)) +
scale_y_continuous(n.breaks = 10,limits = c(0,1),expand = c(0,0.01)) +
geom_line(color="navyblue") +
geom_point(aes(color=Prediccion)) +
geom_hline(yintercept = 0.5,lty="dotted",size=1) +
theme_linedraw()
plot_p53
Debería obtener un gráfico como el siguiente:
Ahora, quisiéramos evaluar el porcentaje de residuos predichos ordenados y desordenados. Por suerte, R tiene una función que “cuenta” por nosotros:
cuentaTotal <- table(p53$Prediccion)
porcentaje <- 100*cuentaTotal/length(p53$Posicion)
print(cuentaTotal)
print(porcentaje)
2.4c. En base a los valores obtenidos, ¿diría que la proteína p53 es altamente desordenada?
2.4d. Ahora analizaremos la composición de aminoácidos de p53.
Pero antes:
Según lo que vieron en la teórica:
- ¿Qué residuos espera ver enriquecidos en las regiones desordenadas y cuales en las ordenadas? ¿Por qué?
Vamos a graficar el porcentaje de cada aminoácido predicho como ordenado o desordenado en la secuencia de p53
aminoacidos <- table(p53$Aminoacido,p53$Prediccion)
print(aminoacidos)
- ¿Qué hizo la función
table
en este caso?
Para calcular el porcentaje de aminoácidos:
aminoacidos_porcentaje <- 100*aminoacidos/length(p53$Posicion)
Ahora vamos a convertir la tabla en un data.table para graficar con ggplot2
:
aminoacidos_df<-as.data.table(aminoacidos_porcentaje)
colnames(aminoacidos_df) <- c("Aminoacidos","Prediccion","Porcentaje")
plot_aa <- ggplot(aminoacidos_df,aes(x=Aminoacidos,y=Porcentaje,fill=Prediccion)) +
geom_col(position = "dodge") +
scale_y_continuous(n.breaks = 10,limits = c(0,10),expand = c(0,0.01)) +
theme_bw()
ggsave(filename="aminoacidos.png",plot=plot_aa,device="png",dpi=150,width=10,height=5,units="cm")
- ¿Qué aminoácidos son los más abundantes en las regiones desordenadas? ¿La abundancia de los aminoácidos coincide con lo esperado?
2.5. Por último, vuelva a correr IUPred pero con la opción short
en lugar de long
.
./iupred2a.py -a P53_HUMAN.seq short > P53_HUMAN_short.iupred
Utilizando el script de R creado anterior grafique el score de IUPred por posición, y responda:
- ¿Se mantiene la predicción de regiones ordenadas y desordenadas?
- ¿Cuáles son las diferencias principales con el gráfico de IUPred long para p53?
PARTE II: Base de Datos Disprot
La base de datos DisProt es una colección de evidencia de desorden experimental recolectada de la literatura y curada manualmente. La evidencia corresponde a una región proteica, e incluye por lo menos:
- un experimento,
- el artículo científico correspondiente a ese experimento,
- el inicio y final de la región desordenada en la secuencia proteica
- un término de anotación que corresponde a la Ontología de desorden.
Cada una de las entradas en la base de datos posee un identificador único
La ontología de desorden está organizada en tres categorías diferentes:
- Estado estructural (Structural State): Orden o Desorden (Order or Disorder)
- Transición estructural (Structural Transition): Transiciones que pueden ocurrir entre diferentes estados estructurales (Disorder to order)
- Función de desorden (Disorder Function): La función de una región incluyendo términos específicos a desorden.
En Disprot también se incluye la función molecular Molecular function de cada región.
Ejercicio 1. Base de datos DisProt
La proteína p53 es una proteína supresora de tumores, es decir que su mutación favorece el crecimiento tumoral. p53 es uno de los genes más mutados en el cáncer humano, y actúa como un factor de transcripción que se expresa en todos los tejidos. Cumple un rol principal en el ciclo celular y es el regulador principal de la apoptosis. Es esencial para inducir la respuesta celular ante el daño al ADN, deteniendo el ciclo celular cuando las células no pueden reparar el ADN dañado por agentes genotóxicos. Si falla p53 podrían facilitar la formación de tumores celulares y en consecuencia producir cáncer. Alrededor de un 50% de los tumores humanos identificados poseen mutaciones en la proteína p53. Esta proteína, por su importancia para la salud humana, es una de las proteínas más estudiadas en cuanto a su estructura y función.
Ingresa a la página web de DisProt y encuentra la proteína p53 (P04637). La búsqueda puede realizarse utilizando el Accession Number o por palabras claves. El identificador de DisProt que deberían encontrar es DP00086. Una vez encontrado haz click en el identificador de Disprot.
1.a. Si Disprot consensus está colapsado, expandelo:
- ¿Qué tipo de información observa en la página?
1.b. Expande Structural state y luego expande Disorder:
- ¿A qué corresponden los segmentos coloreados?
- ¿Qué tipo de evidencia poseen dichos fragmentos?
1.c. Pensando en el rol de las regiones desordenadas.
1.c.i. Expande Molecular Function:
- ¿Qué tipo de funciones están indicadas para cada región?
- ¿Qué técnicas se usaron para identificarlas?
1.c.ii. Expande Disorder Function:
- ¿Qué tipo de funciones están indicadas?
- ¿Cuántos experimentos y que tipo de técnicas se realizaron para identificar cada una?
1.d. Observa la línea que corresponde a InterPro.
Interpro
Es un consorcio de bases de datos de proteínas que provee un análisis funcional de proteínas clasificándolas en familias y prediciendo dominios y sitios importantes.
Entre todas las bases de datos incluye a Pfam.
La base de datos Pfam es una colección de familias de dominios de proteínas construida en base a alineamientos múltiples de secuencia y modelos ocultos de markov (HMMs). Las proteínas están compuestas por una o más regiones funcionales o dominios, que combinados de distintas maneras crean la diversidad proteica que se encuentra en las proteínas naturales.
En base a esto, responda:
-
¿Por qué es necesario identificar dominios en las proteínas?
-
¿Pfam identifica dominios globulares?
-
¿Cuántos dominios predichos muestra InterPro?
-
¿Está de acuerdo según lo observado con esa predicción?
-
¿Cuántos de estos dominios NO adquiere una estructura globular?
1.e. ¿La evidencia experimental recolectada coincide con las predicciones realizadas en el Ejercicio 1 y en el Ejercicio 2 de la Parte I?
PARTE III: Análisis de alineamientos múltiples de secuencia de proteínas - Visualizando alineamientos con JalView
Software
- JalView: https://www.jalview.org/
Objetivos
- Aprender a utilizar Jalview para visualizar un MSA y familiarizarse con el manejo de programas de visualización de alineamientos.
- Interpretar alineamientos múltiples de secuencias. Identificar regiones de secuencia conservadas y asociarlas a diferentes elementos funcionales de las proteínas.
- Visualizar y analizar los patrones de sustitución aminoacídica encontrados en proteínas modulares. Correlacionar con sus conocimientos sobre matrices de sustitución
Ejercicios
JalView, software de visualización de alineamientos
Para poder visualizar alineamientos múltiples de secuencias (MSA, de sus siglas en inglés: Multiple Sequence Alignment) utilizaremos el visualizador de alineamientos JalView desarrollado en JAVA. Jalview permite generar alineamientos, manipularlos, editarlos y anotarlos. Tiene una interfaz que permite acceder remotamente numerosas herramientas como programas para realizar alineamientos múltiples de secuencia y predictores de estructura secundaria. A lo largo de la guía de ejercicios, introduciremos este programa usandolo para visualizar alineamientos múltiples de secuencias (MSAs) de proteínas modulares y discutir características de secuencia asociadas a los dominios y motivos funcionales encontrados en las proteínas.
JalView es un programa que se ofrece de manera gratuita, y está disponible para descargar e instalar en tu propia computadora en https://www.jalview.org/
Existen un alto número de guías y tutoriales disponibles online que pueden encontrar en: https://www.jalview.org/training
Los desarrolladores de JalView crearon numerosos videos de entrenamiento disponibles en el Canal de YouTube de JalView
Ejercicio 1. Usando JalView para analizar un MSA de p53
1.1. Abre Jalview
Para abrir Jalview vayan al directorio: ~/Tools/Jalview/
y corran el archivo jalview.sh
:
bash jalview.sh
Abran en Jalview el conjunto de secuencias de p53 que se encuentra en el archivo p53.fasta
:
File → Input Alignment → From File
1.2. Para realizar el alineamiento utilizaremos el programa Clustal, al cual accederemos de manera remota desde JalView de la siguiente manera:
Web Service → Alignment → Clustal → With defaults
Si no llegara a funcionar, pues Internet, Virtualidad, la vida... Tienen las secuencias ya alineadas en el archivo p53_aligned.fasta
1.3. Inspecciona el alineamiento visualmente y reconoce algunas características de las secuencias. Si no se muestran todos los residuos y algunos aparecen como .
ve a:
Format → Show Non-Conserved
1.3a. Algunas secuencias son más cortas que otras ¿por qué crees que es esto?
1.3b. ¿Si quieren construir un alineamiento de alta calidad, preservarían o descartarían estas secuencias?
1.3c. Remuevan las secuencias que no corresponden a proteínas completas. Para ello seleccionar las secuencias haciendo click sobre el nombre de la misma en el panel izquierdo, la secuencia se marcará con una caja roja punteada. Remover la secuencia seleccionada utilizando la tecla Backspace o Del
1.3d. ¿Existen regiones del alineamiento que no estén alineadas correctamente?
Para editar el alineamiento, primero asegurate de realizar:
Select → Deselect All
Eliminar gaps: Seleccione con el mouse el gap o arrastrando sobre el grupo de gaps que desea eliminar y presione o Backspace o bien Del
Agregar gaps: Presione F2. En la primera posición del alineamiento en la primera secuencia aparecerá un cursor de color negro. Colóquelo en la posición donde desee ingresar un gap y presione la barra espaciadora.
Ejercicio 2. Análisis de distintas propiedades del MSA utilizando el menú COLOUR.
Este menú permite colorear el alineamiento con diferentes paletas de colores que permiten visualizar determinadas características fisicoquímicas o relacionadas con la conservación o identidad de secuencia que facilitan el análisis de la información contenida en el MSA.
Por ejemplo: Percentage identity colorea los residuos según el porcentaje de identidad en la columna. Hydrophobicity colorea los residuos según el grado de hidrofobicidad.
También es posible disminuir la intensidad de los colores según el grado de conservación (By conservation) o filtrar los colores según el porcentaje de identidad (Above identity threshold) a partir de un umbral deseado.
2.1. Seleccione para colorear el alineamiento desde el menú la opción:
Colour → Clustalx
Este esquema es muy comúnmente utilizado para la visualización de MSAs y permite representar información importante contenida en los patrones de sustitución de un MSA.
Observando el alineamiento intente identificar:
2.1a. ¿Cuál es la base del esquema de color “ClustalX” provisto por Jalview? Nota: Google provee respuestas pero... pueden ir directamente al esquema de colores de ClustalX
2.1b. ¿Cuántos colores existen?
2.1c. ¿Qué propiedades fisicoquímicas representa cada grupo de color?
2.1d.. La cisteína cumple un rol estructural importante en algunas proteínas (¿cuál?).
- ¿Qué observa respecto de la coloración de la cisteína? ¿Es siempre igual?
- ¿A qué se debe el cambio en la representación?
En ProViz la cisteína estaba siempre coloreada del mismo color, pero en el esquema de colores de ClustalX no lo está.
2.1e. ¿En qué situaciones los residuos no están coloreados?
2.1f. Hay residuos que siempre están coloreados? ¿Cuáles son y a qué cree que se debe?
2.2. Manteniendo el esquema de color Clustal, es posible filtrar regiones de acuerdo al % identidad en el alineamiento múltiple. Para ello, aplique el filtro de identidad yendo a:
Colour → Above identity threshold
Se abrirá una ventana en la cual podrá seleccionar el % identidad del filtro en escala de 0 a 100%. Explore los cambios en todo el alineamiento al variar la escala de 0 a 100%.
Utilizando el filtro, respondan:
2.2.a. ¿Qué regiones muestran una identidad de secuencia mayor al 80% en el MSA de p53? ¿Y al 100%?
Anote los límites de estas regiones y responda: ¿Qué correlación observa con la información obtenida de Pfam?
Con la identidad al 80%, observe en las columnas del MSA que sustituciones ocurren. Estas susticiones son un reflejo de la historia evolutiva de la proteína y contienen mucha información funcional.
Observando detenidamente, responda:
2.2.b. ¿Qué tipos de sustituciones observa?
2.2.c. ¿Qué relación guardan estas sustituciones con las matrices PAM y BLOSUM utilizadas para construir alineamientos de proteínas?
2.2.d. En base a este alineamiento analice las regiones desordenadas y ordenadas ya reconocidas en p53. Compare sus observaciones en este alineamiento con el alineamiento visualizado en ProViz en el Ejercicio 1 de la PARTE I.
- ¿Puede distinguir las mismas regiones?
- ¿Ve diferencias en la composición de secuencia en cada región entre los dos alineamientos?
- ¿Se observan diferencias en el grado de conservación entre los dos alineamientos?
- ¿Las especies a las que corresponde cada secuencia son las mismas en los alineamientos? ¿Cuál posee organismos más distantes?
- Discuta qué ventajas considera que tiene trabajar con un alineamiento propio respecto de trabajar con el alineamiento de ProViz.
Ejercicios Adicionales de Desorden
Ejercicio Adicional 1. Búsqueda de regiones funcionales dentro de las IDPs, usando como ejemplo la proteína p53.
Objetivos
- Familiarizarse con la identificación de sitios de unión en IDPs
- Interpretación de los resultados de los distintos métodos.
Muchas proteínas desordenadas ejercen su función uniéndose a una proteína globular, mediante una transición de desorden a orden. ANCHOR es un algoritmo para predecir sitios de unión en proteínas desordenadas buscando identificar segmentos que residen en regiones desordenadas y no forman interacciones intracatenarias suficientes que favorezcan el plegado por sí mismas, pero sí logran estabilizarse al interactuar con una proteína globular.
-
Ve a la web de IUPred. https://iupred2a.elte.hu
-
Ingresa la proteína p53 (P53_HUMAN), asegúrate que la opción ANCHOR en Context-dependent predictions esté seleccionada.
- ¿Cuántas regiones de interacción identifica ANCHOR?
-
La base de datos IDEAL se enfoca en IDRs que adoptan una estructura 3D al unirse a sus pares proteicos y se los llama Protean Segments (ProS), que se definen cuando la información estructural y no desestructural existen. Hay otros conceptos similares a los ProS que difieren en la definición, como por ejemplo, los Molecular recognition features (MoRFs), que tienen una limitación de longitud de 70 residues y los motivos lineales eucarióticos que son expresados por expresiones regulares.
Ingresa a la base de datos IDEAL https://www.ideal-db.org/ y busca la proteína p53 (P53_HUMAN, P04637). ¿Qué regiones están involucradas en la formación de complejos?
Prestando atención a la región C-terminal:
- ¿A cuántas proteínas distintas se une p53? (Revise el link "complex")
- ¿Qué tipo de estructura secundaria adquieren en el complejo?
-
¿Cuán parecidas son las predicciones de ANCHOR con las regiones de unión conocidas?
Existen muchísimos métodos para predecir regiones desordenadas. Puedes probar los siguientes métodos en casa y ver las diferencias:
- PONDR: http://www.pondr.com
-
PredictProtein: https://predictprotein.org/
IDPs se predicen por Meta-Disorder a partir de una combinación de NORSnet, DISOPRED2, PROFbval y Ucon.
-
Globplot2 http://globplot.embl.de/
-
DISOPRED3 http://bioinf.cs.ucl.ac.uk/psipred/
Elegir la opción Disopred3. Este método lleva por lo menos 20 minutos y puede tardar hasta 2 horas.
Ejercicio Adicional 2. Análisis de una proteína altamente desordenada.
- Utiliza un predictor de desorden para la entrada de DisProt DP00039.
- Utiliza el servidor protparam https://web.expasy.org/protparam/, o algún otro método que conozcas, para contar el número de aminoácidos cargados positivamente y el número de aminoácidos cargados negativamente.
- Calcula la carga neta (o utiliza el servidor protparam). ¿Coincide con lo que esperaba?
- Observa los dominios que propone InterPro. ¿Existen contradicciones entre la asignación de dominios y el desorden predicho?