TP 12. Modelado por Homología y AlphaFold2

Slides mostrados en la clase

Slides

Ejercicio 1. Modelado por homología de una proteína de Rana.

Usted es un famoso ecólogo que desde siempre sintió un especial interés por las ranas. Durante un viaje de campaña se encontró con unas ranas muy inusuales que poseían una fascinante coloración azul. Luego de años de investigación y muchos subsidios invertidos, su becario descubrió que esta coloración se debe a la existencia de una proteína en la linfa de las ranas que es capaz de conjugar biliverdina. Luego de aislar la proteína, obtiene su secuencia:

>Hypsiboas_punctatus_BP
MRVLLILGVVVLSTLAFAHHEEGHHDDEDLKDDHDPFLPEDHKKALFVYQKPALNNINFA
FKMYRQLARDHPTENIVISPVSISSALALLSLGAKGHTHSQIVERLGYNTSEIPEQQIHE
SFHKQLDVVDDKDRDLEFEHGNALFTCKEHKIHQTFLDDAKKFYHSEVIPTDFKNTEEAK
NQINSYVEKSTHGKITNILDSVDQDAMIALINFIYLRANWQHPFDEKLTKEGDFHVDKDT
TVKVPFMRRRGIYKMAYTDDIIMVTIPYNGSVEMFLAMTKMGKLSELEQNLNRERSLKWR
EIMQYQLIDLSLPKLSVSGILNLKETLSKLGIVDVFSNHADLSGITDESHLKVSKAIHKA
MMSFDEHGTEAAPATAAEADPLMLPPHFKFDYPFIFRVQDLKTKNPLLVGRIANPQK

Utilizando la secuencia, el becario busca en las bases de datos y descubre que su proteína es homóloga a una superfamilia de proteínas conocidas como serpinas compartiendo un 43% de identidad de secuencia con la proteína de humanos.

Para entender las diferencias con la proteína de humanos, estuvo muy interesado en obtener la estructura tridimensional de la proteína de rana. Sin embargo, todos los intentos de cristalización fallaron rotundamente. Su subsidio se está terminando rápidamente pero afortunadamente, un becario muy interesado en bioinformática y el modelado por homología lo salva de su desesperación.

1. Utilizando la herramienta HHPred modele la proteína.

2. Haga click en Submit en la parte inferior de la página y seleccione el hit que le parezca más conveniente:

¿por qué es el más conveniente?
¿Cuál es el PDB ID y a qué cadena corresponde?
¿Que e-value tiene?
¿que porcentaje de identidad y qué porcentaje de similitud posee con su proteína (en la parte inferior de la web está el alineamiento)?

Luego seleccione en la parte superior Model using selection.

¿Qué se muestra en la nueva ventana? (Mueva la barra inferior para ver que hay en la ventana).

3. Haga click en Forward to Modeller y luego en Submit. (De ser necesario ingrese la siguiente key: MODELIRANJE en el recuadro que dice Modeller key y luego haga click en Submit).

¿Qué aparece en la nueva ventana?

4. Descargue el archivo PDB (Download PDB File)

5. La herramienta Verify3D permite determinar la compatibilidad de un modelo 3D de una proteína con su secuencia aminoacídica en base a cuál es el ambiente en el cual se encuentra cada residuo y la compatibilidad con la estructura secundaria en la que se encuentra.

Vaya a la web de UCLA-DOE LAB, suba el archivo PDB obtenido en el paso anterior y clickee en Run programs.

Seleccione Verify3D y espere por los resultados.

El gráfico reporta la calidad del modelo por posición y en él se observan tres regiones:
1. Posiciones con score menor a cero están mal modeladas,
2. Posiciones con score entre cero y 0.2 están pobremente modeladas,
3. Posiciones con score mayor a 0.2 están modeladas con buena calidad.

Verify 3D asigna como aceptado a un modelo con más del 80% de las posiciones posiciones con un score promedio en el área bien modelada.

Observe el resultado obtenido (Si tarda haga click en el botón Check status) y responda:
¿Cuál es el porcentaje de residuos con un score promedio en el área de bien modelados?
¿Qué región está pobremente modelada según Verify 3D?

6. La herramienta Procheck permite analizar la calidad de la geometría de los residuos en una estructura proteica dada en comparación a parámetros estereoquímicos derivados de estructuras tridimensionales de alta resolución ya conocidas.

En la parte superior de la página de los resultados de Verify 3D vaya a Control Panel
Seleccione Procheck y espere por los resultados.

a. Investigue el Ramachandran Plot. Reconozca las regiones a los distintos elementos de estructura secundaria y responda:

¿Cuántas estructuras se utilizaron para construir este Ramachandran?
¿Qué residuos no están en el área esperada?
¿Qué criterio se utiliza para considerar que el modelo es de buena calidad?
¿Qué porcentaje de residuos en la estructura modelada se encuentran en las regiones más favorecidas?
¿Qué residuo está representado como triángulos? ¿A qué creés que se debe?

b. Mirando el PDF en "All Ramachandrans", investigue los gráficos de ramachandran para todos los residuos.

¿Cuántas estructuras se utilizaron para construir este Ramachandran?
¿Qué residuos no están en el área esperada?
Observe el ramachandran teórico de la Glicina ¿Qué diferencias observa respecto al resto? ¿y el de la prolina?

c. Investigue los gráficos de las longitudes de enlace en la cadena principal (M/c bond lengths) y los ángulos de unión de la cadena principal (M/c bond angles).

¿Existen aminoácidos que se alejen significativamente de los resultados esperados?

7. En base a los resultados obtenidos por Verify 3D y ProCheck responda: ¿Es bueno el modelo? ¿Por qué?

8. Abra chimera y busque el modelo que determinó usted años atrás:

File → Fetch by ID → 7RBW

Si no funciona, el pdb se encuentra en su carpeta de datos y puede utilizar:

File → Open

9. Luego, cargue en la misma ventana de Chimera la estructura modelada

File → Open

10. Para tener una noción de cuán similar es la estructura de dos proteínas, podemos realizar un Alineamiento Estructural, que consiste en superponer las estructuras de ambas proteínas en el espacio intentando alinear sus cadenas aminoacídicas. Para esto:

Vaya a Tools → Structure Comparison → MatchMaker

Se abrirá una nueva ventana.

En Structure(s) to match (el panel de la derecha) seleccione la estructura que será superpuesta y alineada con la que se eligió como referencia, es decir el modelo.
En Chain Pairing elija: Specific chain in reference structure with best aligning chain in match structure
En Reference structure (el panel de la izquierda) seleccione la cadena correcta de la estructura utilizada como molde.

Antes de seguir...

Piense y conteste:

¿Porqué está utilizando el PDB:7RBW?
¿Qué cadena debe elegir?

En Matching asegurése que Iterate by pruning long atom pairs untilo no pair exceeds está clickeado.
Observe el resultado del alineamiento: ¿Son parecidas las estructuras? ¿En donde se observan las mayores diferencias?

Vaya a Favorites → Reply Log
¿Cuál es el RMSD global reportado? ¿y con pruned atoms?

11. Para ver cómo se corresponde el grado de similitud estructural con el grado de similitud en secuencia podemos realizar un alineamiento de ambas secuencias guiado por el alineamiento estructural. Para esto, vaya a:

Tools → Structure comparison → “Match->Align”

Asegúrese que:

Estén seleccionadas las cadenas correctas
En Residue-residue distance cutoff (angstroms) diga 2.0

Ahora, observando la estructura y el alineamiento responda:

I. ¿Qué son las regiones marcadas en rosa en el alineamiento?

II. ¿Este alineamiento, identifica regiones que no alinean estructuralmente? ¿A qué se debe?

III. En la parte superior de la ventana del alineamiento de secuencia vaya a Headers y seleccione RMSD:ca

¿Qué regiones poseen mayor RMSD? ¿A qué elementos estructurales corresponden? Para responder esto, seleccione estas regiones con el mouse en el alineamiento y visualícelas en la estructura alineada.

IV. Para calcular el RMSD manualmente es necesario tener ambas moléculas en un mismo archivo y con un sistema de coordenadas relacionado.

Para guardar el archivo pdb incluyendo ambas moléculas vaya a File → Save PDB...

En la ventana que se abre:

En la sección Save models asegúrese que ambos modelos estén seleccionados.
Chequee que la única casilla tildada sea Save relative to model:
Asegúrese que en Save multiple models in esté seleccionado a single file
Elija la ubicación y nombre para el archivo.

Abra el archivo con el Leafpad o block de notas.

¿Se encuentran ambas moléculas en el archivo? (Pista, ¿cuantas cadenas ve y como se llaman?)

Calculo de RMSD

\[ \operatorname{RMSD(v,w)} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \, ((v_{ix} - w_{ix} )^2 + (v_{iy} - w_{iy} )^2 + (v_{iz} - w_{iz} )^2) \, } \]

Calcule el RMSD entre los carbonos alpha del residuo leucina 38 del modelo obtenido y la leucina 38 de la cadena A de del templado utilizado.
En la fórmula de RMSD:
- ¿Cuánto vale n en este caso?
- ¿A qué corresponde v y a qué corresponde w?
Verifique su resultado en chimera (en el alineamiento obtenido por match align debe seleccionar ambos residuos a la vez y el RMSD aparece en la parte inferior del recuadro) ¿Obtuvo el mismo resultado?

12. Para cuantificar el alineamiento de secuencia obtenido, podemos calcular el % de identidad de secuencia. Para ello, en la ventana del alineamiento de secuencias vaya a:

Info → Percent identity.

Seleccione una estructura en Compare y la otra estructura en with. En Divide by seleccione longer sequence length. Presiona en Ok.

¿Qué valor de identidad de secuencia obtiene? ¿Porque cree que difiere del reportado anteriormente?
En la parte superior de la ventana del alineamiento de secuencia vaya a Headers y seleccione Conservation ¿Las sustituciones observadas en las secuencias son conservativas?
En base a los resultados obtenidos. ¿Intentaría obtener experimentalmente la estructura de la nueva proteína, o confiaría en el modelo?

AlphaFold2 (AF2)

En los últimos años, hubo un crecimiento continuo en el número de estructuras de proteínas determinadas experimentalmente depositadas en el PDB (actualmente ~170.000). Esto, junto con la explosión de la secuenciación (millones de secuencias) y el desarrollo de técnicas de deep learning benefició el desarrollo de algoritmos de predicción de estructura tridimensional de proteínas. Hasta el 2021, los algoritmos de predicción de estructura tridimensional de proteínas se basan en dos aspectos complementarios: las interacciones físicas (o contactos) o la historia evolutiva de la proteína. Sin embargo, y a pesar de los avances, la mayoría de los algoritmos de predicción no son muy precisos si se carece de un homólogo cercano con una estructura tridimensional resuelta experimentalmente. A partir de la secuencia primaria de una proteína (Fig 1), AlphaFold2 utiliza una red neuronal para la predicción estructural de alta precisión (en la mayoría de los casos), la cual aumenta con el uso de estructuras homólogas. AlphaFold2 puede incluso predecir con alta precisión las cadenas laterales si el backbone es preciso.

Fig 1. Algoritmo de predicción de estructuras AlphaFold2.

Arquitectura

AlphaFold2 utiliza una arquitectura de red que utiliza como inputs el alineamiento de secuencias (MSAs) y una representación de todos los pares de residuos de la secuencia. Mediante un algoritmo iterativo que se basa en la arquitectura Evoformer, se procesan los inputs y en conjunto con un módulo estructural se genera una representación tridimensional de la proteína query.

Métricas de confianza

AlphaFold2 incorpora métricas de confianza de la predicción.

La principal métrica de confianza es el test pLDDT (predicted local-distance difference test) el cual es un predictor confiable del test de diferencias en las distancias Cα (IDDT-Cα) y evalúa principalmente la correctitud del modelo a nivel local (estimando el error en distancias de un Cα con Cα vecinos en un rango de 15Å).
La segunda métrica se denomina PAE (por Predicted Aligned error) y compara el error en la predicción de pares de residuos, esto es el error sobre el residuo y cuando las estructuras real y predicha son alineadas sobre el residuo x. Esta medida permite la identificación global de unidades de plegamiento (dominios) y permite predecir si dos dominios guardan relaciones espaciales definidas, o si tienen variabilidad (por ejemplo, si están conectadas por un linker flexible.

Fig 2. Arriba. Se pueden observar dos dominios globulares, pero se desconoce la disposición espacial relativa entre ellos. Abajo. Se puede observar que además de identificar los dominios globulares, se predien correctamente pares de residuos interdominios.

Costo computacional

AlphaFold2 consume muchísimos recursos. Por lo tanto, muchas proteínas de organismos modelos están siendo modeladas y puestas a disposición de la comunidad científica en una base de datos: https://alphafold.ebi.ac.uk/.

Afortunadamente, la comunidad científica rápidamente desarrolló distintas “colabs” o “notebooks” que permiten correr AlphaFold2 en una máquina remota. Una “desventaja” es que se debe contar con una cuenta de mail de gmail, cada cuenta de gmail puede usar un colab a la vez.

Otra desventaja es que en la versión gratuita de colab, debido al espacio en disco y capacidad de cómputo que se adjudica, sólo se pueden correr proteínas o complejos con menos de 1000 residuos y luego de estar corriendo unas cinco proteínas, hay que esperar a que se renueve el tiempo de cómputo de esa cuenta.

Otra desventaja, es que no se pueden modificar muchos parámetros del modelado al usar un colab, en comparación con correr la simulación desde un script en una computadora o server propio. Sin embargo, los parámetros usados en el ColabFold de AlphaFold2 son los que fueron más ampliamente validados durante el desarrollo del método.

Existen distintos colabs que implementan AlphaFold2. En este curso utilizaremos uno en particular: AlphaFold2 using MMseqs2.

Todas las versiones de las distintas NoteBooks están disponibles en el github: https://github.com/sokrypton/ColabFold

AlphaFold2 - Ejercicios

Los papilomavirus (PVs) son virus desnudos icosaédricos y poseen un genoma ADN doble cadena circular entre 5-8 Kb. Sus hospedadores incluyen una amplia variedad de vertebrados desde peces, reptiles, aves y mamíferos. Los PV infectan el epitelio mucoso y queratinizado y producen lesiones denominadas condilomas o papilomas y verrugas respectivamente y en humanos algunos PVs están asociados al cáncer cervical uterino, de la formación de tumores en el tracto urogenital y en las vı́as aéreas superiores.

La proteína E7 del papilomavirus comparte similitudes funcionales con la proteína E1A de adenovirus y el antígeno T del poliomavirus SV40. Las tres proteínas poseen actividades transformantes e interaccionan con la proteína retinoblastoma.

La interacción de la proteína E7 con Rb es responsable de la inducción de la síntesis de ADN y proliferación celular. La inmortalización y transformación de la célula infectada inducida por E7 es consecuencia de la interacción de E7 con Rb y numerosos blancos proteicos involucrados en crecimiento celular, transformación, transcripción, apoptosis y síntesis de ADN.

Ejercicio 1. Modelado de un Monómero de E7

Ingrese al ColabFold que implementa MMseq2 Aquí.

Info

Si quiere que los cambios que realice sean guardados deberá agregar la notebook a su drive. Pero esto no es necesario.

En la parte superior, haga click en Runtime → Change Runtime y asegúrese que:
- Runtime type: sea Python 3
- Hardware accelerator: este seleccionado T4 GPU
Preparando la corrida.

En el campo sequence query ingrese la secuencia (sin el encabezado indicado por el signo >) de la proteína E7 de HPV16.
```
>sp|P03129|VE7_HPV16 Protein E7 OS=Human papillomavirus type 16 OX=333760 GN=E7 PE=1 SV=1
MHGDTPTLHEYMLDLQPETTDLYCYEQLNDSSEEEDEIDGPAGQAEPDRAHYNIVTFCCKCDSTLRLCVQSTHVDIRTLEDLLMGTLGIVCPICSQKP
```
- En el campo jobname ingrese: E7_MONOMERO.
- En el campo num_relax elija: 1
Info

num_relax es el número de modelos a relajar con Amber. Esta notebook produce hasta 5 modelos máximo por proteína.

Amber permite mejorar la geometría de la unión peptídica y posición de rotámeros luego de la relajación de la estructura. Si bien no mejora la predicción, remueve violaciones estereoquímicas.
- En template mode elija pdb100 ¿Qué le parece que es este campo?
- Vaya a Runtime → Run all, o presione Ctrl+F9
- Como por defecto este ColabFold crea 5 modelos hay que esperar (unos 20 minutos).
IMPORTANTE

No cierre la ventana y tampoco cierre la laptop porque la corrida entonces se detiene (no pasa nada si entra en suspensión).

Al finalizar la corrida, los resultados serán descargados automáticamente como un archivo zip. Si esto no llegara a suceder, puede acceder al mismo haciendo click en el icono con forma de carpeta que se encuentra a la izquierda.
Localice el archivo descargado y descomprímalo (el nombre del archivo comienza con E7_MONOMERO). Encontrará varios archivos, en particular:
- Cite.bibtex Contiene todas las citas correspondientes a los papers relacionados.
- Config.json Contiene todos los parámetros utilizados en la corrida.
- *.a3m Alineamiento
- *_coverage.png Gráfico de la cobertura del alineamiento
- *_PAE.png Gráfico del PAE por pares de residuos para todos los modelos.
- *_plddt.png Gráfico del plddt por posición
- *_predicted_aligned_error_v1.json Tiene los valores de PAE para todos los pares de todos los modelos.
- *_relaxed_*_model_*.pdb Son los modelos generados y relajados.
- *_unrelaxed_*_model_*.pdb Son los 5 modelos generados sin relajar.
- *_model_*.json Son el PAE y pLDDT de cada modelo que se pueden utilizar para graficar.
- En la carpeta*_env* Tiene los templados utilizados por AlphaFold2 si es que se usaron.
Abra Chimera y cargue el modelo relajado (relaxed) (si no recuerda File → Open …).
Abra el pdb: 2b9d. (Puede descargalo realizando File → Fetch by ID o bien yendo a la web de la rcsb)
- ¿Estaba esta estructura entre los templados?
- ¿Por qué método fue determinada?
- ¿A qué proteína corresponde? ¿De qué organismo?
Alinee las estructuras utilizando Matchmaker (si no recuerda, Tools → Structure comparison → Matchmaker)
- ¿Cuál es el RMSD global?
Si quieren ver el RMSD por posición sobre la estructura

Structure Comparison → Match align

Seleccione el par de modelos adecuado. En residue-residue distance cutoff seleccione el mismo umbral que utilizó en Matchmaker para pruned atoms (Por defecto es 2)

Para colorear la estructura por RMSD para eso vaya a: Tools → Depiction → Render by Attribute

En attributes of asegúrese que esté seleccionado residues

En el recuadro de Models asegúrese que estén ambos modelos seleccionados.

En la pestaña Render seleccione mavRMSDca y luego haga clic en Ok.
Cierre el modelo correspondiente al pdb 2b9d. Via terminal tiene que ingresar el comando close seguido del número del modelo, por ejemplo:
```
close #0
```
cierra el modelo 0.

O bien, en el model panel, seleccione el modelo correspondiente y haga clic en close.
Ahora abra los 4 modelos restantes, para eso, File → Open… y con el mouse seleccione los modelos manteniendo la tecla ctrl presionada.
Alinee los modelos ranqueados de 2 a 5 contra el modelo 1,
- Explore el Reply log ¿cuál es el RMSD global de cada par alineado?
Utilice Match Align para ver el alineamiento. Recuerde utilizar el umbral adecuado!.
- ¿Qué observa?
- ¿Porque si las secuencias son todas iguales no aparece el n-terminal alineado?
Los valores de pLDDT están almacenados en la columna del pdb que corresponde a los b-factors. Para colorear por b-factors, utilizaremos la command line que Chimera trae integrada. Para esto vaya a: Favorites → Command line. En la parte inferior de la pantalla se abrirá un renglón donde puede ingresar los comandos necesarios.

Para colorear los modelos según el atributo b-factor donde está almacenado el plDDT ingrese en la command line:
```
rangecolor bfactor min orange red mid white max dodger blue
```
- ¿Qué observa?
En el reply log se reportan los valores mínimo, medio y máximo encontrados en la columna de b-factors.
- ¿Cuáles son el mínimo y el máximo?
Ahora en lugar de que Chimera elija los valores observados como mínimo y máximo de la escala, los vamos a configurar con el siguiente comando:
```
rangecolor bfactor 0 orange red 50 white 100 dodger blue
```
Ahora cambie el valor mínimo a min (se elige el valor mínimo presente en la columna de b-factors) y el valor intermedio que antes era 50, a 70:
```
rangecolor bfactor min orange red 70 white 100 dodger blue
```
- ¿Observa diferencias con lo anterior? ¿Cuáles?
Ahora corra:
```
rangecolor bfactor 50 orange red 70 white 100 dodger blue
```
- ¿Observa diferencias con lo anterior? ¿Cuáles?
- ¿Porqué considera que elegimos 50 como valor mínimo?
- ¿De qué posición a qué posición consideraría que el modelo es de confianza?
Investigue el gráfico de pLDDT que se descargó con el modelo.
- ¿Qué observa?
- ¿Puede identificar las regiones con un pLDDT mayor a 70?
- ¿Puede identificar las regiones con un pLDDT entre 50 a 70?

Abra R Studio. Ahora graficaremos los pLDDT por posición para cada uno de los modelos.

install.packages("bio3d")
install.packages("reshape2")
library(bio3d)
library(ggplot2)
library(reshape2)

setwd(*DIRECTORIO DE TRABAJO DESEADO*)

directorio <- "/directorio/donde/estan/los/modelos/"

archivos <- list.files(path = directorio,pattern = "_unrelaxed_",)

miarchivo <- paste(directorio,archivos[1],sep="")
mipdb <- read.pdb(miarchivo)

datos <- data.frame(Residue = mipdb$atom[mipdb$calpha,"resno"],
                    Rank_1 = mipdb$atom[mipdb$calpha,"b"]
)

for(i in 2:length(archivos)){
    miarchivo2 <- paste(directorio,archivos[i],sep="")
    mipdb2 <- read.pdb(miarchivo2)
    nuevaColumna <- paste("Rank",i,sep="_")
    datos[nuevaColumna] <- mipdb2$atom[mipdb2$calpha,"b"]
}

fileOUT <- paste(directorio,"E7_Monomero.png",sep="")

datos2 <- melt(datos, id="Residue")
datos2$variable <- as.factor(datos2$variable)

p1 <- ggplot(datos2, mapping=aes(x=Residue,y=value,color=variable)) + 
geom_line() + theme_bw() +
scale_x_continuous(name = "E7 Residue", breaks = seq(5,100,by=5),limits = c(0,100),expand=c(0,0)) +
scale_y_continuous(name = "Predicted lDDT", breaks = seq(5,100,by=5),limits = c(0,101),expand=c(0,0)) +
geom_hline(yintercept = 90,color="blue")+
geom_hline(yintercept = 70,color="orange2")+
geom_hline(yintercept = 50,color="red")
p1

ggsave(filename = fileOUT,plot = p1,device = "png",width = 20,height = 10,units = "cm",dpi = 300)

Encuentre el archivo corespondiente al gráfico del PAE.
- ¿Qué interpreta?
En base a los resultados obtenidos,
- ¿Qué puede decir de la estructura de la proteína?
- ¿Cuántos dominios posee? ¿ordenados o desordenados?
- ¿Puede decir aproximadamente los límites?
Guarde la sesión (Save Session As... ) y cierre chimera.

Ejercicios adicionales

Ejercicio Adicional 1. Modelado de un dímero de E7

En la parte superior, haga click en Runtime → Disconnect and delete Runtime
Preparando la corrida.

Para indicar que se quiere correr un multímero se debe ingresar las secuencias separadas por :. En el campo sequence query ingrese las secuencias de la proteína E7 de HPV16.
```
MHGDTPTLHEYMLDLQPETTDLYCYEQLNDSSEEEDEIDGPAGQAEPDRAHYNIVTFCCKCDSTLRLCVQSTHVDIRTLEDLLMGTLGIVCPICSQKP:MHGDTPTLHEYMLDLQPETTDLYCYEQLNDSSEEEDEIDGPAGQAEPDRAHYNIVTFCCKCDSTLRLCVQSTHVDIRTLEDLLMGTLGIVCPICSQKP
```
- En el campo jobname ingrese: E7_DIMERO.
- En num_relax elija 1
- En template mode elija none
- Vaya a Runtime → Run all, o presione Ctrl+F9
- Vuelta a esperar ... unos 20 minutos.
Atención

Antes de seguir adelante vaya al ejercicio 3 y ponga a correr el modelado siguiente!
Abra Chimera. Y abra el pdb: 2F8B.

Para eso ingrese en el command line:
```
open 2f8b
```
- ¿Qué observa? ¿A qué se debe?
- Investigue en el rcsb la técnica por la que se obtuvo esta estructura y a qué proteína pertenece.
- ¿Este pdb es utilizado como templado para el modelado? ¿por qué?
Abra el model Panel: Favorites → Model Panel

Para que sea más fácil las observaciones vamos a trabajar con un único submodelo de cada cadena. Para esto, ingrese en la línea de comando:
```
close #0.2-15
```
- ¿Cuál es el estado de oligomerización de E7?
Coloree el modelo de blanco y oculte todos los residuos utilizando los siguientes comandos
```
color white #0
~display
```
La proteína E7 en el dominio de dimerización contiene un sitio de unión a Zinc. Ubique el zn en la estructura.
```
display @ZN; color red @ZN
```
Ahora vamos a seleccionar los residuos más cercanos al zinc:
```
sel :@zn zr<3
display sel; color red,a sel; color byhet sel;~sel
delete element.H
```
- ¿Qué residuos se encuentran coordinando la unión a zinc?
Ubique el archivo zip que se generó con ColabFold y descomprímalo en su computadora.
Identifique el archivo que corresponde al pLDDT.
- ¿Qué región está modelada con alta confianza y cual no?
Identifique el archivo que corresponde al PAE.
- Interprete el gráfico.
- ¿Cuál de los 4 gráficos muestra los valores correspondientes para los pares de residuos de la cadena A, cual para la cadena B y cual para los pares de residuos de de las cadenas A y B?
- ¿Cuáles son los límites el dominio globular, aproximadamente?
Elija el modelo mejor mejor ranqueado y alineelo utilizando Matchmaker contra la estructura de 2F8B.
- ¿Cuál es el RMSD global?
Abra en chimera los 5 modelos no relajados que se generaron. Luego, alinee utilizando matchmaker y seleccionaremos las cisteínas que coordinan la unión al zinc.
```
sel #1-5:58,61,91,94; display sel; color blue,a sel; color byhet sel; ~sel
```
Coloree las cadenas A y B de los modelos predichos de distinto color
```
sel #1-5:.A; color orange,r sel; ~sel
sel #1-5:.B; color purple,r sel; ~sel
```
Observe de cerca la ubicación de las cisteínas y responda:
- ¿Considera que la predicción del sitio de unión de zinc es buena aún cuando no se incluye el ión en el modelado?
Coloree las cadenas de los modelos predichos según los valores de pLDDT.:
```
rangecolor bfactor 50 orange red 50 white 100 dodger blue
```
- ¿Qué observa?
En base a todas las características observadas: pLDDT, PAE, coordinación de zinc,
- ¿Pudo AF2 predecir el estado de oligomerización?
- ¿Pudo AF2 predecir la coordinación del zinc?
- ¿Qué opina del modelo?
Guarde la sesión y cierre chimera.

Ejercicio Adicional 2. Modelado de un motivo unido a un dominio globular en Alphafold2

La proteína retinoblastoma (Rb) regula el avance del ciclo celular de la fase G1 → S. La proteína Rb posee un dominio globular llamado Dominio pocket que está formado por dos subdominios A y B unidos por un loop.

Uno de los blancos celulares de Rb es la Histone desacetilasa 1 (HDAC) que posee el motivo lineal de interacción LxCxE. Sin embargo la afinidad de HDAC1 por Rb, es mucho menor (20µM) en comparación a la afinidad del motivo de la proteína viral E7 de papilomavirus (5nM).

Una estructura tridimensional permite entender desde el aspecto molecular las diferencias en las interacciones que podrían llevar a diferencias en afinidades. Sin embargo, hasta la fecha, no se posee una estructura del complejo Rb-HDAC1.

Modele el complejo utilizando el colab: AlphaFold2.

Para tardar menos en el modelado vamos a realizar algunas modificaciones.

En lugar de ingresar la secuencia completa de la proteína retinoblastoma, vamos a ingresar únicamente la correspondiente al dominio pocket de la proteína retinoblastoma, donde los loops se encuentran reemplazados por secuencias más cortas.

Al final, indicaremos con el : el inicio de la cadena correspondiente al motivo HDAC (DKRIACEEEFSD).

Obteniendo finalmente:
```
NTIQQLMMILNSASDQPSENLISYFNNCTVNPKESILKRVKDIGYIFKEKFAKAVGQGCVEIGSQRYKLGVRLYYRVMESMLKSEEERLSIQNFSKLLNDNIFHMSLLACALEVVMATYSRSTSQNLDSGTDLSFPWILNVLNLKAFDFYKVIESFIKAEGNLTREMIKHLERCEHRIMESLAWLSDSPLFDLIKQSKLVPRGSKSTSLSLFYKKVYRLAYLRLNTLCERLLSEHPELEHIIWTLFQHTLQNEYELMRDRHLDQIMMCSMYGICKVKNIDLKFKIIVTAYKDLPHAVQETFKRVLIKEEEYDSIIVFYNSVFMQRLKTNILQYASTRPPTLSPIPHIPR:DKRIACEEEFSD
```
- En num_relax elija 1.
- En template_mode elija: none.
Luego, corra todo con ctrl+F9 o vaya a Runtime → Runall
Abra el modelo relajado obtenido por AlphaFold2 en chimera.
Abra el pdb 1GUX
Alinee ambos complejos utilizando matchmaker.

Los siguientes pasos se hacen en la command line de Chimera:
Oculte las posiciones que se observan.
```
~display
```
Coloree por cadenas.
```
rainbow chain
```
Seleccione cada motivo y pongale un nombre (ojo, preste atención a la numeración de los modelos y los nombres de las cadenas, este comando es un ejemplo de como debería ser)
```
sel #0:.E; namesel E7
sel #1:.B; namesel HDAC
```
Represente ambos motivos en licorice (recuerde seleccionar cada cadena correspondiente antes!)
```
ribscale licorice E7
ribscale licorice HDAC
```
Elimine las aguas e hidrógenos ya que no los utilizaremos para analizar.
```
delete :HOH
delete element.H
```
Muestre las cadenas laterales de los motivos coloreando por heteroatomos.
```
display E7
display HDAC
color byhet E7
color byhet HDAC
```
Observe el modo de interacción, ¿Se encuentran conservado?
¿Por qué podría tener más baja afinidad HDAC1 que E7?
Coloree por b-factors el modelo obtenido por AlphaFold (Recuerde que contienen el plDDT y asegúrese que su modelo es el indicado en el comando #1)
```
rangecolor bfactor 50 orange red 70 white 100 dodger blue #1
```
- A ojo, ¿Cuál es la calidad del modelado del péptido que contiene el motivo (HDAC)?
Investigue el gráfico de PAE que se descarga con los modelos.
- ¿Qué nivel de confianza observa en la ubicación relativa del péptido HDAC respecto del dominio Rb?
En base a las observaciones realizadas: ¿AlphaFold se puede utilizar para analizar la interacción de motivos con dominios globulares?