Información

¿Están disponibles los datos originales de difracción de rayos X?

¿Están disponibles los datos originales de difracción de rayos X?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Es habitual que los investigadores publiquen los datos originales de difracción de rayos X utilizados en la determinación estructural macromolecular? Si no, porque no; y si es así, ¿existe una base de datos en línea donde se puedan descargar estos datos?


En muchos casos están disponibles. Uno de los principios establecidos del Protein Data Bank (PDB) fue almacenar no solo los modelos (posiciones e identidades atómicas) de macromoléculas y proteínas, sino también los datos de rayos X que se originan, más recientemente en factores de estructura.

Si la pregunta es 'por qué están dando solo los factores de estructura y no los datos originales que tomaron', tal tarea requeriría mucho esfuerzo de curación para muy poco beneficio científico. Escalar los conjuntos de datos individuales del detector solía ser una tarea pesada. La estructura original de la mioglobina implicaría películas escaneadas en un formato antiguo de los años 50. Nadie podría usar eso ahora sin piratear el formato de la imagen, si no fuera en cinta de papel o tarjetas. De hecho, en ese caso, los factores de estructura no están disponibles. El escalado de muchas o varias recopilaciones de datos a menudo se hacía con ajustes personalizados en los años 70 y luego, en los años 90, la recopilación de datos se volvió más rutinaria, pero varias generaciones de detectores de rayos X se hicieron populares y luego desaparecieron del mercado. Cada uno tenía sus propias excentricidades y requisitos para combinar conjuntos de datos de múltiples lecturas.

El propósito de tener factores de estructura disponibles es permitir que cualquier persona reconstruya la densidad de electrones y evalúe el acto interpretativo que está rastreando un péptido a través de la densidad de electrones. Dado que ese formato es principalmente independiente del detector y ha sido bastante consistente a lo largo de los años, ofrece una cantidad significativa de valor científico por el dinero.

Si desea datos de imágenes sin procesar o datos de propiedad del detector antes de múltiples conjuntos de datos de diferentes cristales antes de que se combinen, tendrá que ponerse en contacto con los autores, quienes probablemente tendrían que examinar un mar de DVD para acceder a ellos. En casos más antiguos, podrían ser cintas.

En cuanto a los factores de estructura, que son esencialmente el valor de la raíz cuadrada de los datos de intensidad combinados y escalados, están disponibles y son parte de cada envío al pdb:

Busque en cualquier página de estructura de rayos X en RCSB. Por ejemplo este.

Hay un cuadro llamado "Detalles experimentales" y puede descargar los factores de estructura allí haciendo clic en un enlace.

Si está buscando más de uno a la vez, hay descargas masivas disponibles a través de su página de descargas. Marque la casilla "Factores de estructura". Los datos de intensidad sin procesar deberían estar disponibles si también los busca.

Sugerencia adicional: Estaba pensando que si miras el software de escalado que viene con los detectores de rayos X, es posible que encuentres algunos tutoriales con datos brutos sin escalar. Encontré un ejemplo en Marresearch: lisozima de clara de huevo de gallina.


Una base de datos pública de experimentos de difracción macromolecular

Cada punto se forma a partir de la interferencia constructiva de los rayos X que atraviesan un cristal. Los datos se pueden utilizar para examinar la estructura del cristal. Crédito: M. Grabowski et al.

La reproducibilidad de los resultados experimentales publicados ha atraído recientemente la atención en muchos campos científicos diferentes. La falta de disponibilidad de datos científicos primarios originales representa un factor importante que contribuye a los problemas de reproducibilidad; sin embargo, la comunidad de biología estructural ha dado pasos importantes para que los datos experimentales estén disponibles.

La cristalografía macromolecular de rayos X ha liderado el camino al requerir la difusión pública de coordenadas atómicas y una gran cantidad de datos experimentales a través del Protein Data Bank (PDB) y proyectos similares, lo que convierte a este campo en uno de los más reproducibles en las ciencias biológicas.

La IUCr encargó al Grupo de Trabajo de Deposición de Datos por Difracción (DDDWG) en 2011 que examinara los beneficios y la viabilidad de archivar imágenes de difracción sin procesar en cristalografía. El informe trienal del DDDWG 2011-2014 hizo varias recomendaciones clave con respecto a la preservación de los datos de difracción sin procesar. Sin embargo, no queda ningún mandato para la divulgación pública de los datos de difracción originales.

El recurso integrado para la reproducibilidad en cristalografía macromolecular (IRRMC) es parte del programa Big Data to Knowledge de los Institutos Nacionales de Salud y se ha desarrollado para archivar datos sin procesar de experimentos de difracción y, lo que es igualmente importante, para proporcionar metadatos relacionados. La base de datos [Grabowski et al. (2016). Acta Cryst. D72, 1181-1193, DOI: 10.1107 / S2059798316014716], contiene en el momento de escribir este artículo 3070 experimentos de difracción macromolecular (5983 conjuntos de datos) y sus correspondientes metadatos parcialmente curados, que representan alrededor del 3% de todas las deposiciones en el Protein Data Bank. Se puede acceder al recurso en http://www.proteindiffraction.org y se puede buscar utilizando varios criterios a través de una interfaz simple y optimizada. Todos los datos están disponibles para acceso y descarga sin restricciones. El recurso sirve como prueba de concepto y demuestra la viabilidad de archivar datos de difracción sin procesar y metadatos asociados de estudios cristalográficos de rayos X de macromoléculas biológicas.

Al hablar con un periodista sobre el proyecto, el líder del equipo, Wladek Minor, dijo: "Hay tanta investigación en curso que no se puede publicar todo y, a menudo, los resultados de estudios fallidos no aparecen en la literatura. Creo que la clave para el éxito es conocer los experimentos fallidos, queremos saber por qué fracasan ".

El objetivo del proyecto es expandir el IRRMC e incluir conjuntos de datos que no produjeron estructuras de rayos X. Esto podría facilitar los esfuerzos de colaboración para mejorar los métodos de determinación de la estructura de las proteínas y también garantizar la disponibilidad de datos "huérfanos" dejados por investigadores individuales y / o proyectos de genómica estructural extintos.


Instrumentación de difracción de rayos X en polvo (XRD): ¿cómo funciona?

La geometría de un difractómetro de rayos X es tal que la muestra gira en el camino del haz de rayos X colimado en un ángulo & # 952 mientras que el detector de rayos X está montado en un brazo para recolectar los rayos X difractados y gira en un ángulo de 2 & # 952. El instrumento utilizado para mantener el ángulo y rotar la muestra se denomina goniómetro. Para patrones de polvo típicos, los datos se recopilan en 2 y # 952 de

5 & ​​# 176 a 70 & # 176, ángulos preestablecidos en el escaneo de rayos X.


¿Se dispone de datos originales de difracción de rayos X? - Biología

En los últimos años se ha observado un aumento del interés por conservar conjuntos de datos de difracción sin procesar recopilados para la determinación de estructuras cristalinas y moleculares. Este interés ha surgido espontáneamente dentro de la comunidad cristalográfica en varios frentes. Por ejemplo, los conjuntos de datos brutos son valiosos para desarrollar nuevos métodos de determinación de estructuras y para la evaluación comparativa de algoritmos de software (Terwilliger & # 38 Bricogne, 2014); a veces son importantes para validar la interpretación de características estructurales y cada vez más vale la pena un estudio más detenido, ya sea para permitiendo el análisis de datos a una resolución más alta que la utilizada en el trabajo original, entendiendo la presencia de múltiples redes presentes en un cristal, o deduciendo detalles de movimientos correlacionados o desorden de la dispersión difusa que se ignora en gran medida al determinar las posiciones y características de los picos de Bragg.

Paralelamente, la evolución de la política científica en el mundo en general está impulsando un escrutinio más detenido de toda la práctica de la gestión de datos de investigación, y hay un número creciente de mandatos para retener los datos brutos que sustentan cualquier estudio experimental y ponerlos a disposición de otros investigadores. . A principios de 2016, todos los consejos de investigación científica del Reino Unido habían declarado posiciones sobre la gestión de datos, el acceso y la conservación a largo plazo (Digital Curation Center, 2016 Research Councils UK, 2015). Un resumen útil de los requisitos de la Agencia Federal de Financiamiento de los EE. UU. Para la gestión de datos científicos se encuentra en la Biblioteca de la Universidad Northwestern (2016). Una propuesta reciente digna de mención pide una nube europea de ciencia abierta para la investigación (Jones, 2015).

Las diferentes comunidades tienen diferentes ideas sobre qué datos valoran más & # 8211 y, de hecho, sobre qué constituyen 'datos'. La National Science Foundation (NSF) de EE. UU. Hace esto explícito en sus `` Preguntas frecuentes '' publicadas (National Science Foundation, 2010):

1. ¿Qué constituyen los "datos" cubiertos por un plan de gestión de datos?

Lo que constituye dicha información será determinado por la comunidad de interés a través del proceso de revisión por pares y gestión del programa. Esto puede incluir, entre otros: datos, publicaciones, muestras, colecciones físicas, software y modelos.

En consecuencia, existe una gran variedad entre las diferentes disciplinas científicas en sus enfoques para la gestión y retención de datos y, por tanto, en la disponibilidad de repositorios públicos y en las herramientas de software para gestionar la deposición, el acceso y la reutilización. No obstante, dos temas se repiten en los diversos mandatos publicados y directrices de mejores prácticas: la importancia de los identificadores persistentes para los conjuntos de datos y la necesidad vital de caracterizarlos lo más completamente posible mediante metadatos adecuados.

La cristalografía se considera generalmente como una ciencia que tiene su casa en buen estado en lo que respecta a la gestión, validación, acceso y reutilización de datos. Esto es cierto en gran medida en lo que respecta a los datos "derivados" (por lo que nos referimos a las coordenadas de posición atómicas y los parámetros de desplazamiento resultantes de las determinaciones de la estructura) y las publicaciones asociadas. Es más discutible en lo que respecta a los datos de difracción procesados ​​y # 8211 los datos procesados ​​después del experimento (generalmente factores de estructura) que forman la base de la determinación de la estructura atómica y molecular y el refinamiento posterior que conduce a un modelo estructural. Algunas revistas requieren la deposición de factores de estructura en apoyo de cualquier publicación, y el Protein Data Bank (PDB Berman et al. , 2000) requiere que los factores de estructura se depositen junto con las coordenadas atómicas. Sin embargo, estos suelen ser el conjunto final de factores de estructura utilizados en el refinamiento y pueden carecer de información descartada al fusionar picos de difracción relacionados con la simetría, o excluidos por otras razones de los primeros ciclos de refinamiento. El PDB voluntad aceptar datos de intensidad procesados ​​no fusionados, y existen recomendaciones de la comunidad que fomentan su deposición (Organización Internacional de Genómica Estructural, 2001), pero la práctica aún no es universal en cristalografía macromolecular. Para las estructuras cristalinas de células unitarias pequeñas, incluso las revistas que aceptan factores de estructura no han requerido hasta ahora intensidades no fusionadas. Sin embargo, existe un creciente reconocimiento de que son importantes, tanto para un mayor desarrollo de la checkCIF validación llevada a cabo durante el proceso de revisión por pares y, de hecho, para alentar a los futuros investigadores a revisar y reevaluar los resultados publicados, tal vez cuando estén disponibles nuevas ideas o herramientas (A. Linden, comunicación personal).

Sin embargo, históricamente no ha habido una tradición de retener las imágenes de difracción de rayos X sin procesar recopiladas por detectores electrónicos, aunque las instalaciones de neutrones centralizadas tienen una larga tradición de preservación de datos sin procesar. En los últimos años, las prácticas alimentadas por las instalaciones de neutrones han ido extendiendo cada tipo de instalación instrumental centralizada a gran escala (sincrotrones y láseres de electrones libres más tarde, así como reactores de neutrones) ha comenzado a avanzar hacia la preservación de datos sin procesar. Esta tendencia se ha visto alentada por la rápida mejora de los procedimientos de tratamiento de datos electrónicos.

En 2011, la Unión Internacional de Cristalografía (IUCr) estableció un Grupo de Trabajo para explorar los méritos y desafíos de retener los datos experimentales iniciales. Este grupo, el Grupo de Trabajo de Deposición de Datos por Difracción (DDDWG), ha llevado a cabo una serie de consultas, reuniones de debate y talleres para explorar el tema. Un conjunto de artículos publicados en Acta Crystallographica Sección D (Terwilliger, 2014) brindó una descripción general de las razones para archivar datos brutos en el campo de la cristalografía macromolecular, modelos para hacerlo de manera rutinaria o a gran escala, iniciativas prácticas actuales y los beneficios potenciales para mejorar los modelos de estructura macromolecular.

Estos artículos también destacaron la importancia de asignar identificadores persistentes a conjuntos de datos para facilitar su gestión y curación a largo plazo, y para garantizar que cada conjunto de datos se caracterice por metadatos ricos, tanto para facilitar el descubrimiento como para permitir la reutilización científica efectiva (Guss & # 38 McMahon, 2014 Kroon-Batenburg y # 38 Helliwell, 2014).

En el resto de este Introducción , presentamos un taller reciente que se concentró en metadatos en experimentos cristalográficos y relacionados, revisamos los argumentos para depositar datos en bruto como una práctica rutinaria y ubicamos estas actividades en el contexto de iniciativas de políticas científicas globales. Luego, el artículo analiza con más detalle los mecanismos actuales y en evolución para la deposición de datos experimentales sin procesar (especialmente imágenes de difracción de rayos X) en los requisitos detallados para los metadatos que describen conjuntos de datos archivados, con el fin de garantizar la reproducibilidad de los resultados científicos derivados. y en los próximos pasos hacia adelante.

1.2. Mejorando los metadatos

Para centrarse en los problemas de metadatos, el DDDWG llevó a cabo un taller de dos días en Rovinj, Croacia, en agosto de 2015. Se mantiene un registro completo del taller en línea en http://www.iucr.org/resources/data/dddwg/ Rovinj-Workshop y varios artículos surgidos de la reunión están en preparación. Detallamos aquí algunos resultados específicos del taller.

1.2.1. Esfuerzos de las Comisiones IUCr

La IUCr gestiona su misión científica a través de una serie de comisiones, cada una de las cuales es responsable de un área temática particular dentro de la cristalografía. El DDDWG ha solicitado a cada Comisión que considere sus propias necesidades para definir metadatos para datos experimentales sin procesar dentro de su campo. Entre los que han sido más activos en responder a esta solicitud se encuentra la Comisión de XAFS (Ravel et al. , 2012) la Comisión de Dispersión de Ángulo Pequeño (Jacques et al. , 2012) la Comisión de Alta Presión (Fig.1) y la Comisión de Macromoléculas Biológicas ( p.ej. Gutmanas et al. , 2013 ).


Figura 1
Montaje de diapositivas de la presentación de Kamil Dziubek en el taller de Rovinj, que ilustra aspectos de los experimentos de difracción a alta presión y otras condiciones no ambientales que deben estar bien caracterizadas y registradas. (Gráficos cortesía de Ronald Miletich-Pawliczek, Universidad de Viena).

El Centro Internacional de Datos de Difracción (ICDD, Pensilvania, EE. UU. Http://www.icdd.com) ha estado activo en el aprovechamiento de conjuntos de datos de difracción de polvo sin procesar durante algún tiempo y nos informó en ECM29 en Rovinj (agosto de 2015) que ahora han incorporado más de 10 & # 8197000 conjuntos de datos de difracción de polvo sin procesar en el archivo de difracción de polvo. Señalan que los conjuntos de datos unidimensionales generalmente están razonablemente bien caracterizados en términos de los metadatos experimentales catalogados en el diccionario en polvo CIF (pdCIF) (Toby, 2005), pero que la interpretación de imágenes de difracción bidimensional se ve obstaculizada por una falta de coherencia en el informe de características tales como ejes de goniómetro, detector de corriente oscura, distorsión y otras correcciones (T. Fawcett, comunicación personal, véase también la Sección 1.2.2). La Comisión de Difracción de Polvo está planificando un trabajo adicional sobre los datos brutos de difracción de polvo de neutrones y se pondrá en contacto con la Comisión de Dispersión de Neutrones según corresponda. La Comisión de Química Estructural ha contado con participantes entusiastas en los eventos convocados por el DDDWG en Madrid, Bergen y Rovinj.

1.2.2. Caracterización de imágenes de difracción de rayos X

La clase de conjuntos de datos experimentales que más se ajusta al mandato original del DDDWG son las imágenes de difracción de rayos X recopiladas de CCD o detectores de píxeles. Kroon-Batenburg & # 38 Helliwell (2014) proporcionó un buen catálogo de los metadatos necesarios para interpretar un archivo de datos de imagen sin procesar. Muchos de los elementos individuales requeridos se definen en el diccionario imgCIF (Bernstein, 2005), y ha habido implementaciones parciales de algunos de ellos en los llamados encabezados `mini-CBF 'de archivos de imagen escritos por varios sistemas de detección comerciales. Sin embargo, esto no se ha hecho de manera coherente entre los proveedores ni siquiera en toda la gama de productos de los proveedores individuales. (CBF, el archivo binario cristalográfico, e imgCIF, su contraparte ASCII pura, son implementaciones equivalentes de la ontología CIF para imágenes de difracción).

Cada vez más, las imágenes se almacenan utilizando el formato de datos HDF5 / NeXus (K & # 246nnecke et al. , 2015), y aunque el formato físico del archivo de datos no debería afectar su capacidad para almacenar información estructurada específica (Hester, 2016), se necesitará cierto esfuerzo para garantizar que las representaciones de datos CIF y NeXus sean igualmente capaces de almacenar los datos apropiados. metadatos experimentales. Ya se ha invertido un esfuerzo significativo para lograr esto a nivel técnico luego de la participación en un taller anterior de representantes de COMCIFS (Comité para el Mantenimiento de la Norma CIF) y NIAC (Comité Asesor Internacional NeXus), los órganos responsables de la gestión de la CIF y Formatos de datos NeXus, respectivamente (Bernstein et al. , 2013). Sin embargo, las presentaciones en el Taller de Rovinj de Kroon-Batenburg (https://youtu.be/XXFDlNn21SY) y de Minor (https://youtu.be/eQbs9sB_pOM) enfatizaron que aún queda un largo camino por recorrer antes de la miríada de diferentes Los formatos generados por los detectores sensibles a la posición electrónicos comerciales contienen los metadatos comunes necesarios para permitir una fácil interpretación y gestión (ver más detalles en la Sección 3.2).

La llegada del nuevo detector de píxeles Dectris Eiger, con su colosal aumento en las velocidades de datos de imágenes de difracción, ha puesto de relieve la importancia de un formato de datos y un registro de metadatos eficientes, no solo para el procesamiento de datos de difracción en un sincrotrón o una línea de rayos láser de rayos X, sino también para el procesamiento posterior fuera de la instalación y, en última instancia, para el reprocesamiento / reanálisis de un archivo de datos sin procesar, según sea necesario. Los diversos temas se han destacado en detalle en un hilo de discusión en la lista de correo CCP4bb a principios de marzo de 2016 (que involucra, entre otros, a G. Winter, A. F & # 246rster, H. J. Bernstein, C. Vonrhein y G. Bricogne).

1.3. El caso de la deposición de datos brutos

Resumimos el caso del almacenamiento y la recuperación rutinarios de datos sin procesar para enfatizar su valor potencial para la comunidad. Al mismo tiempo, reconocemos el costo y otras limitaciones prácticas de almacenar indefinidamente todos los conjuntos de datos recopilados, y no podemos dar una indicación definitiva de dónde podría estar el equilibrio entre archivar y descartar datos sin procesar. Sin embargo, mostramos en la Sección 1.4 que existen tendencias discernibles hacia el almacenamiento de más conjuntos de datos de los que podríamos haber esperado en el trabajo inicial del DDDWG.

Existe una visión filosófica amplia de la importancia del acceso a los datos de difracción sin procesar, a saber, que la ciencia requiere la capacidad de realizar un análisis completo a través de los propios ojos y no con la lente de otra persona. Las imágenes de difracción sin procesar ofrecen varias oportunidades para una ciencia nueva o mejorada. Permiten el análisis de datos a una resolución más alta que la utilizada en el trabajo original [permitiendo comparaciones no solo entre software de procesamiento de datos (Tanley et al. , 2013), sino también en la eficacia de la determinación y el refinamiento de la estructura con datos cada vez más débiles más allá de los límites normales]. Los conjuntos de datos brutos pueden servir como puntos de referencia para desarrollar métodos de análisis mejorados. Permiten comprobar la interpretación de las simetrías de los cristales y un análisis detallado de la difracción de las múltiples redes presentes en los cristales. De manera más general, promueven el estudio de la dispersión difusa que refleja los movimientos correlacionados o el desorden de los átomos en los cristales, a saber, la "dinámica estructural".

La retención de datos sin procesar puede verse como un complemento de los extensos archivos de datos derivados ( es decir. parámetros celulares, coordenadas moleculares, parámetros de desplazamiento anisotrópico) y datos procesados ​​(factores de estructura, perfiles de refinamiento de Rietveld) en las bases de datos cristalográficas. Las contribuciones de los primeros se comprenden muy bien: forman parte del registro científico, conducen a descubrimientos impulsados ​​por bases de datos, p.ej. en la comprensión de las interacciones entre proteínas y ligandos, conducen a nuevas vías de síntesis, mejoras en la fabricación y una mejor comprensión de la energía, y se utilizan en aplicaciones de identificación e indexación ( p.ej. en ciencia forense).

Hasta la llegada de CIF y la validación automatizada de la estructura se verifica con el checkCIF suite (Strickland et al. , 2005) que habilitó, se publicaron muchas estructuras que requirieron corrección posterior. A menudo, la interpretación de los resultados produjo estructuras moleculares que eran en general correctas, pero pasaban por alto simetrías reticulares más altas. Tales ejemplos se detectaron y corrigieron mejor mediante el acceso a los factores de estructura depositados (bien ilustrado por Marsh et al. , 2002 ).

Entonces, en términos generales, la validación de la estructura (la credibilidad de un modelo estructural, tanto en su adherencia a las normas de configuración geométrica como en su derivación a partir de imágenes de difracción de rayos X) se puede llevar a cabo con referencia a los conjuntos de datos derivados (las coordenadas estructurales) y los factores de estructura por sí solos, y esta ha sido la práctica en varias revistas de cristalografía durante un período de tiempo considerable. Sin embargo, la disponibilidad de los datos brutos ( es decir. imágenes de difracción originales) pueden mejorar la validación de la estructura de las siguientes maneras:

(i) La estructura se puede volver a refinar, quizás haciendo uso de picos de difracción que se excluyeron porque los datos de difracción procesados ​​se truncaron en un límite de resolución arbitrario. La retención de los datos originales también permite la reevaluación de la simetría del grupo espacial, que normalmente se establece durante una etapa inicial del refinamiento convencional.

(ii) La reducción de datos a menudo se realiza de acuerdo con protocolos establecidos, pero la retención de las imágenes originales brinda la oportunidad de probar esos protocolos, especialmente si existe alguna sospecha de sesgo sistemático. De hecho, el análisis estadístico de una colección de imágenes en bruto almacenadas puede permitir la detección de sesgos sistemáticos que no son del todo evidentes en experimentos individuales. Además, la disponibilidad de grandes colecciones de conjuntos de datos sin procesar permite la recalibración periódica de los métodos de solución y el desarrollo de nuevos métodos para abordar conjuntos de datos que anteriormente eran resistentes a la solución convencional.

(iii) La atención a la dispersión difusa entre los puntos de difracción permite comprender los movimientos correlacionados o el desorden de los átomos en los cristales. Esto podría involucrar comportamiento cuasicristalino, determinación de modulación inconmensurable o representación multifase, movimientos macromoleculares o cambios conformacionales. etc .

Tenga en cuenta que estos beneficios pueden no ser evidentes para todas las estructuras, y el cálculo de costos y beneficios que informa las políticas de depósito de rutina aún debe ser determinado por la comunidad y los organismos de financiación (Guss & # 38 McMahon, 2014). Puede ser que haya diferentes puntos de entrada donde los beneficios potenciales se puedan realizar más fácilmente, p.ej. poniendo a disposición los datos experimentales para "estructuras difíciles" que han resultado imposibles de refinar satisfactoriamente.

Sin embargo, la deposición más o menos rutinaria de datos primarios ayudaría a mejorar la calidad y confiabilidad del registro científico (Minor et al. , 2016). Permitiría un escrutinio más detenido de las deducciones científicas por parte de los revisores antes de la publicación, permitiría volver a visitar y revisar los modelos estructurales que ya están en las bases de datos, a medida que se desarrollan nuevas técnicas & # 8211 p.ej. la noción de `` mejora continua de los modelos de estructura macromolecular '' (Terwilliger, 2012) permite volver a analizar una estructura o serie de estructuras independientemente del sesgo interpretativo del autor (BD Bax, comunicación personal) y proporciona la evidencia experimental necesaria para respaldar cualquier afirmación realizado por el autor de la publicación. En este último papel, ayuda a protegerse contra el uso de un conjunto de datos incorrecto, ya sea por error o por intención deliberada.

1.4. Oportunidades e imperativos de deposición

Como se mencionó anteriormente, ha habido avances desde que se estableció el DDDWG en el clima para la deposición e intercambio de datos, tanto en el mundo científico más amplio como en el campo de la cristalografía y ciencias estructurales relacionadas. Los beneficios de los datos abiertos ( es decir. La recopilación de datos de investigación que surgen de investigaciones científicas financiadas con fondos públicos y su puesta a disposición para su reutilización sin cargo para el usuario final) se han reiterado en los últimos años en debates e iniciativas prácticas internacionales, gubernamentales y sobre políticas científicas. Entre algunos sitios web de portales destacados se encuentran el portal de datos de las Naciones Unidas (UNdata: http://data.un.org), el sitio de datos abiertos del gobierno de los EE. UU. Science Gateway 'http://worldwidescience.org. Las convocatorias para la implementación incluyen 'The Good Growth Plan', una colaboración para el desarrollo agrícola que involucra al Instituto de Datos Abiertos del Reino Unido (ODI https://theodi.org) y Syngenta the European Open Science Cloud (EOSC), una estrategia de la Unión Europea para vincular la investigación redes, instalaciones de almacenamiento de datos y recursos informáticos en todo el continente (Jones, 2015 Fig.2) y un Acuerdo de Datos Abiertos (Science International, 2015) lanzado por el Consejo Internacional para la Ciencia (ICSU), la InterAcademy Partnership (IAP), The World Academia de Ciencias (TWAS) y el Consejo Internacional de Ciencias Sociales (ISSC).


Figura 2
Un gráfico que vincula el flujo de trabajo de gestión y publicación de datos con los componentes de infraestructura de investigación de la UE. Parte de una presentación que presenta la Nube Europea de Ciencia Abierta para la Investigación (ilustración cortesía de Natalia Manova para el proyecto europeo OpenAIRE).

Aunque estas diversas iniciativas son muy diversas en sus objetivos, colectivamente están elevando la importancia percibida de los repositorios de datos a los financiadores de la investigación, a los investigadores que son animados o, en algunos casos, obligados a depositar sus datos en repositorios robustos y duraderos, y a otros investigadores que son cada vez más conscientes de la disponibilidad de otros conjuntos de datos y de su posible utilidad para su propio trabajo. Se está produciendo un cambio gradual en las actitudes culturales hacia los datos de investigación.

Desde que se estableció el DDDWG en 2011, ha habido una serie de desarrollos, algunos catalizados por estas iniciativas de alto nivel, que han aumentado las opciones para la deposición de imágenes de difracción:

(i) Se ha ampliado el número y el alcance de los repositorios de datos universitarios.

(ii) La Instalación Europea de Radiación Sincrotrón (ESRF Grenoble, Francia) ha lanzado un Archivo de Datos, en el que cada conjunto de datos sin procesar medidos puede asociarse con un DOI registrado.

(iii) El archivo de datos científicos de Zenodo, alojado en el sistema de almacenamiento CERN de muy alta capacidad, ha cobrado impulso.

(iv) Se ha establecido un depósito para experimentos de difracción utilizados para determinar estructuras de proteínas como parte del programa BD2K (Big Data to Knowledge) del Instituto Nacional de Salud de EE. UU. (Grabowski et al. , 2016) está dirigido por el grupo de Wladek Minor en la Universidad de Virginia, EE. UU. (Http://www.proteindiffraction.org/).

(v) La cuadrícula de datos de biología estructural (SBDG) se ha establecido como un sistema de publicación y difusión de datos de difracción para la biología estructural (Meyer et al. , 2016 ).

(vi) El Protein Data Bank (PDB) ahora solicita el DOI (identificador de objeto digital) para datos brutos y metadatos para datos brutos durante una deposición (Fig. 3).


figura 3
Formulario en línea que permite a los depositantes de PDB vincular conjuntos de datos experimentales y sus metadatos asociados con una estructura macromolecular depositada.

(vii) IUCrData (un servicio de datos IUCr, que inicialmente maneja conjuntos de datos derivados) se ha lanzado.

Algunos de estos se describen con más detalle en la Sección 2.2.

2. Mecanismos para la conservación de datos de difracción sin procesar

Repasamos algunos de los de facto repositorios que actualmente alojan y, en muchos casos, brindan acceso a conjuntos de datos experimentales en nuestro dominio.

2.1. Repositorios de datos institucionales. Estudio de caso: Universidad de Manchester

El enfoque meticuloso de la Universidad de Manchester hace que uno de nosotros (JRH) se sienta muy afortunado de trabajar en este entorno de investigación. Al investigar la unión del agente anticanceroso cisplatino a la histidina [que ha recibido un gran interés, ver, por ejemplo, Messori & # 38 Merlino (2016)], el grupo de investigación de JRH hizo que los datos de difracción sin procesar fueran de acceso abierto en la Universidad de Manchester. repositorio de datos. La figura 4 ilustra el registro de acceso a datos dentro del sistema de biblioteca, mientras que la figura 5 ilustra los metadatos de nivel de clasificación requeridos por dicho depósito. Este tipo de catalogación y archivo institucional es cada vez más característico de las iniciativas modernas de archivo de datos. Además, hemos seguido los requisitos estándar de depósito de datos de la comunidad de depositar coordenadas y datos de difracción procesados ​​en el Protein Data Bank. Para permitir el acceso más amplio posible a nuestro trabajo, también hemos podido, vía la financiación de EPSRC que hemos tenido, para publicar la mayor parte de nuestros artículos que informan nuestros resultados como acceso abierto "oro" ( es decir. se puede acceder a los artículos de registro completos revisados ​​por pares sin una suscripción a la revista) en Acta Crystallographica Secciones D y F .


Figura 4
Registro de acceso a la biblioteca de la Universidad de Manchester para conjuntos de datos experimentales asociados con un artículo de investigación publicado. Se proporcionan enlaces al artículo publicado en la columna "Recursos relacionados".

Figura 5
Metadatos de nivel de clasificación asociados con conjuntos de datos experimentales archivados en la Biblioteca de datos de la Universidad de Manchester. Estos identifican los conjuntos de datos archivados y proporcionan enlaces a recursos relacionados.

Al convertirnos en pioneros en hacer que nuestros datos de difracción sin procesar y nuestras interpretaciones de datos y modelos estén completamente abiertos (Tabla & # 1601), logrando así una amplitud y profundidad poco comunes de apertura dentro de un tema de investigación enfocado, nuestra investigación ha recibido una gratificante cantidad de interés detallado. Ha habido muchas descargas de estos datos sin procesar, tanto desde su ubicación web original en la Universidad de Utrecht como posteriormente desde la Universidad de Manchester. Los totales de descarga para cada año desde Utrecht fueron: 2012 17 & # 8197GB, 2013 47 & # 8197GB, 2014 57.69 & # 8197GB y 2015 31.47 & # 8197GB La información de descarga equivalente no está disponible en la Universidad de Manchester. Una de esas descargas de datos sin procesar presentada en una nueva publicación (Shabalin et al. , 2015), una crítica amplia de todo el campo de la unión del cisplatino a diversas proteínas. Este artículo sugirió mejoras en tres de nuestros modelos de cisplatino y lisozima en el PDB vía tres de sus propias interpretaciones alternativas, dos de ellas involucraron el uso de nuestros datos de difracción procesados ​​en el PDB (4xan y 4mwk) y uno de nuestros datos sin procesar (4g4a en la Tabla 1 y la Fig. 4). Hemos aceptado algunas de sus recomendaciones y rechazado otras (Tanley et al. , 2016). Algunos de estos puntos de "debate de datos" también sugieren una falta de estándares comunitarios maduros, incluso dentro de una revista (Tanley et al. , 2015), pero también muestran un camino a seguir para que las discusiones se lleven a cabo, p.ej. dentro de las revistas de IUCr. En otros aspectos, muestra los beneficios de la búsqueda continua de métodos de análisis mejorados y una mejor comprensión del papel de los datos débiles en la mejora de los refinamientos del modelo de proteínas (Diederichs & # 38 Karplus, 2013), que aprovechamos en detalle en Tanley et al. (2016). Estas mejoras han surgido incluso en los últimos años e ilustran la "edad temprana" de la cristalografía macromolecular, un campo que todavía está claramente madurando como técnica.

tabla 1
Una recopilación de datos sin procesar temáticos como ejemplo: el conjunto de estudios de investigación, relacionados con la unión de los platinos a la histidina, que se llevó a cabo en la Biblioteca de datos de la Universidad de Manchester.

2.2. Repositorios de datos generales para biología estructural

La importancia de la captura y el archivo de datos ha sido ampliamente reconocida en todo el mundo y ahora hay varios repositorios disponibles donde casi cualquier investigador puede, o pronto podrá, depositar sus datos sin procesar y metadatos asociados para que cualquier persona en el mundo pueda verlos y descargarlos. sujeto, por supuesto, a las limitaciones naturales del tamaño del archivo y el ancho de banda de la red.

Dos importantes repositorios financiados con fondos públicos son el recurso integrado para la reproducibilidad en cristalografía macromolecular (http://www.proteindiffraction.org) y el repositorio de Zenodo (https://zenodo.org) para datos científicos generales. El primero ha sido desarrollado por el grupo Minor de la Universidad de Virginia (http://olenka.med.virginia.edu/CrystUVa) y cuenta con el apoyo de la Iniciativa de Big Data to Knowledge de los Institutos Nacionales de Salud de EE. UU. (Https: // datascience .nih.gov / bd2k). Zenodo ha sido desarrollado por CERN (http://www.cern.ch) como parte de la iniciativa OpenAIREplus de la Unión Europea (http://www.openaire.eu).

Hay dos repositorios privados adicionales disponibles para uso general. La organización SBGrid con sede en Harvard (https://sbgrid.org) ha desarrollado una cuadrícula de datos de biología estructural (https://data.sbgrid.org) que cualquier miembro de SBGrid puede utilizar para archivar datos sin procesar y metadatos. El sitio de redes científicas ResearchGate (https://www.researchgate.net) permite a los investigadores compartir datos (https://www.researchgate.net/blog/post/present-all-your-research-in-a-click) .

2.2.1. El recurso integrado para la reproducibilidad en cristalografía macromolecular

El recurso integrado para la reproducibilidad en cristalografía macromolecular (Grabowski et al. , 2016) es una base de datos de difracción de proteínas que aborda la necesidad de archivo de imágenes crudas cristalográficas, como se describe en la discusión anterior y en el Acta Cryst. D grupo de artículos publicados recientemente (Terwilliger, 2014). Esta base de datos incluye actualmente más de 2900 conjuntos de datos cristalográficos sin procesar y metadatos asociados. La mayoría de estos están vinculados con un depósito en el Protein Data Bank (http://www.pdb.org Berman, 2000) y muchos de ellos representan el trabajo de proyectos de genómica estructural (http://csgid.org, http: // ssgcid.org, http://www.jcsg.org, http://mcsg.anl.gov, http://thesgc.org). La base de datos está muy estructurada, con metadatos cristalográficos asociados con cada conjunto de datos. Una característica muy útil de este servicio es que la interfaz web de la base de datos muestra una imagen de difracción representativa de cada conjunto de datos, lo que permite al investigador observar rápidamente las características de la difracción de los cristales utilizados en cada conjunto de datos, por ejemplo, el orden en el patrón de difracción, la presencia de dispersión difusa y el grado de anisotropía en el patrón de difracción. La base de datos se puede buscar en función de la ID de PDB, la resolución de difracción, la ubicación donde se recopilaron los datos, los autores y muchas otras características. Está previsto que la base de datos esté disponible para depósitos y descargas de cualquier persona. Cada entrada en la base de datos tiene un DOI asignado que se puede utilizar para hacer referencia a los datos y que proporciona un enlace permanente estable a los datos, y los datos depositados no están limitados en tamaño de archivo. Los metadatos asociados con los datos brutos son una parte integral de la base de datos, por lo que en el futuro puede ser factible reprocesar automáticamente gran parte de los datos brutos en la base de datos a medida que se disponga de nuevos algoritmos para el análisis de datos ( cf. Terwilliger y # 38 Bricogne, 2014).

2.2.2. Zenodo

El archivo Zenodo es un archivo científico general desarrollado por investigadores del CERN como parte de una iniciativa del Marco 7 de la Unión Europea. Proporciona un depósito para conjuntos de datos científicos en cualquier campo y tiene la característica única de que, como parte del CERN, tiene acceso a una capacidad excepcional para el almacenamiento y archivo de datos. Aunque cuenta con el apoyo de la UE, los investigadores de cualquier parte del mundo pueden archivar sus datos y cualquiera puede acceder a ellos. El archivo de Zenodo está diseñado para proporcionar un recurso para los muchos proyectos científicos pequeños en el mundo que no tienen una manera fácil de poner sus datos a disposición de la comunidad científica y, a diferencia de las otras bases de datos discutidas aquí, planea cobrar una tarifa por -escala de usuarios. El archivo cuenta actualmente con más de 2500 conjuntos de datos de todos los campos de la ciencia. Los conjuntos de datos pueden tener varios archivos, normalmente hasta un límite de tamaño total de 50 & # 8197GB. Los archivos individuales pueden tener un tamaño máximo de 2 & # 8197GB. A cada conjunto de datos se le asigna un DOI para su archivado y descubrimiento permanente, y está vinculado con los metadatos proporcionados por el investigador.

2.2.3. Cuadrícula de datos de biología estructural

La organización SBGrid brinda acceso a los investigadores de muchos laboratorios de biología estructural de todo el mundo a un conjunto de software empaquetado que se puede utilizar en muchas áreas de la biología estructural, incluida la cristalografía de rayos X, la microscopía crioelectrónica, la difracción de electrones y la dispersión de ángulo pequeño. y otras áreas.SBGrid también proporciona acceso a recursos informáticos basados ​​en la nube que realizan cálculos de biología estructural. La cuadrícula de datos de biología estructural es un servicio recientemente iniciado por SBGrid que permite a cualquier investigador de SBGrid archivar datos sin procesar de cualquiera de las áreas de biología estructural de SBGrid. Esta base de datos tiene actualmente más de 240 conjuntos de datos de 62 instituciones diferentes. Cualquiera puede ver los datos y cualquiera puede descargar conjuntos de datos cristalográficos, con secuencias de comandos de cortar y pegar para descargar fácilmente conjuntos de datos individuales. Cada entrada de datos tiene asignado un DOI único, no hay limitaciones en el tamaño de los archivos y se proporcionan metadatos que describen cómo analizar los datos.

2.2.4. Puerta de la investigación

ResearchGate es un servicio de redes sociales científicas comerciales que proporciona un mecanismo simple para que los investigadores publiquen sus artículos científicos e información sobre ellos mismos, y para que los investigadores se comuniquen y discutan temas científicos. Además, ResearchGate permite a los investigadores archivar conjuntos de datos científicos para que cualquiera pueda descargarlos. A los conjuntos de datos se les asigna un DOI y el tamaño de los archivos individuales es limitado.

2.3. Opciones de instalación de láser de rayos X, neutrones y sincrotrón

En la actualidad, hay varios ejemplos sorprendentes de la práctica actual y en evolución en la captura y gestión de datos en una variedad de instalaciones a gran escala que se adaptan a una variedad de técnicas y ciencias. Entre los que conocemos se encuentran el sincrotrón australiano (Clayton, Victoria, Australia), el ESRF, el Institut Laue & # 8211Langevin (ILL, Grenoble, Francia), la fuente de luz Diamond (Didcot, Reino Unido) y la fuente de neutrones ISIS en el Laboratorio Rutherford Appleton (Didcot, Reino Unido). El sincrotrón australiano ha liderado los sincrotrones del mundo en el archivo de datos con su servicio Store.Synchrotron de almacenamiento de datos para cristalografía macromolecular (Meyer et al. , 2014). Además del archivo de datos de imágenes de difracción, también ayuda a los usuarios en sus publicaciones con enlaces a conjuntos de datos sin procesar. vía Registros de DOI y, finalmente, la publicación de conjuntos de datos para análisis público & # 8211 algo que, en la comunidad de neutrones, el ILL también está haciendo. También hay buenos ejemplos como Diamond que hasta ahora ha retenido todos sus datos medidos. El ESRF ha publicado un resumen de sus puntos de vista sobre la era del Big Data en las instalaciones de radiación de sincrotrón en general y los desafíos a los que se enfrenta hoy el propio ESRF (ESRF, 2013). En una reciente declaración alentadora, ha anunciado una política proactiva de archivo de datos (Andy G & # 246tz y colegas de ESRF, comunicación personal).

Todavía existen desafíos muy importantes en la gestión de datos en los laboratorios domésticos y para los proveedores de servicios de mediana escala, como el Servicio Nacional de Cristalografía del Reino Unido (Southampton, Reino Unido). En todos estos lugares, todos los datos de un experimento deben manejarse en el contexto de la gestión de recursos, la procedencia, la validación y el almacenamiento masivo, todo lo cual requiere volúmenes cada vez mayores de metadatos que deben ajustarse a estándares ampliamente aceptados.

2.4. El diluvio de datos

Una advertencia que aplicamos a nuestra alentadora encuesta de soluciones de repositorio es que, a medida que avanza la tecnología, el volumen de datos recopilados aumenta a un ritmo espectacular. Por lo tanto, mientras que el total de descargas totales de la Universidad de Utrecht en 2015 fue de 31 & # 8197GB, un único conjunto de datos producido por un detector Eiger 16M que opera actualmente en una línea de luz de sincrotrón podría ser superior a 70 & # 8197GB. Esto sugiere que las instalaciones experimentales centralizadas, con sus grandes capacidades de almacenamiento de datos y sus redes internas de gigabits, seguirán desempeñando un papel importante como repositorios de primera elección para la retención casi rutinaria de conjuntos de datos. Sin embargo, también puede ser necesario aplicar principios de "triaje", ya sea en el punto de recopilación de datos o en la posterior asignación de almacenamiento a largo plazo. Tal triaje podría eliminar ciertos conjuntos de datos o retener algún subconjunto, de acuerdo con una variedad de criterios posibles. Una sugerencia inicial para un conjunto de tales criterios se propuso en el foro en línea del DDDWG en 2011 (http://forums.iucr.org/viewtopic.php?f=21&t=57) pero aún no ha sido desarrollado por la comunidad. .

3. Metadatos para los requisitos de datos sin procesar

3.1. Un marco de metadatos holístico para la cristalografía

La cristalografía y las ciencias estructurales relacionadas tienen la suerte de tener un enfoque estandarizado para la caracterización y gestión de datos, conocido como el Marco de información cristalográfica (CIF Hall & # 38 McMahon, 1995). Tiene dos componentes: un formato de archivo estándar y un modelo de datos (Hall et al. , 1991 Bernstein et al. , 2016), que facilitan el intercambio de datos entre programas de software, bases de datos estructurales y sistemas de publicación y un conjunto de `diccionarios 'que controlan el significado de las etiquetas asociadas con los valores de los datos, y que pueden imponer restricciones sobre los tipos y valores de los datos cuando corresponda. Estos diccionarios constituyen colectivamente el vocabulario controlado y las definiciones asociadas que representan el significado semántico de un archivo o flujo de datos, lo que se llama a la moda la "ontología" de un dominio científico particular.

Cada diccionario CIF contiene definiciones relevantes para un campo o área temática en particular, como estructuras de células unitarias pequeñas determinadas por difractometría de cristal único (el llamado diccionario "núcleo"), difracción de polvo, estructuras macromoleculares biológicas, estructuras inconmensurables moduladas, Imágenes de difracción o densidad de electrones multipolares (Hall & # 38 McMahon, 2016). Estas compilaciones por temas ofrecen una visión completa de lo que se puede denominar "datos". Por lo tanto, el diccionario central contiene elementos tan diversos como una sola coordenada posicional atómica, la temperatura ambiente en el momento en que se realizó el experimento, las métricas de convergencia del refinamiento de mínimos cuadrados, el software utilizado para generar gráficos moleculares o el texto completo de una publicación científica asociada. Es decir, no hay diferenciación entre elementos que normalmente podrían categorizarse como datos "sin procesar", "procesados" o "derivados", o que podrían caracterizarse como "metadatos".

La ventaja de esta falta de diferenciación es que todos la información necesaria para interpretar, validar o reutilizar un conjunto de datos se puede almacenar en un solo archivo y esto puede facilitar la recopilación y verificación de dicha información durante el curso de un flujo de trabajo experimental. La Fig. 6 ilustra cómo las ontologías CIF informan el "flujo de información coherente" en cada etapa del ciclo de vida del procesamiento de la información en un experimento típico de determinación de estructura. En la práctica, no todos los flujos de trabajo del mundo real utilizan CIF como su mecanismo real para capturar datos y metadatos. Por ejemplo, en grandes instalaciones instrumentales, la información sobre un experimento en particular podría recopilarse dentro de un sistema de gestión de contenido unificado desarrollado por la instalación para dar cabida a una amplia gama de diferentes experimentos científicos (Matthews et al. , 2010). De manera similar, para administrar los requisitos de adquisición de datos de alto rendimiento de los detectores modernos, las imágenes se pueden generar como archivos binarios HDF5 o en formatos propietarios.


Figura 6
Un flujo de información coherente en cristalografía. Las ontologías CIF caracterizan los datos en cada etapa del ciclo de vida del procesamiento de la información, desde los aparatos experimentales hasta el papel publicado y el depósito de bases de datos curadas.

No obstante, todos los conjuntos de datos brutos y metadatos asociados pueden, en principio, convertirse en representaciones CIF, lo que podría ser un beneficio práctico para fines de archivo ( es decir. utilizar una única representación estándar), o al menos puede demostrar qué metadatos importantes faltan, en comparación con los completos compendios del diccionario CIF de lo que se puede y debe recopilar.

Varias Comisiones IUCr continúan compilando definiciones de metadatos relevantes para su campo de interés en forma de diccionarios CIF. Además de los enumerados por Hall & # 38 McMahon (2016), recientemente se ha publicado un diccionario de dispersión de ángulo pequeño (sasCIF) (Kachala et al. , 2016) el trabajo está muy avanzado por la Comisión de Estructuras Magnéticas de la IUCr para caracterizar las estructuras magnéticas y sus simetrías subyacentes (magCIF) y la Comisión de Alta Presión tiene un grupo de trabajo activo que define los aspectos esenciales de la configuración experimental necesaria en la cristalografía no ambiental.

Como se mencionó anteriormente, el diccionario imgCIF describe un formato real para almacenar datos de difracción sin procesar. Sin embargo, también incluye un conjunto bastante completo de elementos de datos que, si se completan por completo y se utilizan junto con otros elementos en los diccionarios CIF centrales o macromoleculares, pueden describir completamente el aparato experimental y los parámetros operativos, lo que permite una interpretación completa de las imágenes archivadas. en este formato. El formato imgCIF en sí se utiliza relativamente poco, en gran parte debido a los requisitos de velocidad en los detectores modernos que requieren diferentes estrategias de adquisición de datos. Sin embargo, existe un esfuerzo continuo para definir términos de metadatos en el formato NeXus cada vez más común (K & # 246nnecke et al. , 2015) que están en concordancia con los elementos de metadatos experimentales definidos en el diccionario imgCIF.

3.2. La diversidad de instrumentación

En esta sección examinamos los detalles de algunos de los problemas encontrados en la práctica con metadatos faltantes o mal caracterizados. La disponibilidad de metadatos en los encabezados de las imágenes y su interpretación por parte de los desarrolladores de software se ha discutido previamente (Tanley, Schreurs et al. , 2013 Kroon-Batenburg y # 38 Helliwell, 2014). Se puede concluir con seguridad que la información de metadatos a menudo falta o es ambigua, es decir. se puede interpretar de diferentes formas. Los fabricantes de hardware pueden usar diferentes palabras para el mismo parámetro físico o sus unidades, y todo está en manos de los desarrolladores de software para hacer un uso correcto de la información de metadatos y completar las partes faltantes, simplemente por conocimiento adquirido o por ensayo y error. . Nos remitimos a la información de apoyo en el artículo de Kroon-Batenburg & # 38 Helliwell (2014) para una discusión entre Kay Diederichs, Toine Schreurs y Loes Kroon-Batenburg sobre & # 966 exploraciones alrededor de un eje no perpendicular al haz de rayos X en un goniómetro fijo & # 967. Aunque había suficiente información disponible en el encabezado, el XDS El software (Kabsch, 2010) ignoró la mayor parte y utilizó el conocimiento de la configuración instrumental (habitual), que en este caso no fue suficiente. Inicialmente, los datos sin procesar, que ahora se encuentran en el archivo de la Biblioteca de la Universidad de Manchester, se almacenaron en un sitio web en la Universidad de Utrecht (http://rawdata.chem.uu.nl) y agregamos una fotografía de la configuración experimental como metadatos para resolver la ambigüedad del goniómetro, p.ej. ¿El eje del husillo apunta hacia arriba o hacia abajo?

Debemos distinguir entre el equipo de difracción diseñado para ser utilizado en combinación con el software del fabricante, que maneja adecuadamente la información de metadatos, y los instrumentos ensamblados como los de una línea de luz de sincrotrón. En el primer caso, llevar los datos a otro lugar para usarlos con software de terceros puede dar lugar a problemas, como lo describe Tanley, Diederichs. et al. (2013). Los encabezados de las imágenes contienen, en el mejor de los casos, el tipo de goniómetro ( p.ej. ` MACH3 con KAPPA 'para Bruker Proteum), pero rara vez se dan las orientaciones y dependencias de los cuatro ejes. En el segundo caso, los detectores comerciales ( p.ej. Pilatus de Dectris) se instalan en una línea de luz y es el software de control de la línea de luz, en estrecha interacción con el software del detector, el responsable de escribir la información en los encabezados de las imágenes. En este entorno mixto, no se capturan todos los metadatos. Por lo general, pero no siempre, se dan la longitud de onda, la distancia del detector a la muestra, el tamaño de píxel y el número de píxeles en cualquier dirección, el ángulo de inicio de rotación y el incremento y el tiempo de exposición.

Los problemas más comunes con los metadatos, sin embargo, están relacionados con las orientaciones de los ejes del goniómetro y las direcciones de rotación, y la definición de las direcciones más rápidas y más lentas en coordenadas de píxeles con respecto a los ejes de laboratorio y el origen de las coordenadas de píxeles es especialmente inquietante. la ausencia o un centro de haz incorrecto (ver más abajo). La tabla & # 1602 da las definiciones de goniómetro conocidas por EVAL software (Schreurs et al. , 2010) y muestra su gran variedad.

Tabla 2
Implementación de tipos de goniómetros en EVAL (Schreurs et al. , 2010 )

Una tabulación interesante de la configuración de la línea de luz para ejecutar autoPROC (Vonrhein et al. , 2011) se ofrece en el sitio web http://www.globalphasing.com/autoproc/wiki. Valores como BeamCentreFrom = encabezado: x, -y , ReversePhi = 'sí' y TwoThetaAxis = `-1 ' se dan para hacer frente a problemas similares a los mencionados anteriormente (Tabla 2). Hay ocho formas posibles en las que los valores de píxeles en el archivo de imagen se relacionan con la cara del detector físico, y los proveedores de detectores utilizan las ocho convenciones posibles (Wladek Minor, comunicación privada). Un centro de haz incorrecto puede obstaculizar el paso de indexación. Se puede estimar el centro del haz mediante una inspección manual, mediante calibración mediante difracción de polvo, realizando un disparo directo del haz o eliminando los puntos de Bragg y utilizando el anillo de difusión de disolvente para encontrar el centro del haz (Vonrhein et al. , 2011) de lo contrario, hay que recurrir a prueba y error. La Fig. 7 muestra el cabezal mini-CBF que Dectris utiliza para los detectores Pilatus. La mayor parte de la información está presente, pero algunos parámetros son ambiguos: Beam_xy : ver discusión arriba Oscilación_axis se da como ' X ': cuál es el X ¿dirección? Polarización es 0.990 : ¿Qué plano tiene la intensidad fuerte? Nos encontramos con una situación especialmente confusa en la que se montó un goniómetro fijo de Bruker con rotación de 90º y nº 176 en la línea de luz de Argonne 15ID-B, mientras que las imágenes se convirtieron a la orientación normal del instrumento de Bruker. Por lo tanto, la dirección de polarización fuerte parecía estar a lo largo del eje de oscilación, pero no era (Jozef Ko & # 382 & # 237 & # 353ek, comunicación privada) solo la cadena SINCROTRÓN OBJETIVO en la cabecera nos advirtió.

Más a priori A menudo se necesitan conocimientos para interpretar los datos de imágenes de difracción. Por ejemplo, existen diferentes convenciones sobre cómo registrar regiones muertas en el detector: las tiras entre los paneles del detector en los detectores Pilatus se indican con ` -1 ', mientras que en los archivos de imagen del detector ADSC se indican con' 0 '. El software de procesamiento de datos debe interpretar correctamente dichos datos de píxeles. Las correcciones de imagen oscura y falta de uniformidad pueden dar lugar a intensidades negativas y algunos controladores de lectura de detectores utilizan el llamado desplazamiento de línea base: se ha agregado un número entero fijo a todas las intensidades de píxeles para evitar tener que almacenar números negativos. Eliminar el desplazamiento de la línea de base es importante para estimar las desviaciones estándar de las intensidades netas de reflexión de Bragg y para medir las intensidades difusas entre los picos de Bragg. Las correcciones de distorsión espacial generalmente se llevan a cabo y no se pueden deshacer o corregir mediante software de procesamiento, pero afectan las desviaciones estándar (Waterman & # 38 Evans, 2010) y esta información debe transmitirse en los metadatos.

El hardware del detector se está desarrollando para experimentos de cristalografía en serie de alta velocidad en instalaciones de láser de electrones libres de rayos X (XFEL) o líneas de haz de sincrotrón de alto flujo que requieren una adquisición de datos ultrarrápida. Un contenedor de formato HDF5, a menudo con una capa de formato de datos NeXus en la parte superior, está diseñado para una entrada / salida (E / S) flexible y eficiente para volúmenes tan altos de datos. Nuevos paquetes de software de procesamiento de datos como CrystFEL (Blanco et al. , 2012 ), cctbx.xfel (Sauter et al. , 2013) y DIALES (Barquero et al. , 2013) para cristalografía en serie están en desarrollo y esto brinda la oportunidad de abordar de nuevo los problemas de metadatos.

Dectris ha instalado el detector Eiger en varias líneas de luz de sincrotrón. Los metadatos están contenidos en un archivo separado ( master.h5 ) vinculando a los archivos de datos de imagen. La representación de datos de NeXus (K & # 246nnecke et al. , 2015), como CIF, es muy flexible y todos los metadatos necesarios se pueden capturar mediante la definición de grupos, campos y atributos de NeXus. En la figura 8 se proporciona un buen ejemplo de cómo se pueden almacenar metadatos consistentes y completos en un archivo imgCIF / CBF (J & # 246rg Kaercher, Bruker AXS, comunicación privada). En el propietario de Bruker .sfrm formatear los ángulos iniciales 2 & # 952, & # 969, & # 966 y & # 967 se dan (` ÁNGULOS:. '). Sus direcciones de eje no están definidas, mientras que están en el formato CBF: las orientaciones y dependencias se dan en el panel de la izquierda de la Fig.8 ( B ). En .sfrm el eje de rotación ' EJE: 2 'indica & # 969, y el ángulo de inicio y el incremento se encuentran en' COMIENZO: 'y' INCREMO: 'los valores equivalentes se encuentran en el encabezado CBF en' _diffrn_scan_axis.displacement_angle 'y' _diffrn_scan_axis.displacement_increment '(Figura 8 B , panel derecho).

4. Una inquietud y una acción derivadas del Taller de depósito de datos por difracción de Rovinj

Se expresó una preocupación durante la discusión abierta en el taller. vía la pregunta ' ¿Podemos alejarnos de la base de conocimientos de los distintos paquetes de software y hacer uso de formatos de metadatos bien desarrollados, como CIF o NeXus? ', es decir. Un formato de datos de imágenes de difracción sin procesar estandarizado facilitaría la vida a los desarrolladores de software, pero requeriría la coordinación entre los fabricantes de detectores. Esto ha llevado directamente a renovados pedidos de un formato de imagen estandarizado de atractivo en toda la comunidad. Junto con esta pregunta, el DDDWG está trabajando para definir los requisitos mínimos para los metadatos. Reconocemos que seguirá habiendo una gran diversidad de formatos de imagen (sobre todo debido a la base de detectores instalada existente y los conjuntos de datos heredados que se han archivado) y utilidades de conversión como eiger2cbf (https://github.com/biochem-fan/eiger2cbf) seguirá siendo necesario. Sin embargo, es importante que cualquiera que busque desarrollar nuevos formatos debe ser muy consciente de la necesidad de una adecuada caracterización e interoperabilidad de los metadatos que hemos descrito anteriormente, y tal conocimiento puede moderar la proliferación de más formatos nuevos sin un valor particular demostrable.

En una discusión separada, se acordó que existe la necesidad de un conjunto de criterios para capturar y validar los metadatos experimentales esenciales para la reproducibilidad de los resultados científicos de cualquier conjunto de datos brutos. La propuesta se refirió a esto como " checkCIF para datos brutos »y se ha establecido una estrecha colaboración sobre este tema con el IUCr COMCIFS (presidido por James Hester, quien también asistió al Taller de Rovinj). Para desarrollar aún más estas ideas, se llevará a cabo un taller dirigido por el DDDWG en la Conferencia ACA 2017 en Nueva Orleans en mayo de 2017.

5. Observaciones finales

En esta revisión temática, hemos proporcionado descripciones del interés en rápido desarrollo y las opciones de almacenamiento para la preservación y reutilización de datos sin procesar dentro del dominio científico supervisado por la IUCr y sus Comisiones. Hemos destacado las iniciativas de los responsables de las políticas científicas hacia un modelo de "ciencia abierta" en el que los cristalógrafos trabajarán en el futuro, lo que traerá nuevas oportunidades de financiación, pero también nuevos códigos de procedimiento dentro de los marcos de la ciencia abierta. Se necesitará educación y capacitación para los cristalógrafos y una discusión franca. En general, ahora contamos con los medios y la organización para la preservación de nuestros datos brutos, pero sigue siendo urgente la necesidad de pensar detenidamente sobre los descriptores de metadatos para cada una de las Comisiones IUCr. Observamos que las Comisiones trabajan dentro de una diversidad de instrumentación, por lo que se requiere una serie de acciones para mejorar esta situación actual.

Hemos identificado específicamente la necesidad de revisar el imperativo de que la comunidad adopte un formato de imagen estandarizado y acordar al menos un conjunto mínimo de metadatos esenciales para la reproducibilidad. El diccionario imgCIF (Hammersley et al. , 2005) es el punto de partida natural del primero, y la interacción entre COMCIFS y CANI (K & # 246nnecke et al. , 2015) demuestra la viabilidad de aplicar una ontología común en diferentes formatos físicos. También hay motivos para el optimismo de que la idea de ' checkCIF for raw data 'atraerá tanto a los investigadores como a los proveedores de instrumentos, dada la entusiasta representación de ambos en el taller de Rovinj. Como ocurre con todas estas iniciativas, la tasa de aceptación dependerá de los impulsores dentro de la comunidad. En el caso del original ' checkCIF 'en el caso de los datos derivados, las revistas de ciencia estructural (especialmente las de IUCr) que exigían metadatos relevantes y verificación de coherencia proporcionaron uno de esos impulsores importantes. En el caso de los datos brutos, que sustentan todas las deducciones y derivaciones científicas posteriores, nos alientan las políticas emergentes sobre gestión de datos de investigación que hemos resumido en este artículo, y las muchas iniciativas de archivo que han surgido en torno a la difracción de rayos X imágenes en el espacio de los últimos años.

Agradecimientos

Agradecemos a la IUCr por su continuo apoyo a las actividades del DDDWG, incluido el Taller en Rovinj que condujo a este y otros artículos. Estamos muy agradecidos a varios institutos de investigación y universidades que enviaron a su personal para participar en ese Taller. Dectris, IUCr Journals, CODATA, Cambridge Crystallographic Data Center, Bruker, FIZ Karlsruhe / ICSD, Oxford Cryosystems y Wiley contribuyeron con el apoyo a los servicios técnicos y los costos de personal asociados, a quienes estamos muy agradecidos. También estamos en deuda con la Asociación Croata de Cristalógrafos por su ayuda activa para asegurar el mejor taller posible para abordar este importante tema.

Referencias

Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H., Shindyalow, I. N. & # 38 Bourne, P. E. (2000). Ácidos nucleicos Res. 28 , 235 & # 8211242. Web of Science CrossRef PubMed CAS Google Scholar
Bernstein, H. J. (2005). Clasificación y uso de datos de imágenes . Tablas internacionales de cristalografía , Vol. GRAMO, Definición e intercambio de datos cristalográficos , editado por S. R. Hall y B. McMahon, págs. 199 & # 8211205. Dordrecht: Springer. Google Académico
Bernstein, HJ, Bollinger, JC, Brown, ID, Gra & # 382ulis, S., Hester, J. & # 160R., McMahon, B., Spadaccini, N., Westbrook, JD & # 38 Westrip, SP (2016) . J. Appl. Cryst. 49 , 277 y # 8211284. Web of Science CrossRef CAS IUCr Journals Google Académico
Bernstein, H. J., Sloan, J. M., Winter, G., Richter, T. S., NIAC & # 38 COMCIFS (2013). Hacer frente a los formatos de imagen de BIG DATA: integración de CBF, NeXus y HDF5 . Reunión de la Asociación Estadounidense de Cristalografía, 20 y # 821124 de julio de 2013, Honolulu, Hawái, EE. UU. Póster T-16. Google Académico
Diederichs, K. y # 38 Karplus, P. A. (2013). Acta Cryst. D 69 , 1215 & # 82111222. Web of Science CrossRef CAS IUCr Journals Google Académico
Centro de curaduría digital (2016). Descripción general de las políticas de datos de los financiadores. http://www.dcc.ac.uk/resources/policy-and-legal/overview-funders-data-policies. Google Académico
ESRF (2013). ESRFnews , Edición de diciembre, págs. 14 y # 821121. ESRF, Grenoble, Francia. Google Académico
Grabowski, M., Langner, KM, Cymborowski, M., Porebski, PJ, Sroka, P., Zheng, H., Cooper, DR, Zimmerman, MD, Elsliger, M.-A., Burley, SK & # 38 Menor, W. (2016). Acta Cryst. D 72 , 1181 y # 82111193. Web of Science CrossRef IUCr Journals Google Académico
Guss, J. M. y # 38 McMahon, B. (2014). Acta Cryst. D 70 , 2520 y # 82112532. Web of Science CrossRef IUCr Journals Google Académico
Gutmanas, A., Oldfield, T. J., Patwardhan, A., Sen, S., Velankar, S. & # 38 Kleywegt, G. J. (2013). Acta Cryst. D 69 , 710 & # 8211721. Web of Science CrossRef CAS IUCr Journals Google Académico
Hall, S. R., Allen, F. H. y nº 38 Brown, I. D. (1991). Acta Cryst. A 47 , 655 & # 8211685. CSD CrossRef CAS Web of Science IUCr Journals Google Académico
Hall, S. R. y # 38 McMahon, B. (1995). Editores. Tablas internacionales de cristalografía , Vol. GRAMO, Definición e intercambio de datos cristalográficos . Dordrecht: Springer. Google Académico
Hall, S. R. y # 38 McMahon (2016). Data Sci. J. 15 , 3. Google Académico
Hammersley, A. P., Bernstein, H. J. y # 38 Westbrook, J. D. (2005). Diccionario de imágenes (imgCIF) . Tablas internacionales de cristalografía , Vol. GRAMO, Definición e intercambio de datos cristalográficos , editado por S. & # 160R. Hall y B. McMahon, págs. 444 y # 8211458. Dordrecht: Springer. Google Académico
Hester, J. R. (2016). Data Sci. J. 15 , 12. CrossRef Google Scholar
Organización Internacional de Genómica Estructural (2001). Informe del Grupo de Trabajo sobre Criterios Numéricos en Genómica Estructural. http://www.isgo.org/organization/members07/010410.html. Google Académico
Jacques, D. A., Guss, J. M., Svergun, D. I. & # 38 Trewhella, J. (2012). Acta Cryst. D 68 , 620 & # 8211626. Web of Science CrossRef CAS IUCr Journals Google Académico
Jones, B. (2015). Hacia la nube europea de ciencia abierta . http://doi.org/10.5281/zenodo.16001. Google Académico
Kabsch, W. (2010). Acta Cryst. D 66 , 125 & # 8211132. Web of Science CrossRef CAS IUCr Journals Google Académico
Kachala, M., Westbrook, J. y # 38 Svergun, D. (2016). J. Appl. Cryst. 49 , 302 & # 8211310. Web of Science CrossRef CAS IUCr Journals Google Académico
K & # 246nnecke, M. et al. (2015). J. Appl. Cryst. 48 , 301 & # 8211305. Web of Science CrossRef IUCr Journals Google Académico
Kroon-Batenburg, L. M. J. & # 38 Helliwell, J. R. (2014). Acta Cryst. D 70 , 2502 y # 82112509. Web of Science CrossRef IUCr Journals Google Académico
Marsh, R. E., Kapon, M., Hu, S. & # 38 Herbstein, F. H. (2002). Acta Cryst. B 58 , 62 y # 821177. CSD CrossRef CAS IUCr Journals Google Académico
Matthews, B., Sufi, S., Flannery, D., Lerusse, L., Griffin, T., Gleaves, M. & # 38 Kleese, K. (2010). En t. J. Digit. Curación , 5 , 106 & # 8211118. CrossRef Google Académico
Messori, L. y # 38 Merlino, A. (2016). Coord. Chem. Rvdo. 315 , 67 y # 821189. Web of Science CrossRef CAS Google Scholar
Meyer, GR, Arag & # 227o, D., Mudie, Nueva Jersey, Caradoc-Davies, TT, McGowan, S., Bertling, PJ, Groenewegen, D., Quenette, SM, Bond, CS, Buckle, AM & # 38 Androulakis , S. (2014). Acta Cryst. D 70 , 2510 y # 82112519. Web of Science CrossRef IUCr Journals Google Académico
Meyer, P. A. et al. (2016). Nat. Comun. 7 , 10882. Web of Science CrossRef PubMed Google Scholar
Menor, W., Dauter, Z., Helliwell, J. R., Jaskolski, M. & # 38 Wlodawer, A. (2016). Estructura , 24 , 216 y # 8211220. Web of Science CrossRef CAS PubMed Google Scholar
Fundación Nacional de Ciencias (2010). Preguntas frecuentes sobre administración y uso compartido de datos (FAQ). http://www.nsf.gov/bfa/dias/policy/dmpfaqs.jsp. Google Académico
Biblioteca de la Universidad Northwestern (2016). Gestión de datos: requisitos de la agencia federal de financiación. http://libguides.northwestern.edu/datamanagement/federalfundingagency. Google Académico
Ravel, B., Hester, J. R., Sol & # 233, V. A. & # 38 Newville, M. (2012). J. Synchrotron Rad. 19 , 869 & # 8211874. Web of Science CrossRef CAS IUCr Journals Google Académico
Research Councils UK (2015). Orientación sobre las mejores prácticas en la gestión de datos de investigación. http://www.rcuk.ac.uk/documents/documents/rcukcommonprinciplesondatapolicy-pdf/. Google Académico
Sauter, N. K., Hattne, J., Grosse-Kunstleve, R. W. & # 38 Echols, N. (2013). Acta Cryst. D 69 , 1274 y # 82111282. Web of Science CrossRef CAS IUCr Journals Google Académico
Schreurs, A. M. M., Xian, X. & # 38 Kroon-Batenburg, L. M. J. (2010). J. Appl. Cryst. 43 , 70 y # 821182. Web of Science CrossRef CAS IUCr Journals Google Académico
Science International (2015). Datos abiertos en un mundo de Big Data. París: Consejo Internacional de Ciencias (ICSU), Consejo Internacional de Ciencias Sociales (ISSC), Academia Mundial de Ciencias (TWAS), InterAcademy Partnership (IAP). Google Académico
Shabalin, I., Dauter, Z., Jaskolski, M., Minor, W. & # 38 Wlodawer, A. (2015). Acta Cryst. D 71 , 1965 & # 82111979. Web of Science CrossRef IUCr Journals Google Académico
Strickland, P. R., Hoyland, M. A. y # 38 McMahon, B. (2005). Publicación de estructuras cristalinas de moléculas pequeñas mediante CIF . Tablas internacionales de cristalografía , Vol. GRAMO, Definición e intercambio de datos cristalográficos , editado por S. R. Hall y B. McMahon, págs. 557 y # 8211569. Dordrecht: Springer. Google Académico
Tanley, S. W. M., Diederichs, K., Kroon-Batenburg, L. M. J., Levy, C., Schreurs, A. M. M. & # 38 Helliwell, J. R. (2015). Acta Cryst. D 71 , 1982 & # 82111983. Web of Science CrossRef IUCr Journals Google Académico
Tanley, S. W. M., Diederichs, K., Kroon-Batenburg, L. M. J., Schreurs, A. M. M. & # 38 Helliwell, J. R. (2013). J. Synchrotron Rad. 20 , 880 y # 8211883. Web of Science CrossRef CAS IUCr Journals Google Académico
Tanley, S. W. M., Schreurs, A. M. M., Helliwell, J. R. & # 38 Kroon-Batenburg, L. M. J. (2013). J. Appl. Cryst. 46 , 108 & # 8211119. Web of Science CrossRef CAS IUCr Journals Google Académico
Tanley, S. W. M., Schreurs, A. M. M., Kroon-Batenburg, L. M. J. & # 38 Helliwell, J. R. (2016). Acta Cryst. F 72 , 253 y # 8211254. Web of Science CrossRef IUCr Journals Google Académico
Terwilliger, T. C. (2012). Mejora continua de estructuras cristalinas macromol y # 173ecular . Insights del ICSTI: The Living Publication , págs. 16 y # 821129 (http://www.icsti.org/IMG/pdf/Living_publication_Final-2.pdf). París: ICSTI. Google Académico
Terwilliger, T. C. (2014). Acta Cryst. D 70 , 2500 y # 82112501. Web of Science CrossRef IUCr Journals Google Académico
Terwilliger, T. C. y # 38 Bricogne, G. (2014). Acta Cryst. D 70 , 2533 y # 82112543. Web of Science CrossRef IUCr Journals Google Académico
Toby, B. H. (2005). Clasificación y uso de datos de difracción de polvo . Tablas internacionales de cristalografía , Vol. GRAMO, Definición e intercambio de datos cristalográficos , editado por S. R. Hall y B. McMahon, págs. 117 & # 8211130. Dordrecht: Springer. Google Académico
Vonrhein, C., Flensburg, C., Keller, P., Sharff, A., Smart, O., Paciorek, W., Womack, T. & # 38 Bricogne, G. (2011). Acta Cryst. D 67 , 293 & # 8211302. Web of Science CrossRef CAS IUCr Journals Google Académico
Waterman, D. y # 38 Evans, G. (2010). J. Appl. Cryst. 43 , 1356 & # 82111371. Web of Science CrossRef CAS IUCr Journals Google Académico
Waterman, D. G., Winter, G., Parkhurst, J. M., Fuentes-Montero, L., Hattne, J., Brewster, A., Sauter, N. K. & # 38 Evans, G. (2013). CCP4 Newsl. Proteína Crystallogr. 49 , 16 & # 821119. Google Académico
White, T. A., Kirian, R. A., Martin, A. V., Aquila, A., Nass, K., Barty, A. & # 38 Chapman, H. N. (2012). J. Appl. Cryst. 45 , 335 & # 8211341. Web of Science CrossRef CAS IUCr Journals Google Académico

Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia Creative Commons Attribution (CC-BY), que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que se citen los autores originales y la fuente.


Título: Experiencias con la puesta a disposición de datos de imágenes de difracción: ¿qué metadatos necesitamos archivar?

Se puso a disposición un archivo local de 'imágenes de datos de difracción' sin procesar y se recuperaron y reprocesaron algunos conjuntos de datos, lo que llevó al análisis de las densidades de diferencia anómalas de dos átomos de Cl parcialmente ocupados en cisplatino, así como a una reevaluación del límite de resolución en estos datos de difracción. Se discuten cuestiones generales sobre el almacenamiento de datos brutos. También se demuestra que a menudo se necesitan conocimientos previos inequívocos para leer el formato del detector (binario) y la configuración de las geometrías del goniómetro. Recientemente, la IUCr (Unión Internacional de Cristalografía) inició la formación de un Grupo de Trabajo de Deposición de Datos de Difracción con el objetivo de desarrollar estándares para la representación de datos de difracción sin procesar asociados con la publicación de documentos estructurales. El archivo de datos sin procesar sirve para varios objetivos: mejorar el registro de la ciencia, verificar la reproducibilidad y permitir verificaciones detalladas de los datos científicos, proteger contra el fraude y permitir un nuevo análisis con técnicas mejoradas en el futuro. Una forma de estudiar este tema es enviar publicaciones ejemplares con metadatos y datos brutos asociados. En un estudio reciente sobre la unión de cisplatino y carboplatino a histidina en cristales de lisozima en varias condiciones, se compararon los posibles efectos del equipo y el software de procesamiento de datos de difracción de rayos X sobre más y raquo las ocupaciones y los factores B de los compuestos de Pt unidos. Inicialmente, se transfirieron 35,3 GB de datos de Manchester a Utrecht para ser procesados ​​con EVAL. Se publicó una descripción detallada y una discusión de la disponibilidad de metadatos en un artículo que estaba vinculado a un archivo de datos sin procesar local en la Universidad de Utrecht y también se reflejó en el archivo de datos de difracción sin procesar de TARDIS en Australia. Al hacer que estos conjuntos de datos de difracción sin procesar estén disponibles con el artículo, es posible que la comunidad de difracción realice su propia evaluación. Esto llevó a uno de los autores de XDS (K. Diederichs) a reintegrar los datos de los cristales que supuestamente solo contenían carboplatino unido, lo que resultó en el análisis de densidades de electrones anómalas de cloro parcialmente ocupadas cerca de los sitios de unión de Pt y el uso de varios criterios para evaluar más cuidadosamente el límite de resolución de difracción. Se discuten los argumentos generales para archivar datos brutos, las posibilidades de hacerlo y el requerimiento de recursos. Se discuten los problemas asociados con una configuración experimental parcialmente desconocida, que preferiblemente debería estar disponible como metadatos. Se resumen los pensamientos actuales sobre la compresión de datos, lo que podría ser una solución especialmente para conjuntos de datos de dispositivos de píxeles con un corte fino que de otro modo podría presentar una cantidad de datos inmanejable. & laquo menos


Una base de datos pública de experimentos de difracción macromolecular

La reproducibilidad de los resultados experimentales publicados ha atraído recientemente la atención en muchos campos científicos diferentes. La falta de disponibilidad de datos científicos primarios originales representa un factor importante que contribuye a los problemas de reproducibilidad; sin embargo, la comunidad de biología estructural ha dado pasos importantes para que los datos experimentales estén disponibles.

La cristalografía macromolecular de rayos X ha liderado el camino al requerir la difusión pública de coordenadas atómicas y una gran cantidad de datos experimentales a través del Protein Data Bank (PDB) y proyectos similares, lo que convierte a este campo en uno de los más reproducibles en las ciencias biológicas.

La IUCr encargó al Grupo de Trabajo de Deposición de Datos por Difracción (DDDWG) en 2011 que examinara los beneficios y la viabilidad de archivar imágenes de difracción sin procesar en cristalografía. El informe trienal del DDDWG 2011-2014 hizo varias recomendaciones clave con respecto a la preservación de los datos de difracción sin procesar. Sin embargo, no queda ningún mandato para la divulgación pública de los datos de difracción originales.

El recurso integrado para la reproducibilidad en cristalografía macromolecular (IRRMC) es parte del programa Big Data to Knowledge de los Institutos Nacionales de Salud y se ha desarrollado para archivar datos sin procesar de experimentos de difracción y, lo que es igualmente importante, para proporcionar metadatos relacionados. La base de datos [Grabowski et al. (2016). Acta Cryst. D72, 1181-1193, doi: 10.1107 / S2059798316014716], contiene en el momento de escribir 3070 experimentos de difracción macromolecular (5983 conjuntos de datos) y sus correspondientes metadatos parcialmente curados, que representan alrededor del 3% de todas las deposiciones en el Protein Data Bank. El recurso está disponible en http: // www. proteindifracción. org y se puede buscar utilizando varios criterios a través de una interfaz simple y optimizada. Todos los datos están disponibles para acceso y descarga sin restricciones. El recurso sirve como prueba de concepto y demuestra la viabilidad de archivar datos de difracción sin procesar y metadatos asociados de estudios cristalográficos de rayos X de macromoléculas biológicas.

Al hablar con un periodista sobre el proyecto, el líder del equipo, Wladek Minor, dijo: "Hay tanta investigación en curso que no se puede publicar todo y, a menudo, los resultados de estudios fallidos no aparecen en la literatura. Creo que la clave para el éxito es conocer los experimentos fallidos, queremos saber por qué fracasan ".

El objetivo del proyecto es expandir el IRRMC e incluir conjuntos de datos que no produjeron estructuras de rayos X. Esto podría facilitar los esfuerzos de colaboración para mejorar los métodos de determinación de la estructura de las proteínas y también garantizar la disponibilidad de datos "huérfanos" dejados por investigadores individuales y / o proyectos de genómica estructural extintos.

Descargo de responsabilidad: AAAS y EurekAlert! no son responsables de la precisión de los comunicados de prensa publicados en EurekAlert. por las instituciones contribuyentes o para el uso de cualquier información a través del sistema EurekAlert.


¿Se dispone de datos originales de difracción de rayos X? - Biología

a Ciencias de la vida, fuente de luz de diamante, campus de ciencia e innovación de Harwell, Didcot, Oxfordshire OX11 0DE, Reino Unido y B División de Biología Estructural, Universidad de Oxford, Centro Wellcome de Genética Humana, Oxford, Oxfordshire OX3 7BN, Reino Unido
* Correo electrónico de correspondencia: [email protected], [email protected]

El desarrollo de métodos para determinar estructuras de alta resolución a partir de cristales de proteínas de tamaño micrométrico o incluso submicrométrico se ha vuelto cada vez más importante en los últimos años. Esto se aplica tanto a los complejos de proteínas grandes como a las proteínas de membrana, donde la producción de proteínas y el subsiguiente crecimiento de cristales homogéneos grandes a menudo es un desafío, y a las muestras que producen solo micro o nanocristales como proteínas amiloides o polihedrinas virales. La versátil línea de luz de microenfoque de cristalografía macromolecular (VMXm) en Diamond Light Source se especializa en mediciones de difracción de rayos X de micro y nanocristales. Debido a la posibilidad de medir datos de muestras cristalinas que se acercan al límite de resolución de la microscopía de luz visible, el diseño de la línea de luz incluye un microscopio electrónico de barrido (SEM) para visualizar, ubicar y centrar con precisión los cristales para experimentos de difracción de rayos X. Para asegurar que la microscopía electrónica de barrido es un método apropiado para la visualización de muestras, se llevaron a cabo pruebas para evaluar el efecto de la radiación SEM en la calidad de la difracción. Los cristales de proteína de polihedrina del virus de la poliedrosis citoplasmática crioenfriados en rejillas de microscopía electrónica se expusieron a radiación SEM antes de que se recogieran los datos de difracción de rayos X. Después de procesar los datos con DIALES , no se encontraron diferencias estadísticamente significativas en la calidad de los datos entre los conjuntos de datos recopilados de cristales expuestos y no expuestos a radiación SEM. Este estudio apoya el uso de un SEM como herramienta para la visualización de cristales de proteínas y como herramienta de visualización integrada en la línea de luz VMXm.

1. Introducción

En la última década, las líneas de rayos X de microfoco han facilitado los avances en biología estructural al proporcionar haces de rayos X cada vez más pequeños e intensos. Los tamaños de cristales del orden de decenas de micrómetros hasta unos pocos micrómetros ahora se consideran en general objetivos accesibles, aunque desafiantes, para proyectos de biología estructural de proteínas. Los enfoques de láser de electrones libres de rayos X (XFEL) de cristalografía en serie de femtosegundos también han superado este límite, utilizando decenas de miles de microcristales [para una revisión, véase Martin-García et al. (2016)] e incluso nanocristales (Gati et al. , 2017) para determinar estructuras proteicas de alta resolución. Aún así, las técnicas basadas en XFEL tienen sus desafíos, incluida la gran cantidad de cristales necesarios, la incapacidad de recopilar datos de rotación y también el gasto y la disponibilidad limitada del tiempo de haz XFEL. También se están desarrollando métodos de cristalografía en serie de sincrotrón, pero de nuevo a menudo requieren una cantidad razonablemente grande de cristales (Ebrahim et al. , 2019 Diederichs y # 38 Wang, 2017). La difracción de electrones es otra técnica creciente para la determinación de la estructura a partir de cristales de proteínas que tienen un tamaño de unos cientos de nanómetros (Shi et al. , 2013 Nannenga et al. , 2014 Yonekura et al. , 2015 Clabbers et al. , 2017 Xu et al. , 2018), con un límite superior para el espesor de la muestra de & # 8764400 & # 8211500 & # 8197nm (Shi et al. , 2013). El fresado con haz de iones enfocado promete una manera de eludir este límite de espesor al eliminar selectivamente el exceso de muestra de cristal para dar una laminilla delgada (& # 8764200 & # 8197nm) de la cual se pueden recolectar datos (Duyvesteyn et al. , 2018 Martynowycz et al. , 2019). Aún así, los microscopios cryoEM equipados con detectores dedicados y software para estudios de difracción de electrones de proteínas de baja dosis son razonablemente escasos.

La versátil línea de luz de microenfoque de cristalografía macromolecular (VMXm) en Diamond Light Source, parte del conjunto de líneas de luz VMX, tiene como objetivo aumentar aún más el alcance de los tamaños de cristal disponibles para la cristalografía de rayos X basada en sincrotrón. VMXm está diseñado para permitir la recopilación de conjuntos de datos de rotación de cristales que miden hasta 0.5 & # 8197 & # 181m de tamaño, reduciendo así el material de muestra requerido para la determinación de la estructura de la proteína, en comparación con los métodos en serie, al mejorar la calidad de los datos registrados de cada individuo. cristal. Además, los cristales que miden varios micrómetros o menos pueden encontrar una tasa reducida de daño por radiación durante los experimentos de difracción de rayos X al aprovechar los posibles efectos de escape de fotoelectrones (Nave & # 38 Hill, 2005). Una discusión de Holton & # 38 Frankel (2010) sugirió que es posible, en condiciones ideales, determinar una estructura de resolución 2.0 & # 8197 & # 197 a partir de un único cristal esférico de proteína lisozima con un diámetro de & # 87641.2 & # 8197 & # 181m. Esta simulación ignoró todas las contribuciones a la dispersión de fondo que surgen del disolvente desordenado dentro del cristal. VMXm tiene como objetivo cerrar la brecha entre la teoría y lo que es posible actualmente en la cristalografía macromolecular utilizando rayos X de sincrotrón. Hasta la fecha y hasta donde sabemos, los cristales más pequeños medidos utilizando el método de rotación en un sincrotrón para producir una estructura fueron reportados por Ginn. et al. (2015), donde los datos de difracción de cristales de tamaño 768 & # 87641.0 & # 8197 & # 181m 3 se registraron en la línea de luz Diamond I24, se analizaron y fusionaron para producir un conjunto de datos completo con una resolución de 2.2 & # 8197 & # 197.

La óptica de línea de luz VMXm entregará un tamaño de haz de rayos X vertical variable enfocado de 0.3 & # 821110 & # 8197 & # 181m usando un único espejo de longitud focal fija de perfil personalizado (Laundy et al. , 2016). Los tamaños de haz horizontal de 0.5 & # 82115 & # 8197 & # 181m deben lograrse utilizando un esquema de demagnificación de dos etapas y una apertura de fuente secundaria variable. El monocromador de doble cristal de desviación horizontal permite energías entre 6 y 28 & # 8197keV y, dependiendo de la configuración óptica, entregará entre 10 11 y 10 12 & # 8197photons & # 8197s & # 87221 a la muestra cuando opere a 12 & # 8197keV. Las muestras para VMXm se prepararán normalmente en rejillas de microscopía electrónica utilizando técnicas tomadas de cryoEM. Para mejorar aún más la señal a ruido de los rayos X difractados, el entorno de la muestra se mantendrá bajo un vacío de & # 876410 & # 87226 & # 8197mbar. A partir de enero de 2020, se completó la construcción principal de la línea de luz, con la puesta en marcha de sus componentes en curso.

La recopilación de datos de rotación, a diferencia de imágenes fijas individuales, de cristales de proteínas que miden menos de un micrómetro plantea muchos desafíos prácticos más allá de las limitaciones obvias del daño por radiación, en particular, ubicar y centrar cristales de este tamaño en el haz de rayos X. Para permitir la recopilación de datos de rotación de cristales en este rango de tamaño, VMXm tiene como objetivo producir tanto una posición de haz como una posición de muestra, estable dentro de 50 & # 8197nm. Estas especificaciones de diseño imponen imágenes de alta precisión y resolución de la posición de la muestra para garantizar la coincidencia del haz y la muestra. Por lo tanto, para alinear y visualizar microcristales y nanocristales, que podrían estar por debajo del poder de resolución de un microscopio óptico de luz, se ha incorporado un microscopio electrónico de barrido (SEM) en el entorno de muestra de la estación final VMXm. Aunque se han explorado otros métodos para visualizar y centrar cristales de proteínas en otros lugares (para una revisión, ver Becker et al. , 2017), la calidad de resolución superior de un SEM y la independencia de la calidad de imagen del SEM del grupo de espacio cristalino, la morfología, la orientación y la secuencia de proteínas, formaron la base de esta decisión de diseño. Sin embargo, una consideración al usar un SEM de esta manera es el potencial de daño a las muestras como resultado de las interacciones de los electrones. En un análisis de Hattne et al. (2018), el daño por radiación global y específico del sitio resultante del uso de un haz de electrones de 200 & # 8197keV sugirió que una dosis de electrones incidente de & # 87643 & # 8197e & # 8722 & # 8197 & # 197 & # 87222 resultó en la pérdida de información de alta resolución (clasificados como reflejos de resolución 3 & # 8197 & # 197 y superiores). Esto está en línea con análisis previos que han evaluado el daño por radiación inducida por electrones en cristales de proteínas (Chiu, 2006 Henderson, 1995).

Las aplicaciones de CryoSEM para muestras biológicas sin recubrimiento utilizan energías de excitación con órdenes de magnitud inferiores a las de los métodos de microscopía electrónica de transmisión (TEM) descritos por Hattne. et al. (2018). En lugar de necesitar penetrar a través de todo el volumen del cristal como en los experimentos basados ​​en TEM, el haz SEM solo necesita interactuar con la capa superficial del cristal para la formación de imágenes. Aunque hay pocos datos publicados para los volúmenes de interacción SEM de cristales de proteína cuando se utilizan energías incidentes de electrones bajas (& # 605 & # 8197keV), una estimación de Kanaya & # 8211Okayama del hemisferio de interacción del carbono amorfo puro es & # 8764110 & # 8197nm a 2 & # 8197keV (Kanaya & # 38 Okayama, 1972). Simulaciones de Monte Carlo realizadas por Barnett et al. sugieren que la profundidad de penetración de electrones de 2 & # 8197keV en el hielo de agua es & # 8764150 & # 8197nm, aunque otros experimentos del mismo grupo sugieren que estas simulaciones quizás subestiman esta profundidad (Barnett et al. , 2012). Finalmente, las simulaciones de la interacción de electrones 2 & # 8197keV con quitina recubierta de grafeno proporcionaron una profundidad de penetración máxima de 140 & # 8197nm (Park et al. , 2016). Dados estos datos, es probable que la profundidad de interacción de un electrón de 2 & # 8197keV dentro de un cristal de proteína sea del orden de 100 a 200 & # 8197nm.

En este estudio, los cristales de proteína poliedros de Lymantria dispar Se obtuvieron imágenes del virus de la poliedrosis citoplasmática (CPV14) utilizando un SEM fuera de línea, cuya columna se integrará directamente en la estación final VMXm para permitir la visualización y el centrado futuros de los cristales de proteínas. Los datos de difracción de rayos X se recopilaron posteriormente a partir de estos mismos cristales con imágenes SEM. El objetivo era identificar si la recopilación de imágenes SEM era perjudicial para la calidad de difracción de los cristales de CPV14. Esto se llevó a cabo evaluando si se observaba alguna diferencia significativa entre los datos de difracción medidos a partir de muestras de cristal expuestas a electrones frente a las que no lo estaban. Demostramos que la obtención de imágenes SEM de dosis baja es un método viable para localizar y alinear con precisión los cristales de proteínas sin afectar la calidad de difracción antes de la recopilación de datos de rayos X.

2. Materiales y métodos

2.1. Simulaciones de Monte Carlo

El programa CASINO (Hovington et al. , 1997 Drouin et al. , 2007) se utilizó para simular la trayectoria y la profundidad de penetración de electrones de 2 & # 8197keV en un cristal de proteína. Se simularon un total de 200 & # 8197electrones como un haz de 10 & # 8197nm. La muestra de cristal de proteína se describió como 1000 & # 8197nm de espesor con la fórmula C 1284 H 2695 norte 351 O 748 S 12 y una densidad de 1,35 & # 8197g & # 8197cm & # 87223. Esta estequiometría emula la composición química de los cristales de CPV14 con un contenido de disolvente del 22% [PDB ID 5a96 (Ji et al. , 2015 )].

2.2. Preparación y cristalización de proteínas

Los poliedros de CPV14 se expresaron y purificaron como se describió anteriormente (Hill et al. , 1999 Anduleit et al. , 2005 Ji et al. , 2015). Los cristales de CPV14 cúbicos purificados midieron 2 & # 82114 & # 8197 & # 181m en cada dimensión y se almacenaron como una suspensión en H 2 O a 4 & # 176C.

2.3. Montaje de muestra

La suspensión de cristales de CPV14 se diluyó 1 en 12 en una solución de etil & # 173en glicol para dar una concentración final de etil & # 173en glicol del 50% ( v / v ). Se añadió etil & # 173en glicol para permitir un control más fino sobre el proceso de transferencia subsiguiente y para asegurar la crioprotección de los cristales.

Los cristales se crioenfriaron en rejillas de microscopía electrónica en preparación para análisis adicionales. Las rejillas de malla Cu 200 recubiertas con película de carbono Quantifoil R 2/2 (Quantifoil) o rejillas de búsqueda H7 de malla Cu 400 con carbón perforado (AgarScientific) se descargaron con brillo antes de la aplicación de la muestra. Una alícuota de 2 & # 8197 & # 181l del 50% ( v / v ) se aplicó etil & # 173en glicol al lado de Cu de la rejilla, seguido de la aplicación de 2 & # 8197 & # 181l de la suspensión de cristales diluidos sobre la película de carbono. A continuación, se secó la rejilla durante 3,0 & # 82115,5 & # 8197 s desde el lado de Cu de la rejilla usando un Leica EM GP (20 & # 176C, humedad 90%). A continuación, las rejillas secadas se congelaron por inmersión en etano líquido. Las rejillas se almacenaron bajo nitrógeno líquido hasta que se requirieron.

2.4. Tratamiento de muestra

Las muestras se dividieron en cuatro grupos de tratamiento: no tratadas, cargadas con SEM, SEM no expuestas y SEM expuestas, cuyos detalles se describen en las Secciones 2.4.1 y # 82112.4.3. Las pruebas para evaluar el daño por radiación como resultado de la exposición al haz de electrones se realizaron utilizando un SEM JEOL JSM-IT100 equipado con un sistema de crioejecución y criotransferencia Quorum PP3000T. La etapa de preparación (prepstage) y el anticontaminador de PP3000T se enfriaron a & # 8722180 & # 176C, & # 8722180 & # 176C y & # 8722190 & # 176C, respectivamente. Se utilizó una lanzadera TEM de exploración Zeiss de cobre recubierta de oro para contener las muestras durante estos experimentos.

2.4.1. Sin tratar

Las muestras sin tratar se congelaron por inmersión en etano líquido y se almacenaron en nitrógeno líquido como se detalla en la Sección 2.3.

2.4.2. SEM cargado

Las muestras cargadas con SEM se transfirieron adicionalmente al SEM utilizando el sistema de criotransferencia. Se cargaron muestras congeladas por inmersión en la lanzadera bajo nitrógeno líquido. Se utilizó el sistema de criotransferencia para transferir las muestras a la cámara de preparación enfriada del SEM. La lanzadera se colocó en la etapa de preparación durante 30 y # 8197 segundos antes de transferirla a la etapa de SEM durante 2 y # 8197 minutos. A continuación, la lanzadera se replegó de nuevo a la etapa de preparación durante 30 segundos más antes de transferirla del vacío al nitroógeno líquido utilizando el sistema de criotransferencia. A continuación, se sacó la muestra de la lanzadera y se almacenó bajo nitrógeno líquido.

2.4.3. SEM no expuesto y SEM expuesto

Los cristales para los experimentos de difracción de rayos X expuestos a SEM y no expuestos a SEM estaban todos en la misma rejilla para controlar la variación de la muestra entre rejillas debido al manejo de la rejilla. Estas rejillas se trataron de la misma manera que las muestras cargadas con SEM (consulte la Sección 2.4.2); sin embargo, en lugar de la incubación de 2 & # 8197min en la etapa SEM, las rejillas se mantuvieron en esta etapa durante & # 87641.5 & # 8197h mientras que SEM Se llevaron a cabo exposiciones. Se obtuvieron imágenes de los cristales expuestos a SEM a un voltaje de aceleración de 2 & # 8197 kV, una corriente de sonda de 40 (unidades arbitrarias) y una distancia de trabajo de 10 & # 8197 mm. Para ayudar con la navegación alrededor de la cuadrícula y para evaluar la calidad de la cuadrícula, se tomó una imagen global de la cuadrícula con un aumento de 30 & # 215 usando un tiempo de adquisición de 0.5 & # 8197s (dosis total, 4.6 & # 215 10 & # 87228 & # 8197e & # 8722 y # 8197 y # 197 y # 87222). Luego se usó un solo cuadrado de cuadrícula para optimizar el enfoque y el astigmatismo. Los parámetros óptimos fueron aquellos que proporcionaron la imagen más nítida a juzgar por el ojo. El contraste y el brillo de la imagen se optimizaron utilizando la función de contraste automático y brillo de la InTouchScope paquete de software (JEOL). Se tomaron imágenes de cuadrículas individuales que contenían cristales con un aumento de 1900 & # 215 usando un tiempo de adquisición de 20 & # 8197s (7,6 & # 215 10 & # 87223 & # 8197e & # 8722 & # 8197 & # 197 & # 87222). Se tomaron imágenes de entre 50 y 75 cuadrados de cuadrícula con estas condiciones, los cristales en estas imágenes formaron la población expuesta a SEM. El resto de la cuadrícula se dejó sin exponer a los electrones. Los cristales en estas áreas formaron la población no expuesta a SEM. Se puede encontrar una descripción de los cálculos de dosis de electrones para estas imágenes en la Información de respaldo.

2.5. Recolección de datos de rayos X

Se montaron rejillas de microscopía electrónica en el goniómetro de línea de luz usando un pin de muestra hecho a medida. El pasador constituía un clip para vasos sanguíneos (producto 14120, World Precision Instruments) sobre una base de pasador magnético estándar sostenida en su lugar con 3M Scotch-Weld Ep & # 173oxy Adhesive 1838 [ver Figs. & # 8197S1 ( a ) Y # 8211S1 ( C ) en la información de apoyo]. Las rejillas se transfirieron al pasador bajo nitro líquido & # 173gen y luego se taparon [Figs. S1 ( D ) Y # 8211S1 ( F )]. La clavija tapada se montó en el goniómetro a mano y la tapa se quitó rápidamente de modo que la rejilla se expuso rápidamente a la corriente criogénica antes de que el nitro líquido líquido se hubiera drenado de la tapa.

Los datos se midieron en las líneas de luz I24 e I04 de Diamond Light Source. En todos los casos, los datos se recopilaron como 5 & # 176 cuñas de datos contiguos con un ancho de oscilación de 0,1 & # 176 y un tiempo de exposición de 0,05 & # 8197s. Los datos de I24 se recopilaron en un detector Dectris PILATUS3 6M utilizando un tamaño de haz de rayos X de 6 & # 215 9 & # 8197 & # 181m [ancho completo a la mitad del máximo (FWHM)] al 100% de transmisión y una longitud de onda de 0,9686 & # 8197 & # 197, produciendo un flujo de 3.0 & # 215 10 12 & # 8197photons & # 8197s & # 87221. Los datos de I04 se registraron utilizando un detector Dectris PILATUS 6M-F con un tamaño de haz de 11 & # 215 5 & # 8197 & # 181m (FWHM) al 100% de transmisión y una longitud de onda de 0,9795 & # 8197 & # 197, produciendo un flujo de 2,8 & # 215 10 11 & # 8197 fotones & # 8197s & # 87221. Para cada una de las cuatro condiciones, se recopilaron datos de al menos tres cuadrículas preparadas de forma independiente. Se analizaron al menos 100 cristales para cada condición en cada cuadrícula. Para los cristales expuestos a SEM, las imágenes de microscopía electrónica se utilizaron en combinación con las vistas del microscopio óptico de la posición de la muestra de la línea de rayos X para identificar los cristales que habían estado expuestos a los electrones.

2.6. Procesamiento y análisis de datos

Para evaluar las posibles diferencias en la calidad de la difracción, los datos se procesaron utilizando DIALES (Invierno et al. , 2018) y luego analizado usando MEZCLA (Foadi et al. , 2013). El modo de síntesis de MEZCLA Luego se utilizó para escalar y fusionar los datos recopilados de cada tratamiento de una sola cuadrícula.

Para buscar diferencias en la calidad de difracción inicial entre tratamientos expuestos a SEM y no expuestos a SEM, todos los conjuntos de datos recopilados de la misma línea de luz que se integraron con éxito utilizando DIALES fueron escalados juntos usando diales.scale . El programa dials.cosym se utilizó para garantizar una indexación consistente antes de escalar (Gildea & # 38 Winter, 2018). El factor de escala y el relativo B factor de la primera imagen de cada conjunto de datos se extrajeron utilizando dials.python para ejecutar un Pitón guión desarrollado internamente.

Tres cuadrículas replicadas produjeron tres conjuntos de datos completos, escalados y fusionados, cada uno para los cuatro grupos de tratamiento. Los valores medios de las estadísticas cristalográficas clave en estas tres réplicas se compararon mediante un método de análisis de varianza unidireccional (ANOVA). Los valores medios de las estadísticas clave para los tratamientos expuestos a SEM y no expuestos a SEM se compararon adicionalmente entre sí mediante las pruebas t de Student. Las distribuciones de factores de escala y relativos B Los factores para las imágenes iniciales de cada conjunto de datos para cada uno de los grupos de tratamiento se compararon mediante las pruebas de Kolmogorov & # 8211Smirnov (KS). Estos análisis estadísticos se llevaron a cabo utilizando GraphPad Prisma 8.0 (Software GraphPad, La Jolla, California, EE. UU.).

3. Resultados y discusión

3.1. Simulaciones de Monte Carlo

La profundidad de penetración promedio de electrones de 2 & # 8197keV en un cristal de CPV14 simulado fue de 70,0 & # 177 19,8 & # 8197nm y la profundidad máxima de penetración fue de 109,8 & # 8197nm (Fig. S2). Sin embargo, cabe señalar que los experimentos de Barnett et al. (2012) & # 8211 que evaluó la profundidad de penetración de electrones dentro de cristales amorfos de agua-hielo & # 8211 sugieren que CASINO Las simulaciones pueden subestimar la profundidad de penetración de los electrones a estos bajos voltajes de aceleración. Aún así, estas simulaciones proporcionan una estimación del volumen de interacción de electrones para cristales de proteína CPV14. Sobre esta base, para un cristal CPV14 de 2 & # 8197 & # 181m (8 & # 8197 & # 181m 3), los electrones de 2 & # 8197keV escaneados en toda la superficie del cristal tienen el potencial de penetrar, en promedio, & # 87643.5% del total volumen de difracción. Para un cristal de 0.5 & # 8197 & # 181m (0.125 & # 8197 & # 181m 3), esto aumenta hasta & # 876414% del volumen de difracción total. Sin embargo, este análisis no informa sobre el impacto de los electrones en la calidad de la difracción.

3.2. Preparación de muestras y exposiciones SEM

La congelación por inmersión de los cristales de CPV14 en etano líquido utilizando un Leica EM GP proporcionó un método reproducible con el que montar cristales en rejillas cryoEM. La morfología cuboide de los cristales dio como resultado una orientación preferencial de los cristales en las rejillas. Los cristales generalmente se encuentran con sus caras paralelas a la película de carbono en las rejillas, rara vez los cristales se sientan en un borde o vértice. Aunque no se exploran aquí, los métodos diseñados por Wennmacher et al. (2019) han demostrado combatir con éxito la orientación preferencial de los cristales en las rejillas de microscopía electrónica. Es probable que estos métodos sean de uso particular en casos futuros que involucren cristales de grupos espaciales de baja simetría que exhiban orientación preferencial. Se requirió una manipulación manual significativa para transferir las rejillas congeladas por inmersión dentro y fuera del SEM y, posteriormente, a la línea de rayos X mientras se mantenían las muestras a temperaturas criogénicas. La combinación de manipulación mecánica y transferencia de rejillas de muestras dentro y fuera de un vacío de 1 & # 215 10 & # 87226 & # 8197mbar puede haber inducido una variación en los tratamientos de la muestra y podría explicar las diferencias en las propiedades del cristal distintas de las causadas por el haz de electrones. exposición. Con el fin de controlar esta variación de cuadrícula a cuadrícula en las características del cristal & # 8211 que potencialmente podría enmascarar los efectos de la exposición al haz de electrones & # 8211, los datos de los cristales expuestos a SEM y no expuestos a SEM se tomaron de una sola cuadrícula . Para estas muestras, parte de la rejilla estaba expuesta a electrones, y los cristales de esta sección constituían la población de cristales expuestos a SEM. El resto de la cuadrícula no estuvo expuesto a electrones y los cristales en esta sección componían la población no expuesta a SEM.

3.3. Recopilación de datos

En la Fig.1 se muestra un ejemplo de imagen SEM de los cristales de CPV14 ( a ). Los cristales de esta imagen forman parte de la población de cristales que fueron expuestos a electrones antes de la recopilación de datos de rayos X. Para recopilar datos de difracción de rayos X de estos cristales expuestos a SEM, cada cristal tenía que ser localizado e identificado en la línea de rayos X utilizando el sistema de visión en el eje del microscopio óptico (OAV). Esto se logró utilizando cuadrículas de microscopía electrónica "buscador" (ver la Sección 2.3) de modo que cada cuadrado de la cuadrícula individual fuera fácilmente identificable e indexable bajo los esquemas de aumento SEM y OAV. Figura 1 ( B ) representa la imagen OAV correspondiente para los cristales que se muestran en la imagen SEM. La mejora en la resolución al utilizar un SEM es evidente. También es más fácil identificar la solución de cristalización vítrea que rodea los cristales individuales y las áreas de la solución de cristalización vítrea cerca de las barras de la rejilla de Cu.


Figura 1
Cristales de CPV14 fotografiados usando electrones y microscopía de luz visible. ( a ) Un ejemplo de imagen cryoSEM de cristales de CPV14 tomada a un voltaje de aceleración de 2 & # 8197kV con una distancia de trabajo de 10 & # 8197 mm y una dosis de electrones de 7,6 & # 215 10 & # 87223 & # 8197e & # 8722 & # 8197 & # 197 & # 87222. Los cristales de esta imagen formaron parte del grupo de tratamiento expuesto a SEM. La resolución máxima alcanzable en estas condiciones con este microscopio es & # 87648 & # 8197nm. ( B ) Una imagen tomada con el microscopio óptico OAV de la línea de luz I24 muestra el cuadrado de cuadrícula correspondiente al que se muestra en el panel ( a ). La resolución máxima alcanzable con este microscopio óptico es 0,7 & # 8197 & # 181m. En el panel ( B ), la cruz roja indica la posición del haz de microenfoque en I24 antes de la recopilación de datos de difracción de rayos X de un solo cristal de CPV14. La posición equivalente en el panel ( a ) se indica mediante un círculo blanco discontinuo. En ambos paneles, la barra de escala indica 10 & # 8197 & # 181m.

Para superar la orientación preferencial de los cristales en las rejillas, se hizo un esfuerzo concertado para recopilar datos utilizando diferentes ángulos de inicio con respecto a la orientación de la rejilla para las cuñas 5 y # 176. Las cuadrículas limitaban los ángulos de rotación a partir de los cuales se podían recopilar datos. Con la cuadrícula perpendicular al haz, se podrían recolectar & # 8764 & # 17760 & # 176 de datos tanto del "frente" como del "reverso" de la cuadrícula, dando un rango accesible total de & # 8764240 & # 176. A pesar de esta limitación, todavía era factible obtener datos completos debido a la alta simetría de los cristales de CPV14 (grupo espacial I 23).

3.4. Procesamiento y análisis de datos

DIALES se utilizó para procesar los segmentos de datos 5 y # 176. Donde los datos se pudieron integrar con éxito, los archivos .mtz resultantes se introdujeron en MEZCLA . Todos los clústeres del modo de análisis de MEZCLA se escalaron y fusionaron antes de que se tomara un solo conjunto de datos con una integridad óptima de los cristales medidos de cada cuadrícula para su posterior análisis. Para cada conjunto de datos, se eligió el corte de alta resolución en función de CC 1/2 > 0.3 (Karplus & # 38 Diederichs, 2015), que a veces requirió una ejecución adicional del programa SIN OBJETIVO dentro de MEZCLA tubería. Los resultados de este paso de procesamiento de datos se presentan en las Tablas 1 y 2.

tabla 1
Estadísticas de procesamiento de datos

Los valores de la capa exterior se dan entre paréntesis.

Tabla 2
Estadísticas de procesamiento de datos

Los valores de la capa exterior se dan entre paréntesis.

Los valores generales para la máxima resolución, R p.i.m. y CC 1/2 se trazaron los datos recopilados para los cuatro grupos de tratamiento (Fig. 2). Se recopilaron al menos tres conjuntos de datos completos para cada uno de los grupos de tratamiento. En el caso de los conjuntos de datos expuestos a SEM y no expuestos a SEM, se recopilaron conjuntos de datos completos para ambos grupos de tratamiento de cada una de las tres cuadrículas replicadas, es decir. un conjunto de datos expuestos a SEM y uno no expuesto a SEM por cuadrícula, lo que proporciona un total de seis conjuntos de datos. A continuación, se calculó el valor medio de cada una de las estadísticas enumeradas anteriormente para las réplicas de cada tratamiento de muestra. Los valores medios de cada una de estas estadísticas se compararon en todos los grupos de tratamiento mediante el uso de un método ANOVA de una vía. Estos análisis no mostraron diferencias estadísticamente significativas entre los valores medios de máxima resolución, R p.i.m. o CC 1/2 en cualquiera de los grupos de tratamiento. Se utilizó una prueba t de Student adicional para comparar los valores medios de estas estadísticas entre los conjuntos de datos expuestos a SEM y no expuestos a SEM. Usando este método de análisis, no hubo diferencia estadísticamente significativa ( pag & # 62 0,05) medido entre estas estadísticas cristalográficas para los datos recogidos de cristales preexpuestos a haz SEM de 2 & # 8197keV (SEM expuestos) versus cristales que no fueron expuestos (SEM no expuestos).


Figura 2
Gráficos de estadísticas clave de procesamiento de datos para conjuntos de datos combinados de los cuatro grupos de tratamiento: sin tratar (cian), SEM cargado (verde), SEM no expuesto (azul) y SEM expuesto (rojo). Parcelas de ( a ) Resolución Máxima, ( B ) R p.i.m. y ( C ) CC 1/2 muestre cada conjunto de datos como un círculo de color y la línea negra indica el valor medio. Para las muestras no expuestas a SEM y expuestas a SEM, los números junto a los círculos indican de cuál de las tres cuadrículas se recopilaron los datos. Los datos de las cuadrículas 1 y 2 se recopilaron en I24, y los datos de la cuadrícula 3 se recopilaron en I04.

Para investigar más a fondo el daño potencial a los cristales causado por la preexposición a la radiación SEM, los 1151 conjuntos de datos integrados recopilados en I24 se escalaron todos juntos. Esto se logró usando dials.cosym (Gildea & # 38 Winter, 2018), para asegurar un esquema de indexación consistente, seguido de diales.scale . En un intento de evaluar si los tratamientos de la muestra alteraron significativamente la difracción inicial de los cristales, tanto el factor de escala como el relativo B factor para el patrón de difracción inicial de cada conjunto de datos se extrajeron de los datos, estos valores se pueden ver representados como histogramas para cada grupo de tratamiento en la Fig.3.


figura 3
Histogramas que muestran los factores de escala iniciales y relativos B factores para conjuntos de datos recopilados de cristales a través de diferentes tratamientos. Factores de escala ( a )–( D ) y relativo B factores mi )–( h ) para el primer fotograma de cada conjunto de datos recopilados de cristales de CPV14 individuales se extrajeron después de un solo trabajo de escalado de todos los 1151 conjuntos de datos con DIALES . Estos factores se trazaron luego como histogramas, donde cada histograma contiene la distribución del factor de escala inicial o B factor dentro de un grupo de tratamiento dado. Los grupos de tratamiento fueron: sin tratar [cian, ( a ) y ( mi )], SEM cargado [verde, ( B ) y ( F )], SEM no expuesto [azul, ( C ) y ( gramo )] y SEM expuestos [rojo, ( D ) y ( h )].

Una comparación de estas distribuciones entre grupos de tratamiento por medio de una prueba KS reveló que las distribuciones tanto de escala como de B factor para los tratamientos no expuestos a SEM y expuestos a SEM no fueron significativamente diferentes entre sí (factores de escala de pag > 0.05 y D = 0.07175, y B factores de pag > 0.05 y D = 0.07613) (donde D es la distancia KS). Este análisis infiere que la preexposición de los cristales a la dosis de electrones utilizada aquí no alteró significativamente la calidad de difracción de estos cristales. Otras pruebas de KS que comparan las distribuciones de escala inicial y B factor entre los otros grupos de tratamiento también se llevaron a cabo. Las distribuciones de los factores de escala para las muestras no tratadas fueron significativamente diferentes a las distribuciones de las muestras cargadas con SEM y no expuestas ( pag & # 60 0,0001 en ambas pruebas). Estos resultados sugieren que el manejo de la rejilla involucrado en poner las rejillas dentro y fuera del vacío a temperaturas criogénicas tiene un efecto sobre la calidad de difracción de los cristales. Además, las distribuciones de las muestras cargadas con SEM fueron significativamente diferentes a las de las muestras no expuestas con SEM ( pag & # 60 0,0001 en todas las pruebas). Esto sugiere que el tiempo adicional invertido en el criotaje de SEM en el caso de las muestras no expuestas a SEM está teniendo un efecto sobre la calidad de difracción de los cristales. Esto podría estar relacionado con el entorno de vacío o el enfriamiento de las muestras mientras se encuentran en el SEM, o una combinación de los dos. Se llevó a cabo un análisis de la temperatura de la lanzadera SEM (datos no mostrados) que indica que la lanzadera se mantiene por debajo de la temperatura de desvitrificación durante la transferencia y, sin embargo, mientras estaba en la etapa SEM, no se pudieron realizar mediciones para medir la temperatura de la lanzadera. propia red durante la transferencia. Dado que la rejilla depende del contacto térmico con la lanzadera para un enfriamiento efectivo, no se puede descartar que un contacto térmico ineficiente y, por lo tanto, un enfriamiento insuficiente contribuyan a estas diferencias significativas. Este estudio destaca la importancia de la caracterización detallada de los flujos de trabajo de manipulación criogénica cuando se trata de muestras biológicas sensibles.

Es importante señalar que el CPV14 es una muestra que difracta bien y que otros cristales, como los formados a partir de proteínas de membrana de gran peso molecular, podrían ser más susceptibles al daño por radiación. En referencia a este punto, la investigación de Holton & # 38 Frankel (2010) proporciona una discusión útil y ofrece una idea de la posible relación entre CPV14 y otras proteínas potencialmente más desordenadas o sensibles a la radiación. Su discusión compara el caso de la proteína de prueba de la lisozima con un cristal de proteína grande (10 & # 8197MDa) con un Wilson B factor de 61 & # 8197 & # 197 2. Los cálculos dentro del artículo sugieren que esta proteína más grande con una Wilson B El factor tres veces mayor que el del cristal de lisozima requiere un volumen cercano a dos órdenes de magnitud mayor para producir la resolución y calidad de difracción equivalentes. Esto sugiere que dicho cristal es aproximadamente dos órdenes de magnitud más sensible a la dosis de rayos X que la contraparte de lisozima descrita en el artículo. La naturaleza soluble del CPV14 y su peso molecular lo hacen más comparable con el ejemplo de lisozima de Holton & # 38 Frankel (2010) que con la proteína 10 & # 8197MDa. Por lo tanto, es posible que una proteína más desordenada o sensible a la radiación, por ejemplo una proteína de membrana, sea aproximadamente dos órdenes de magnitud más sensible al daño por radiación en comparación con el CPV14. Teniendo esto en cuenta, creemos que las dosis de electrones incidentes utilizadas aquí todavía nos colocan dentro del umbral de daño incluso para los cristales más sensibles, especialmente porque se predice que los electrones de baja energía utilizados no penetrarán más de 150 & # 8197nm en la superficie del muestras.

4. Conclusiones

Los análisis descritos aquí apoyan el uso de imágenes SEM de bajo voltaje como un método para visualizar y localizar cristales de proteínas de tamaño micrométrico antes de los experimentos de difracción de rayos X. Usando electrones de 2 & # 8197keV en las dosis descritas, los resultados presentados aquí indican que no hay diferencias significativas entre la calidad de los datos de difracción de rayos X de los cristales que fueron expuestos al haz SEM y los que no lo fueron. Esto está en línea con la literatura que establece que se requieren dosis de 3 & # 8197e & # 8722 & # 8197 & # 197 & # 87222 para causar una reducción en los reflejos de alta resolución (descritos como reflejos & # 60 3 & # 8197 & # 197 ) (Chiu, 2006 Henderson, 1995 Hattne et al. , 2018). Estos experimentos se llevaron a cabo utilizando dosis de electrones que eran varios órdenes de magnitud inferiores a este umbral 3 & # 8197e & # 8722 & # 8197 & # 197 & # 87222 y energías electrónicas que dejan la mayor parte de los cristales de proteína sin penetrar. De hecho, la falta de daños por radiación estadísticamente significativos o mensurables en las muestras expuestas a SEM respalda el uso de tales dosis y energías electrónicas para la formación de imágenes. En conclusión, la formación de imágenes SEM de bajo voltaje es un método apropiado para la visualización y posterior alineación de muestras por debajo de la resolución de microscopía óptica.

5. Literatura relacionada

La siguiente referencia se cita en la información de apoyo de este artículo: Zheng et al. (2009).


Evaluación manual

Aunque la comunidad de biología estructural ha alcanzado un alto nivel de automatización en la recopilación de datos, el procesamiento de datos y la solución de estructuras en los últimos años, el proceso de determinación de estructuras aún requiere interpretación por parte de los investigadores. Esto se aplica especialmente a los mapas de baja calidad con un ajuste deficiente entre los datos experimentales y los modelos estructurales. La inspección visual residuo por residuo realizada por un biólogo estructural experimentado sigue siendo la mejor manera de juzgar la calidad. Por lo tanto, seleccionamos estructuras representativas de cada proteína del SARS-CoV-2, así como aquellas de particular interés para el desarrollo de fármacos, para la evaluación manual. Ciertos problemas son sorprendentemente comunes, como cambios de enlaces peptídicos (Fig. 1c, d), errores de rotámero, problemas de ocupación (Fig. 1e) y la identificación errónea de pequeñas moléculas o iones, por ejemplo, agua como magnesio y cloruro como zinc. Es de destacar que el zinc juega un papel importante en muchas proteínas del SARS-CoV-2. Descubrimos que muchos sitios de coordinación de zinc se delinean de la misma manera, con el ion zinc ausente o expulsado de la densidad y / o enlaces disulfuro erróneos entre los residuos de cisteína coordinadores (Fig. 1a, b, h). Además, muchas proteínas de coronavirus están glicosiladas en los residuos de asparagina de la superficie, pero los azúcares de glucano a menudo se voltearon de su orientación correcta alrededor de la superficie. norte-enlace glucosídico (Fig. 1f, g). Esto se puede evitar utilizando herramientas como Privateer 19 y la herramienta automatizada de construcción de carbohidratos en Coot 20. Es importante señalar que la desviación del comportamiento esperado no siempre es un error y también puede ser una característica funcionalmente relevante, por ejemplo, las geometrías deformadas que se encuentran a menudo en los sitios catalíticos. Sin embargo, tales desviaciones deben estar fuertemente respaldadas por los datos experimentales. De las estructuras que verificamos manualmente, pudimos mejorar sustancialmente 31 en términos de calidad del modelo, calidad de los datos o ambos. A continuación damos dos ejemplos para ilustrar la importancia de inspeccionar cuidadosamente los datos experimentales y los modelos resultantes.

Todas las imágenes excepto I son capturas de pantalla de la versión preliminar de Coot v0.9.9. Los mapas de densidad residual y reconstrucción están en azul grisáceo, la diferencia de densidad de electrones en rojo y verde. a, SARS-CoV-1 Nsp14 – Nsp10 (PDB 5C8T) sitio de coordinación de histidina zinc (B603), con nivel de contorno de densidad residual 0.445, desviación cuadrática media (r.m.s.d.) 0.150. B, Histidina de a se ha intercambiado en ISOLDE 25, lo que lleva a la coordinación tetraédrica de Zn 2+, luego se realizó el refinamiento utilizando PDB-REDO 11 con la adición manual de enlaces. C, Proline A505 se modela como trans en el complejo RdRp (PDB 7BV2, izquierda), pero la densidad indica una cis conformación de la cadena principal, que se muestra en D. D, La entrada del AP depositada se actualizó después de que nos pusiéramos en contacto con los autores originales. mi, Densidad de electrones de alta diferencia en el residuo A165 en la proteasa principal del SARS-CoV-2 (PDB 5RFA) debido a una ocupación de solo 0,44 en lugar de 1,00 cerca del inhibidor potencial (izquierda). Nivel de contorno del mapa residual 0.54, r.m.s.d. 0,319 diferencia de densidad a nivel de contorno 0,35, r.m.s.d. 0,114. F, Dominio de unión al receptor de pico de SARS-CoV-2 complejado con ACE2 humano (PDB 6VW1). Esta norte-el glicano ligado se voltea aproximadamente 180 ° alrededor del norte-enlace glicosídico. Después de que nos pusimos en contacto con los autores originales, esta entrada fue revisada (se muestra en gramo). gramo, La corrección mejora el ajuste de densidad de la cadena de azúcar. Mapa residual a nivel de contorno 0.311, r.m.s.d. 0,265. h, Enlace disulfuro A226 – A189 en proteasa similar a la papaína (PDB 6W9C), con densidad de electrones a nivel de contorno 0,214, r.m.s.d. 0.136, los otros dos residuos de cisteína permanecen descoordinados. Si bien el mapa de densidad no indica un zinc, es un dominio de dedos de zinc, las otras copias de NCS incluyen un zinc coordinado en esta posición. I, El gráfico AUSPEX 8 de los anillos de hielo de la proteasa principal del SARS-CoV (PDB 2HOB) se refleja mediante un sesgo en la distribución de intensidad (rojo). j, Gráfico de Ramachandran o ángulos de torsión en la columna vertebral del péptido para el complejo dinámico SARS-CoV Nsp10-Nsp14 (PDB 5NFY). En principio, solo debería haber unos pocos valores atípicos (rojo), ya que la mayoría de los enlaces peptídicos se adhieren a distribuciones angulares típicas. Imagen: CSTF / insidecorona.net.

Proteasa similar a la papaína

La proteína no estructural 3 (Nsp3) del SARS-CoV-2 contiene un dominio de proteasa similar a la papaína que es esencial para la infección porque escinde el polipéptido viral. La primera estructura de la proteasa similar a la papaína del SARS-CoV-2 (PDB 6W9C) se lanzó el 1 de abril de 2020, solo tres meses después de que se informara el genoma viral (GenBank MN908947.2) 21. La estructura se utilizó inmediatamente en los esfuerzos de diseño de fármacos. Sin embargo, la integridad general de los datos medidos fue solo del 57%. El examen de los datos brutos, disponibles en https://proteindiffraction.org/ 10, reveló un fuerte daño por radiación, agravado por una estrategia deficiente de recopilación de datos. Esto no se pudo deducir de la declaración del AP, lo que subraya la importancia de que los datos sin procesar estén disponibles.

El cristal tiene simetría no cristalográfica triple (NCS), con cada monómero de dominio de proteasa similar a la papaína que contiene un ion Zn 2+ funcionalmente importante unido por cuatro residuos de cisteína con C similarß-Sγ–Zn ángulos y Zn – Sγ longitudes de enlace. Debido al daño por radiación, los sitios de Zn-S tienen poca densidad. En una copia de NCS, el sitio se ha modelado como un enlace disulfuro y dos residuos de cisteína libres (Fig. 1h), mientras que las otras dos copias de NCS coordinan el átomo de zinc con C fuertemente variable.ß-Sγ–Ángulos Zn y longitudes de enlace Zn – S. Reprocesamos las imágenes utilizando XDS 22, un software para el procesamiento de imágenes de difracción de rayos X de cristal único. Se utilizó el servidor STARANISO para determinar y aplicar un límite anisotrópico para los datos de difracción. Esta cuidadosa intervención manual mejoró la calidad general de los datos y aumentó la resolución de 2.7 a 2.6 Å, pero la completitud elipsoidal general revisada fue solo del 44.5%. Agregar átomos de zinc a todos los sitios, restringir las longitudes y ángulos de enlace a los valores esperados y usar restricciones NCS y una ponderación general más alta para la geometría ideal, junto con la remodelación de las cadenas laterales y las moléculas de agua, mejoró los mapas de densidad de electrones y redujo la R valores en un 4%. Esto ejemplifica la interconexión entre la recopilación de datos, el procesamiento de datos y la construcción de modelos: incluso si la estrategia de recopilación de datos no es ideal, tener en cuenta los problemas resultantes durante el procesamiento y el refinamiento de los datos puede mejorar drásticamente el modelo final.

Un mes después se liberó una estructura del mutante C111S del dominio de proteasa similar a papaína (PDB 6WRH). En esta estructura, los sitios de zinc se resolvieron claramente en todas las subunidades. Mientras tanto, sin embargo, PDB 6W9C se había utilizado ampliamente en el diseño de fármacos in silico. El 20% de los más de 140 equipos de investigación del JEDI COVID19 GrandChallenge, una competencia para encontrar posibles fármacos COVID-19 in silico, han utilizado este modelo. La disponibilidad de una mejor estructura un mes antes habría aumentado sus posibilidades de éxito y habría ahorrado horas de trabajo y de computación.

Complejo de ARN polimerasa

El SARS-CoV-2 replica su genoma de ARN monocatenario utilizando un complejo macromolecular de ARN polimerasa dependiente de ARN (Nsp12 RdRp), Nsp7 y Nsp8. Las estructuras crio-EM anteriores de los homólogos de SARS-CoV-1 (PDB 6NUR, PDB 6NUS) incluyen un bucle desordenado sin modelar seguido de una hélice visible pero corta e irregular y un extremo C flexible. La densidad de esta hélice se resolvió mal, pero el modelo tenía una geometría válida. Nuestro análisis de una de las primeras estructuras del complejo equivalente SARS-CoV-2 (PDB 7BTF) reveló que la secuencia en esta región C-terminal (parte del surco de unión al ARN) estaba desalineada por nueve residuos (Fig.2) . Este error estaba presente en todas las estructuras relacionadas con el SARS-CoV-1 y el SARS-CoV-2, probablemente porque la determinación de la nueva estructura generalmente comienza a partir de un modelo anterior cuando hay uno disponible.

a, Vista general con el bucle faltante mostrado como un mapa de línea discontinua (PDB 7BV2) en 2.4σ. Derecha, detalles de la hélice C-terminal en 5σ. B, Mapa y modelo de menor resolución (PDB 6NUS). Es difícil juzgar el ajuste de la cadena lateral. C, Mapa y modelo de mayor resolución (PDB 7BV2) como se deposita, el ajuste de la cadena lateral es subóptimo debido al error de registro. D, Modelo modificado para PDB 7BV2, las cadenas laterales ahora se ajustan a la densidad. El cambio de registro se indica mediante la etiqueta Tyr915. Imagen: CSTF / insidecorona.net.

Una estructura del complejo RdRp unido al análogo nucleotídico remdesivir (PDB 7BV2 (ref. 23)) fue liberada poco después y proporcionó la base para el diseño racional de fármacos candidatos relacionados 24. Esta estructura también presentaba la desalineación de la secuencia de nueve residuos. Reconstruimos la estructura utilizando ISOLDE 25, CaBLAM 6 e inspección visual, corrigiendo algunos volteos o cis versus trans péptidos (Fig. 1c, d) y tres conformadores de ARN cerca de remdesivir, incluida una base de adenosina inversa. También pudimos agregar varios residuos y aguas con buena densidad y geometría. Remdesivir está unido covalentemente al ARN, pero solo está presente en un estimado ≤50% de las moléculas medidas 12. Esto significa que el sitio activo es una mezcla de al menos dos estados diferentes, por lo que, como era de esperar, los iones de Mg 2+ y el pirofosfato modelados están mal soportados por la densidad experimental y los contactos locales. Esto es motivo de preocupación para el posterior acoplamiento in silico y el diseño de fármacos, que a menudo toman todos los átomos de la estructura depositada como un marco fijo para construir. Las estructuras remodeladas del complejo pueden ofrecer una base más sólida para el diseño de fármacos, incluso si el

La ocupación del 50% del sitio activo no fue ampliamente discutida 12. Es notable que a pesar del gran error de registro y varios problemas menores, según las métricas de "resumen" tradicionales, el modelo parecía extremadamente bueno, sin valores atípicos de Ramachandran ni rotámeros y una puntuación de choque de 2, destacando que la inspección visual directa debe seguir siendo un paso clave en cualquier proceso de modelado.

Aunque los problemas discutidos anteriormente estaban presentes en las estructuras depositadas originalmente, casi todos están ahora corregidos. Esto se logró al menos en parte porque hicimos que los modelos corregidos estuvieran disponibles en nuestro sitio web y nos pusimos en contacto con los autores originales de estas estructuras con descripciones detalladas, ayudándolos a depositar versiones revisadas en la wwPDB a su discreción.


Título: Conservación y reutilización de datos de difracción sin procesar: descripción general, actualización sobre aspectos prácticos y requisitos de metadatos

Se presenta una revisión temática del interés en rápido desarrollo y las opciones de almacenamiento para la preservación y reutilización de datos en bruto dentro del dominio científico de la IUCr y sus Comisiones, cada una de las cuales opera dentro de una gran diversidad de instrumentación. Se incluye un currículum vitae del caso para la deposición de datos de difracción sin procesar. Se establece un contexto general al destacar las iniciativas de los responsables de las políticas científicas hacia un modelo de "ciencia abierta" dentro del cual los cristalógrafos trabajarán cada vez más en el futuro, lo que traerá nuevas oportunidades de financiación, pero también nuevos códigos de procedimiento dentro de los marcos de ciencia abierta. Será necesario ampliar la educación y la formación profesional de los cristalógrafos. En general, ahora existen los medios y la organización para la preservación de datos de difracción cristalográfica en bruto a través de diferentes tipos de archivos, como en universidades, repositorios específicos de la disciplina (recurso integrado para la reproducibilidad en cristalografía macromolecular, cuadrícula de datos de biología estructural), repositorios de datos públicos en general. (Zenodo, ResearchGate) e instalaciones centralizadas de rayos X y neutrones. La formulación de descriptores de metadatos mejorados para los tipos de datos brutos de cada una de las Comisiones IUCr está en progreso. Se proporcionan algunos ejemplos detallados. Por último, se presentan una serie de estudios de casos específicos, incluido un hilo de investigación de ejemplo que proporciona un acceso completo y abierto a los datos brutos. & laquo menos


Notas al pie

↵ ¶ A quién debe enviarse la correspondencia a la dirección *. Correo electrónico: chris.jacobsenstonybrook.edu.

Contribuciones de los autores: D. Shapiro, T.B., V.E., M.H., C.J., J.K., E.L. y D. Sayre diseñaron la investigación D. Shapiro, P.T., T.B., V.E., M.H., C.J., J.K., E.L., H.M. y A.M.N. realizó investigaciones D. Shapiro, P.T., V.E., C.J., E.L., H.M. y A.M.N. datos analizados D. Shapiro, P.T., T.B., V.E., M.H., C.J. y E.L. contribuyó con nuevos reactivos / herramientas analíticas y D. Shapiro, V.E., M.H., C.J., J.K. y D. Sayre escribieron el artículo.

Este documento fue enviado directamente (Track II) a la oficina de PNAS.

Abreviaturas: XDM, microscopía de difracción de rayos X CCD, dispositivo de carga acoplada STXM, microscopio de rayos X de transmisión de barrido.


Ver el vídeo: Difracción de rayos X (Noviembre 2022).