Información

¿Cómo anotar un archivo .broadpeak con 9 columnas?

¿Cómo anotar un archivo .broadpeak con 9 columnas?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tengo este archivo de picos que recuperé de una matriz ENCODE chip-seq. Su.Pico anchoarchivo tiene este aspecto:

chr22 16096195 16096367. 517. 8.245591 1.4 -1 chr22 16191942 16192481. 374. 4,452878 1,7 -1 chr22 16192350 16192560. 480. 7.273034 1.3 -1 chr22 16848326 16848437. 687. 12,776952 3,4 -1 chr22 16849900 16851299. 374. 4.444921 12.8 -1 chr22 16851301 16851828. 394. 4.968297 3.2 -1 chr22 16852259 16852459. 514. 8.182164 2.4 -1 chr22 16853163 16855156. 328. 3,229621 7,6 -1 chr22 16856415 16857273. 374. 4.450283 5.9 -1 chr22 16857361 16857946. 375. 4.475713 2.4 -1 chr22 16857760 16857903. 637. 11,443585 4,2 -1 chr22 16858449 16858683. 645. 11,655504 11,1 -1 chr22 16860284 16860823. 382. 4.655282 2.4 -1 chr22 16861104 16862410. 370. 4,343772 10,8 -1 chr22 16928019 16928525. 385. 4.743283 2.2 -1 chr22 16928388 16928554. 602. 10.515230 4.4 -1 chr22 17066663 17067190. 487. 7,452445 12,6 -1 chr22 17076317 17076417. 699. 13.091462 2.8 -1 chr22 17079512 17087549. 1000. 29.157293 13.6 -1 chr22 17105156 17105287. 582. 9,993482 1,6 -1 chr22 17162805 17163461. 763. 14.801068 100.0 -1 chr22 17198501 17199415. 615. 10.861807 15.1 -1 chr22 17228872 17229131. 713. 13.478983 15.7 -1 chr22 17229147 17229434. 621. 11.023589 13.2 -1

Quiero hacer la anotación y tener las entrez ids de los genes más cercanos. Soy nuevo en esto, sigo probando algunas herramientas pero nada parece funcionar. Usé mucho peakanalyzer, pero sigue diciendo que a este archivo le faltan columnas, debe ser un archivo de 12 columnas, pero no sé cómo hacerlo. Si agrego más columnas, eso cambiaría la anotación.


Esto es lo que significan las columnas del formato broadPeak (de UCSC):

  1. cromo - Nombre del cromosoma (o contig, scaffold, etc.).
  2. chromStart - La posición inicial de la característica en el cromosoma o andamio. La primera base de un cromosoma tiene el número 0.
  3. chromeEnd - La posición final de la característica en el cromosoma o andamio. La base chromEnd no está incluida en la pantalla de la función. Por ejemplo, las primeras 100 bases de un cromosoma se definen como chromStart = 0, chromEnd = 100 y abarcan las bases numeradas del 0 al 99. Si todos los puntajes eran '0' cuando los datos se enviaron al DCC, el DCC
    asignó puntuaciones de 1 a 1000 según el valor de la señal. Idealmente, el valor medio de la señal por dispersión base está entre 100-1000.
  4. nombre - Nombre dado a una región (preferiblemente único). Usar '.' si no se asigna ningún nombre.
  5. puntaje - Indica qué tan oscuro se mostrará el pico en el navegador (0-1000).
  6. hebra - +/- para indicar hebra u orientación (cuando corresponda). Usar '.' si no se asigna ninguna orientación.
  7. signalValue - Medición del enriquecimiento global (normalmente medio) de la región.
  8. pValue - Medida de significancia estadística (-log10). Utilice -1 si no se asigna ningún pValue.
  9. qValue - Medición de la significancia estadística mediante tasa de falso descubrimiento (-log10). Utilice -1 si no se asigna qValue.

Y así es como se ve el formato BED (de UCSC):

  1. cromo - El nombre del cromosoma (por ejemplo, chr3, chrY, chr2_random) o andamio (por ejemplo, scaffold10671)
  2. chromStart - La posición inicial de la característica en el cromosoma o andamio. La primera base de un cromosoma tiene el número 0.
  3. chromeEnd - La posición final de la característica en el cromosoma o andamio. La base chromEnd no está incluida en la pantalla de la función. Por ejemplo, las primeras 100 bases de un cromosoma se definen como chromStart = 0, chromEnd = 100 y abarcan las bases numeradas del 0 al 99.
  4. nombre - Define el nombre de la línea BED. Esta etiqueta se muestra a la izquierda de la línea BED en la ventana Genome Browser cuando la pista está abierta al modo de visualización completa o directamente a la izquierda del artículo en el modo de empaque.
  5. puntaje - Una puntuación entre 0 y 1000. Si el atributo useScore de la línea de seguimiento se establece en 1 para este conjunto de datos de anotación, el valor de la puntuación determinará el nivel de gris en el que se muestra esta característica (números más altos = gris más oscuro).
  6. hebra - Define la hebra, ya sea '+' o '-'.
  7. ThickStart - La posición inicial en la que la característica se dibuja de forma gruesa (por ejemplo, el codón de inicio en las presentaciones de genes). Cuando no hay una parte gruesa, thickStart y thickEnd generalmente se establecen en la posición chromStart.
  8. ThickEnd - La posición final en la que la característica se dibuja densamente (por ejemplo, el codón de terminación en las presentaciones de genes).
  9. itemRgb - Un valor RGB de la forma R, G, B (por ejemplo, 255,0,0). Si el atributo track line itemRgb se establece en "On", este valor de RBG determinará el color de visualización de los datos contenidos en esta línea BED. NOTA: Se recomienda utilizar un esquema de color simple (ocho colores o menos) con este atributo para evitar abrumar los recursos de color del navegador Genome y su navegador de Internet.
  10. blockCount - El número de bloques (exones) en la línea BED.
  11. blockSizes - Una lista separada por comas de los tamaños de bloque. El número de elementos de esta lista debe corresponder a blockCount.
  12. blockStarts - Se inicia una lista de bloques separados por comas. Todas las posiciones de blockStart deben calcularse en relación con chromStart. El número de elementos de esta lista debe corresponder a blockCount.

Entonces, las primeras seis columnas son básicamente las mismas. La séptima y octava columna de su nuevo archivo BED debe ser la misma que la tercera y cuarta columna respectivamente. Dado que las columnas 4 a 12 son en realidad opcionales para un archivo BED, no es necesario que llene el resto de las columnas. En cualquier caso, blockCount sería cero para su caso. El valor RGB tampoco es necesario. Sin embargo, si cualquier software que esté utilizando solicita un archivo de 12 columnas, configure estos:

  • itemRGB (columna 9) = 0,0,0 (negro)
  • blockCount (columna 10) = 0

Puede utilizar espacios en blanco en el resto de las dos columnas.

Puede utilizar fácilmente cualquier lenguaje de secuencias de comandos para hacer esto. No voy a explicar cómo hacer eso porque aquí está fuera de tema.


¿Cómo encontrar los genes más cercanos sin usar Peakanalyzer?

  • Descargue el archivo GTF de anotación GENCODE y descomprímalo.
  • Lea el archivo broadPeak y almacene las ubicaciones de los picos.
  • Defina cuál es el nivel mínimo de proximidad (por ejemplo, 2 kbp arriba / abajo)
  • Analice solo aquellas líneas del GTF donde la tercera columna = "gen"
  • Reste la ventana aguas abajo para comenzar y agregue la ventana aguas arriba para detener la posición del gen. Columnas 4 y 5 respectivamente.
  • La información genética se almacena en la novena columna.
  • Si la posición de pico almacenada cae dentro de las posiciones de inicio / parada modificadas, imprima la novena columna.

Nuevamente, esto debe hacerse mediante programación. No es muy dificil. Explicar cómo hacerlo está fuera de tema en este foro. Le expliqué el algoritmo que puede implementar en su lenguaje de programación favorito.


La guía del usuario de ChIPpeakAnno

El paquete es para facilitar el análisis posterior para experimentos de ChIP-seq. Incluye funciones para encontrar el gen, exón, miARN más cercano o características personalizadas, como los elementos más conservados y otros sitios de unión de factores de transcripción proporcionados por los usuarios, recuperar las secuencias alrededor del pico, obtener términos o vías de Ontología Genética (GO) enriquecidas. A partir de 2.0.5, se han agregado nuevas funciones para encontrar los picos con promotores bidireccionales con estadísticas de resumen (peaksNearBDP), para resumir la ocurrencia de motivos en picos (resumePatternInPeaks) y para agregar otros ID a picos anotados o enriquecidos (addGeneIDs) . A partir de 3.4, se ha agregado la prueba de permutación para determinar si hay una superposición significativa entre dos conjuntos de picos. Además, los patrones de unión de múltiples factores de transcripción (TF) o las distribuciones de múltiples marcadores epigenéticos alrededor de las características genómicas podrían visualizarse y compararse fácilmente utilizando un mapa de calor y un gráfico de densidad uno al lado del otro.

Versión del paquete: ChIPpeakAnno 3.6.5


Contenido

La inmunoprecipitación de cromatina (ChIP) seguida de secuenciación de ADN (ChIP-seq) y ChIP seguido de análisis de matriz de ordenamiento en teselas del genoma (chip ChIP) se han convertido en tecnologías predominantes de alto rendimiento para identificar los sitios de unión de proteínas de unión a ADN a nivel de genoma. Se han publicado varios algoritmos para facilitar la identificación de los sitios de unión de las proteínas de interés que se unen al ADN. Los sitios de unión identificados como la lista de picos generalmente se convierten en archivos BED o peces gordos para cargarlos en el navegador del genoma de UCSC como pistas personalizadas para que los investigadores vean la proximidad a varias características genómicas como genes, exones o elementos conservados. Sin embargo, hacer clic en el navegador del genoma es una tarea abrumadora cuando el número de picos aumenta o los picos se extienden ampliamente por el genoma.

Aquí desarrollamos ChIPpeakAnno, un paquete Bioconductor 1, para facilitar la anotación por lotes de los picos identificados en los experimentos de ChIP-seq o ChIP-chip. Implementamos la funcionalidad para encontrar el gen, exón, miARN más cercano u otras características personalizadas proporcionadas por los usuarios, como los elementos más conservados y otros sitios de unión de factores de transcripción que aprovechan GRanges. Dado que la anotación del genoma se actualiza con frecuencia, hemos aprovechado la biomaRt paquete para recuperar los datos de la anotación sobre la marcha. Los usuarios también tienen la flexibilidad de pasar sus propios datos de anotaciones o anotaciones desde Características genómicas como GRanges. También hemos aprovechado BSgenoma y biomaRt para recuperar las secuencias alrededor del pico identificado para la validación del pico o el descubrimiento del motivo 2. Para comprender si los picos identificados se enriquecen alrededor de genes con ciertos términos GO, hemos implementado la prueba de enriquecimiento de Ontología Genética (GO) en el ChIPpeakAnno paquete aprovechando el phyper de prueba hipergeométrica en el estadisticas paquete e integrado con la anotación GO de la Dios b funciones de ajuste de paquete y multiplicidad desde el multtest paquete 3–8. También se admite el análisis de la vía mediante reactome o KEGG. A partir de 3.4, también implementamos las funciones para la prueba de permutación para determinar si hay una superposición significativa entre dos conjuntos de picos. Además, los patrones de unión de múltiples factores de transcripción (TF) o las distribuciones de múltiples marcadores epigenéticos alrededor de las características genómicas podrían visualizarse y compararse fácilmente utilizando un mapa de calor y un gráfico de densidad uno al lado del otro.


1.4 Anotar picos

Como se muestra a partir de la distribución de los números de picos agregados alrededor de TSS y la distribución de picos en diferentes regiones cromosómicas, la mayoría de los picos se localizan alrededor de TSS. Por lo tanto, es razonable utilizar annotatePeakInBatch o annoPeaks para anotar los picos en las regiones promotoras de los genes Hg19. Los promotores se pueden especificar con bindingRegion. Para el siguiente ejemplo, la región promotora se define como corriente arriba 2000 y corriente abajo 500 de TSS (bindingRegion = c (-2000, 500)).

La distribución de los picos comunes alrededor de las características se puede visualizar mediante un gráfico circular.


Anotación de hibernación adecuada para el byte []

Tengo una aplicación que usa hibernate 3.1 y anotaciones JPA. Tiene algunos objetos con atributos de byte [] (1k - 200k de tamaño). Utiliza la anotación JPA @Lob, e hibernate 3.1 puede leerlos perfectamente en todas las bases de datos principales; parece ocultar las peculiaridades del proveedor de JDBC Blob (como debería hacer).

Tuvimos que actualizar a 3.5, cuando descubrimos que hibernate 3.5 rompe (y no arregla) esta combinación de anotaciones en postgresql (sin solución alternativa). No he encontrado una solución clara hasta ahora, pero noté que si simplemente elimino el @Lob, usa el tipo bytea de postgresql (que funciona, pero solo en postgres).

Estoy buscando una forma de tener una sola clase anotada (con una propiedad de blob) que sea portátil en las principales bases de datos.

  • ¿Cuál es la forma portátil de anotar una propiedad de byte []?
  • ¿Está esto arreglado en alguna versión reciente de hibernate?

Actualizar: Después de leer este blog, finalmente descubrí cuál era la solución original en el problema de JIRA: Aparentemente, se supone que debes soltar @Lob y anotar la propiedad como:

Sin embargo, esto no funciona para mi - Todavía obtengo OID en lugar de bytea; sin embargo, funcionó para el autor del problema de JIRA, que parecía querer oid.

Después de la respuesta de A. García, probé este combo, que en realidad funciona en postgresql, pero no en Oracle.

Lo que realmente necesito hacer es controlar qué @ org.hibernate.annotations. Escriba la combinación (@Lob + byte [] se asigna) a (en postgresql).

Aquí está el fragmento de 3.5.5.Final de MaterializedBlobType (Blob de tipo SQL). Según el blog de Steve, postgresql quiere que uses Streams para bytea (no me preguntes por qué) y el tipo de blob personalizado de postgresql para oids. Tenga en cuenta también que el uso de setBytes () en JDBC también es para bytea (de experiencias pasadas). Entonces, esto explica por qué los flujos de uso no tienen ningún efecto, ambos asumen 'bytea'.

Actualizar La siguiente pregunta lógica es: "¿por qué no cambiar las definiciones de la tabla manualmente a bytea" y mantener el (@Lob + byte [])? Esta lo hace trabaja, HASTA QUE intenta almacenar un byte nulo []. Lo que el controlador postgreSQL cree que es una expresión de tipo OID y el tipo de columna es bytea; esto se debe a que hibernate (correctamente) llama a JDBC.setNull () en lugar de JDBC.setBytes (nulo) que espera el controlador PG.

El sistema de tipos en hibernación es actualmente un 'trabajo en progreso' (de acuerdo con el comentario de desaprobación 3.5.5). De hecho, gran parte del código 3.5.5 está en desuso, es difícil saber qué mirar cuando se subclasifica PostgreSQLDialect).

AFAKT, Types.BLOB / 'oid' en postgresql debe asignarse a algún tipo personalizado que use el acceso JDBC de estilo OID (es decir, el objeto PostgresqlBlobType y NO MaterializedBlobType). En realidad, nunca he usado con éxito Blobs con postgresql, pero sé que bytea simplemente funciona como uno / esperaría.

Actualmente estoy mirando la BatchUpdateException; es posible que el controlador no admita el procesamiento por lotes.

Gran cita de 2004: "Para resumir mis divagaciones, diría que deberíamos esperar a que el controlador JDBC realice las LOB correctamente antes de cambiar Hibernate".


¿Cómo anotar un archivo .broadpeak con 9 columnas? - biología

Tanto las pistas de cama como las de tipo BigBed usan someSetting en combinación con visibilidad para lograr algo.

Declara el formato de los datos y se utiliza para determinar métodos y opciones de visualización.

No todos los tipos de pistas son compatibles con los concentradores. Los tipos específicamente admitidos se indican en la parte superior de la página Definición de la base de datos de Hub Track. En muchos casos, la configuración de tipo incluye parámetros adicionales para especificar más el formato de datos. Algunos tipos de pistas tienen requisitos de configuración adicionales, que se analizarán a continuación.

Declara el formato de los datos y se utiliza para determinar métodos y opciones de visualización.

A continuación, se pueden encontrar descripciones detalladas de cada tipo. En muchos casos, la configuración del tipo incluye parámetros adicionales para especificar más el formato de los datos. Algunos tipos de pistas tienen requisitos de configuración adicionales, que se analizarán a continuación.

Especifica la "etiqueta corta" de la pista, que se utiliza en varios lugares del navegador para identificar la pista. Por ejemplo, la etiqueta corta se muestra junto a la pista en la imagen del navegador. Esta etiqueta debe ser breve y está limitada a 17 caracteres imprimibles.

Especifica la "etiqueta larga" de la pista, que también se utiliza en numerosos lugares del navegador para identificar una pista. Por ejemplo, la etiqueta larga se muestra sobre los datos de la pista en la imagen del navegador. Esta etiqueta debe ser lo suficientemente descriptiva para permitir a los usuarios identificar de forma única la pista dentro del navegador. Está limitado a 76 caracteres imprimibles.

Meta especifica la etiqueta de metadatos para esta pista. Esta etiqueta es una clave en la tabla de metadatos especificada en metaDb o metaTab en el archivo genomes.txt. La metaetiqueta puede ser cualquier cadena alfanumérica. Cada metaetiqueta debe aparecer en una estrofa trackDb Y en el archivo separado por tabulaciones especificado por metaTab o en el archivo tagStorm especificado por metaDb en el archivo genomes.txt del hub.

La visibilidad (es decir, "modo de visualización") especifica cuál de los 5 modos (incluido "ocultar") debe utilizarse para mostrar la pista dentro de la imagen del navegador. Esta configuración casi siempre es personalizable dinámicamente por cada usuario. La configuración exacta de la pantalla para cada modo depende del tipo de pista, y es posible que algunos modos no sean compatibles con ciertos tipos de pistas. Tenga en cuenta que la configuración de visibilidad en las subpistas compuestas se hereda directamente del padre. Por lo tanto, se ignorarán las líneas de visibilidad agregadas al nivel de la subpista de un compuesto. Asegúrese de experimentar con esta configuración para verificar que funciona como se espera para su tipo de pista y estructura de pista.

  • ocultar: PREDETERMINADO. La pista no se muestra en la imagen del navegador a menos que el usuario cambie la configuración de visualización.
  • denso: la pista se muestra como una sola línea o cinta. En muchos casos, varios elementos se resumen o dibujan uno encima del otro, y las etiquetas largas no se muestran.
  • squish: cada elemento se dibuja individualmente, pero a media altura y sin etiqueta. (No es compatible con todos los tipos).
  • paquete: los elementos se muestran individualmente a la altura completa, pero en un espacio vertical mucho más compacto que en el modo completo. (No es compatible con todos los tipos).
  • completo: cada elemento se muestra como una línea separada en la imagen del navegador. Las señales gráficas se pueden mostrar en diferentes alturas.

Especifica un archivo que contiene la descripción completa de una pista en formato HTML. La ruta de este nombre de archivo es relativa a la ruta del archivo trackDb. El sufijo ".html" está implícito.

Para ser coherente con las descripciones estándar de las pistas del navegador Genome, esta descripción debe contener varias secciones, como se muestra a continuación. Aquí hay un enlace a una plantilla de ejemplo que puede usar.

Algunas frases que describen el contenido de la pista y lo que intenta mostrar. La descripción puede incluir párrafos adicionales que brinden más detalles y puede incluir enlaces a fuentes externas.

Configuración y convenciones de visualización

Una descripción de lo que representa la pantalla. Esto incluye una descripción de las convenciones para colorear y cualquier glifos especiales usados ​​en la pista. Puede describir cómo interpretar las puntuaciones o los valores completos de la señal. Esta sección también se puede utilizar para describir cómo personalizar la pantalla mediante controles de configuración.

Una descripción de cómo se generaron los datos, que puede incluir cómo se trataron las muestras físicas, así como explicaciones de los algoritmos de manejo de datos.

Nombres e instituciones de quienes realizaron los experimentos y / o prepararon los datos, así como cualquier fuente de financiamiento. Esta sección debe incluir una dirección de correo electrónico de contacto para preguntas relacionadas con los datos.

Referencias a cualquier trabajo publicado que se refiera o dependa de estos datos, así como cualquier fuente en la que se base o pueda entenderse el trabajo.

Configuraciones comunes, aunque menos utilizadas

Los siguientes ajustes están disponibles para muchos o todos los tipos de pistas, pero se utilizan con menos frecuencia. La mayoría son opcionales, pero algunas pueden ser necesarias para tipos de pistas específicos o en situaciones específicas.

La ubicación de un archivo de datos remoto que contiene los datos del enlace de la cadena.

La ubicación de un archivo de datos remoto que contiene la mayor parte de los datos de la pista.Esta configuración es necesaria para todas las pistas de datos en un centro de pistas.

La configuración es la URL completa (incluido http: u otro protocolo) o es relativa al directorio en el que se encuentra el archivo trackDb que contiene esta configuración. El archivo debe estar en uno de los formatos de archivo de datos remotos admitidos: bam / cram, bigBarChart, bigBed, bigChain, bigLolly, bigInteract, bigMaf, bigPsl, bigGenePred, bigNarrowPeak, bigWig o vcfTabix. Tenga en cuenta que los tipos bam / cram y vcfTabix / vcfPhasedTrio requieren un archivo de índice separado que debe tener el mismo nombre que el archivo de datos más un sufijo estándar (".bai" y ".tbi" respectivamente), a menos que se utilice bigDataIndex. Todas las apariciones de la cadena $ D en la URL se sustituirán por el nombre de la base de datos del ensamblaje del genoma. Esto permite usar una entrada trackDb para múltiples ensamblajes. La sustitución de $ D no se implementa para los centros de seguimiento.

La ubicación de un archivo de datos remoto que contiene el índice. Esta configuración se puede utilizar cuando el índice no se puede colocar junto al archivo de big data, p. Ej. debido a permisos de acceso restringidos o debido a restricciones de nombre de archivo.

La configuración es la URL completa (incluido http: u otro protocolo) o es relativa al directorio en el que se encuentra el archivo trackDb que contiene esta configuración. El archivo debe estar en uno de los formatos de archivo de datos de índice admitidos: bai (índice BAM) o tbi (índice tabix).

dice Jim, pero por qué no. Ya usado. ->

Los controles de configuración se pueden colocar dentro de un cuadro en la página de configuración. Esta configuración es solo decorativa, pero puede hacer que una página ocupada parezca más cohesiva. No todos los tipos de pistas son compatibles actualmente con esta función, pero los tipos más comunes sí, incluidos wig, bigWig, bed y bigBed. PREDETERMINADO: desactivado.

La mayoría de las pistas se pueden mostrar en los cinco modos de visibilidad. Sin embargo, en algunos tipos de pistas, como los wiggles, los modos squish y pack no ofrecen una ventaja real sobre los modos denso y completo. De forma predeterminada, estas pistas no ofrecerán la configuración de vilibilidad de paquete y aplastamiento. No obstante, puede hacer que su pista ofrezca estas opciones de visibilidad activando canPack. Nota: las subpistas de compuestos siempre ofrecerán las cinco opciones.

Muchos tipos de pistas permiten especificar el color de los datos que se muestran en la imagen con esta configuración. La configuración acepta valores de rojo, verde y azul, cada uno en el rango de 0-255 y delimitado por comas. Aunque esta configuración es ampliamente compatible, algunos tipos de pistas en ciertos modos de visualización la ignoran, como las pistas EST en modo denso.

Este ejemplo establece el color en rojo.

Muchos tipos de pistas permiten establecer una gama de colores que varía de color a altColor. Por ejemplo, las pistas de la isla CpG utilizan la configuración altColor para mostrar las islas más débiles, mientras que las más fuertes se representan en color. Si no se especifica altColor, el sistema utilizará un color a medio camino entre el especificado en la etiqueta de color y el blanco en su lugar.

Este ejemplo establece el color alternativo en azul.

Algunos conjuntos de datos no contienen datos para todos los cromosomas de un genoma. Cuando esto sea cierto, use esta configuración como una lista separada por comas de los cromosomas que están cubiertos. El sistema muestra un mensaje de que no hay datos disponibles cuando el usuario examina cromosomas no incluidos en esta lista.

La mayoría de las visualizaciones de pistas que puede configurar un usuario también se pueden configurar directamente desde la imagen del navegador a través de una opción de clic derecho que abre un cuadro de diálogo de configuración. Si bien esta funcionalidad funciona en la mayoría de los tipos de pistas, algunos cuadros de diálogo de configuración son demasiado complejos o tienen demasiado control de javascript incrustado para ser configurados de manera confiable a través de una ventana emergente. Para desactivar la capacidad de configurar la pista mediante un clic derecho, cambie esta configuración a "desactivado". El usuario aún podrá configurar la pista en la página de configuración de la pista. PREDETERMINADO: activado.

Si esta configuración está "activada", el color de las etiquetas de la izquierda en la visualización de la pista tendrá un color algo más oscuro que la visualización de la pista en sí. Esto puede resultar útil cuando el color de la pista (que puede haber sido elegido para cumplir con las convenciones externas) es demasiado claro para etiquetas legibles.

Muchas pistas se someten a múltiples revisiones a lo largo del tiempo. En algunos casos, las versiones anteriores deben conservarse, pero incluso si no lo son, puede ser útil declarar la versión actual de la pista. Utilice esta configuración para mostrar una declaración de versión en la página de configuración de la pista y la página de detalles del elemento de una pista. La cadena admitirá HTML limitado. Para pistas nativas, no para concentradores de pistas, esta configuración también puede ser un nombre de archivo absoluto local para leer la cadena de versión.

De forma predeterminada, los elementos que se muestran en la imagen del navegador se pueden vincular a una página de detalles que proporciona información sobre ese elemento. En cambio, el enlace puede ir a la URL declarada aquí. La URL tiene el formato de una línea printf que incluye los siguientes campos en este orden:

  • % s - nombre del elemento
  • % s - nombre del cromosoma
  • % d - posición de inicio del cromosoma (relativa a cero)
  • % d - posición final del cromosoma (relativa a uno)
  • % s - nombre de la pista
  • % s - nombre de la base de datos

No es necesario que estén presentes todos los campos, pero los presentes deben estar en este orden y, si hay un campo posterior, se deben utilizar todos los campos anteriores. La URL puede ser una URL externa completa o local al sitio web.

El "carrito" es una tabla oculta que contiene las selecciones persistentes que los usuarios han realizado en el navegador del genoma. Para asegurarse de que su directUrl tenga acceso a esta configuración del carrito, incluya la ID del navegador del usuario con esta configuración.

En este ejemplo, la URL especificada por directUrl tendrá la ID del navegador del usuario adjunta para que la configuración del carrito esté disponible.

Esta configuración permite integrar una página html externa en la página de detalles predeterminada, como un iframe. Las variables de reemplazo habituales se pueden utilizar dentro de esta URL:

  • $ - ID, será reemplazado por el nombre de un elemento u otro ID de cadena dependiendo de los campos en el tipo de pista dada.
  • $ T - nombre de la tabla de la base de datos
  • $ S - nombre del cromomosoma (nombre del andamio en los ensambles del andamio)
  • $ [- posición más a la izquierda de la ventana de visualización actual (relativa a cero)
  • $]: posición más a la derecha de la ventana de visualización actual (relativa a una)
  • $ <- ubicación de inicio del elemento en el que se hizo clic (relativo a cero)
  • $> - ubicación final del elemento en el que se hizo clic (relativo a uno)
  • $ s - nombre del cromosoma sin chr prefijo (o sin andamio_ o Andamio_ prefijo en conjuntos de andamios)
  • $ D: nombre de la base de datos (p. Ej., "Hg19")
  • $ P - parte del nombre del artículo antes del primero: en el nombre
  • $ p - parte del nombre del artículo después del primero: en el nombre hasta los dos puntos siguientes
  • $ taxId - ID de taxón NCBI del organismo actual (de hgCentral.dbDb)
  • $ n - Nombre científico del organismo actual (de hgCentral.dbDb)

La URL puede ser una URL externa completa o local al sitio web.

En HTML, los iframes no se pueden cambiar de tamaño fácilmente, por lo que el tamaño estático predeterminado es 1024 píxeles. Esto se puede cambiar con iframeOptions

Cuando se usa iframeUrl, esta declaración especifica una cadena que se inserta literalmente en la etiqueta HTML & ltiframe & gt. Puede incluir las opciones necesarias para el formato de iframe, como ancho, alto, desplazamiento, etc.

Si la declaración no está presente, el valor predeterminado es ancho = '100%' alto = '1024'.

Nota: el cambio de tamaño dinámico de los iframes no es trivial, ya que deben cambiarse de tamaño con javascript en todos los dominios. Recomendamos mantener el tamaño estático y utilizar barras de desplazamiento.

Este ejemplo fija el tamaño en 800x800 píxeles y activa las barras de desplazamiento.

De forma predeterminada, los elementos que se muestran en la imagen del navegador se pueden vincular a una página de detalles que proporciona información sobre ese elemento. En su lugar, el enlace puede ir a la URL declarada aquí. La URL tiene el formato de una línea printf que incluye los siguientes campos en este orden:

  • % s - nombre del elemento
  • % s - nombre del cromosoma
  • % d - posición de inicio del cromosoma (relativa a cero)
  • % d - posición final del cromosoma (relativa a uno)
  • % s - nombre de la pista
  • % s - nombre de la base de datos

No es necesario que estén presentes todos los campos, pero los presentes deben estar en este orden y, si hay un campo posterior, se deben utilizar todos los campos anteriores. La URL puede ser una URL externa completa o local en el sitio web.

El nombre del otro ensamblaje en la alineación por pares para esta pista.

La otra especie (distinta de la referencia) en la alineación es el conjunto de tweeter en el mismo archivo HAL.

Los tipos de pistas que muestran alineaciones por pares a menudo necesitan declarar las otras especies / ensamblajes incluidos en la alineación. Los tipos que utilizan esta configuración incluyen bed, chain, netAlign, psl y snake.

Este ejemplo establece el segundo ensamblaje en la alineación con el ensamblaje del mouse mm10.

La versión de ensamblaje original para la que se generó el conjunto de datos. Los conjuntos de datos generados por mapeo a un ensamblaje del genoma pueden resultar lo suficientemente útiles como para mapear a un ensamblaje más reciente. Idealmente, los conjuntos de datos se regenerarán para mapear las coordenadas de los nuevos ensamblajes, pero a veces esto no es práctico ni conveniente. Por lo tanto, el conjunto de datos puede tener sus coordenadas genómicas "elevadas" al ensamblaje más reciente. En algunos casos, esto da como resultado una representación inferior pero útil. Dichos conjuntos de datos deben tener su ensamblado original definido con esta configuración.

Ciertas pistas se pueden marcar visualmente en el menú del navegador mediante el uso de un icono o etiqueta de texto y un enlace a una descripción del significado de las banderas. El icono se muestra junto a la etiqueta corta de la pista en la sección de grupos de pistas debajo de la imagen del navegador y en las páginas de descripción y configuración de la pista. Se pueden agregar varios pennantIcons en una sola pista separando cada entrada con un punto y coma ''. Esta configuración tiene tres partes:

  • icono: puede ser una URL completa (http, https, ftp) a un archivo de imagen o el nombre de una imagen en el directorio de imágenes del navegador en el árbol de origen del navegador.
  • texto: una etiqueta de una sola palabra. Se ignoran las mayúsculas y minúsculas, la etiqueta se muestra en minúsculas en mayúscula.
  • color: un nombre de color HTML para colorear la etiqueta de texto
  • html: una ruta html relativa o completa a un documento de descripción que explica el significado del icono. Esta página se muestra cuando el usuario hace clic en el icono.
  • sugerencia: una sugerencia de "cadena entre comillas" que se verá cuando el puntero del mouse del usuario se sitúe sobre el ícono.

La prioridad se utiliza para definir el orden de una pista dentro de su grupo de pistas o centro de datos, así como su orden predeterminado dentro de la imagen del navegador. El orden dentro de la imagen puede ser cambiado dinámicamente por el usuario y siempre dependerá de qué otras pistas están visibles actualmente. Normalmente, la prioridad se establece solo para las pistas que están activadas de forma predeterminada para adelantarlas a otras pistas. Las pistas priorizadas dentro de un grupo o centro de datos se muestran en orden de prioridad ascendente, seguidas de las pistas sin prioridad ordenadas alfabéticamente por etiqueta corta. Las pistas de la misma prioridad dentro de un grupo o concentrador se ordenan por etiqueta corta. La prioridad es un número de coma flotante. Predeterminado: 0.

Esto especifica la versión del navegador donde se mostrará la pista. Puede contener cualquier combinación de los tres valores:

  • alfa: se muestra en el navegador alfa (también conocido como prueba del genoma, hgwdev)
  • beta: se muestra en el navegador beta (también conocido como hgwbeta)
  • public: publicado en el navegador público (también conocido como genome.ucsc.edu)

Predeterminado: alfa, beta, público (los tres navegadores).

La configuración de la pista de la mayoría de las pistas es la misma que la del nombre de la tabla. Sin embargo, en algunos casos es conveniente hacer referencia a la misma tabla en más de una pista. Un ejemplo de esto es mostrar una tabla como una pista de señal única y como parte de una pista de superposición de combinación, como se describe más adelante en este documento. Para los datos contenidos en las tablas MariaDB, esta configuración debe usarse si la configuración de la pista no es el nombre de la tabla.

El navegador de tablas normalmente permite consultar y descargar algunos o todos los datos sin procesar de una pista. El valor desactivado bloquea el acceso de Table Browser a conjuntos de datos con restricciones (por ejemplo, aquellos con limitaciones de confidencialidad o licencias). El valor noGenome permite consultas dentro de regiones genómicas específicas, pero no en todo el genoma. Al nombrar tablas adicionales en esta configuración, también se puede denegar el acceso a esas tablas.

La tabla para esta pista, así como las tablas decipherRaw y knownToDecipher, están bloqueadas para el acceso al Navegador de tablas.

Las consultas de todo el genoma están deshabilitadas para la tabla de seguimiento, así como para omimAv y omimAvRepl. Se permiten consultas sobre regiones genómicas.

Muchas pistas permiten un enlace externo cuando se examina un elemento de datos de pista individual. Utilice esta configuración para poner un enlace a una URL externa en la página de detalles. La URL puede incluir comodines que se sustituirán por valores de los datos de la pista u otras variables del navegador:

  • $ - ID, será reemplazado por el nombre de un elemento u otro ID de cadena dependiendo de los campos en el tipo de pista dada.
  • $ T - nombre de la tabla de la base de datos
  • $ S - nombre del cromomosoma (nombre del andamio en los ensambles del andamio)
  • $ [- posición más a la izquierda de la ventana de visualización actual (relativa a cero)
  • $]: posición más a la derecha de la ventana de visualización actual (relativa a una)
  • $ <- ubicación de inicio del elemento en el que se hizo clic (relativo a cero)
  • $> - ubicación final del elemento en el que se hizo clic (relativo a uno)
  • $ s - nombre del cromosoma sin chr prefijo (o sin andamio_ o Andamio_ prefijo en conjuntos de andamios)
  • $ D: nombre de la base de datos (p. Ej., "Hg19")
  • $ P - parte del nombre del artículo antes del primero: en el nombre
  • $ p - parte del nombre del artículo después del primero: en el nombre, hasta los dos puntos siguientes
  • $ taxId - ID de taxón NCBI del organismo actual (de hgCentral.dbDb)
  • $ n - Nombre científico del organismo actual (de hgCentral.dbDb)

El mensaje predeterminado que verá el usuario para esta URL es "enlace externo:". Utilice urlLabel para proporcionar un mensaje más informativo.

Para las pistas locales (no centrales), se puede usar una configuración adicional para encontrar una ID de otra tabla según el nombre del elemento o la ID de la tabla de la pista. El valor encontrado reemplazará el token "$" en la URL. Tenga en cuenta que el formato de esta configuración de trackDb es un formato de lenguaje C normal, por lo que el elemento reemplazará el token "% s" en la declaración sql.

Muchas pistas permiten un enlace externo cuando se examina un elemento de datos de pista individual. Utilice esta configuración para poner un enlace a una URL externa en la página de detalles. La URL puede incluir comodines que se sustituirán por valores de los datos de la pista u otras variables del navegador:

  • $ - ID, será reemplazado por el nombre de un elemento u otro ID de cadena dependiendo de los campos en el tipo de pista dada.
  • $ T - nombre de la tabla de la base de datos
  • $ S - nombre del cromomosoma (nombre del andamio en los ensamblajes del andamio)
  • $ [- posición más a la izquierda de la ventana de visualización actual (relativa a cero)
  • $]: posición más a la derecha de la ventana de visualización actual (relativa a una)
  • $ <- ubicación de inicio del elemento en el que se hizo clic (relativo a cero)
  • $> - ubicación final del elemento en el que se hizo clic (relativo a uno)
  • $ s - nombre del cromosoma sin chr prefijo (o sin andamio_ o Andamio_ prefijo en conjuntos de andamios)
  • $ D: nombre de la base de datos (p. Ej., "Hg19")
  • $ P - parte del nombre del artículo antes del primero: en el nombre
  • $ p - parte del nombre del artículo después del primero: en el nombre, hasta los dos puntos siguientes
  • $ taxId - ID de taxón NCBI del organismo actual (de hgCentral.dbDb)
  • $ n - Nombre científico del organismo actual (de hgCentral.dbDb)

El mensaje predeterminado que verá el usuario para esta URL es "enlace externo:". Utilice urlLabel para proporcionar un mensaje más informativo.

Es similar a la etiqueta url, pero permite direcciones URL en campos que no son el campo "nombre". Utilice esta declaración si necesita varios enlaces en la página de detalles o si su enlace no se basa en el campo de nombre.

Coloque los identificadores de estos enlaces en campos extendidos de bigBed como se explica en el ejemplo 3 de la documentación de bigBed. Los nombres de campo de su archivo .as son los nombres de campo a los que se hace referencia en esta declaración. Las URL de esta declaración admiten los mismos comodines que la declaración de URL. Asegúrese de incluir las URL entre comillas dobles. La etiqueta predeterminada para el identificador es la descripción del campo en el archivo .as (todo el texto después de la marca #).

Si el campo contiene un "|" símbolo, la parte anterior al símbolo se usa para reemplazar el comodín $ y la parte posterior como etiqueta. Esto es similar a cómo el marcado de Wikpedia codifica los enlaces. En el siguiente ejemplo, un valor para el campo pmid de "115330 | Doe, J. et al" crearía un vínculo con la URL https://www.ncbi.nlm.nih.gov/pubmed/115330 y la etiqueta " Doe, J. et al ".

Si esta configuración está "activada", la página de detalles del artículo no mostrará campos que tengan valores vacíos. Esto puede resultar útil cuando tiene numerosos campos adicionales, pero solo algunos de ellos tienen un valor.

Esta configuración se puede utilizar para suprimir campos adicionales en la página de detalles del artículo. Puede resultar útil si no desea mostrar campos que solo se utilizan para mouseOvers o etiquetas.

Esta configuración cambia la página de detalles del artículo y divide la tabla utilizada para mostrar campos adicionales antes de cualquiera de los campos especificados. Puede resultar útil separar visualmente los campos adicionales en categorías lógicas.

Para archivos bigBed con más de 8 campos, esto agrega el mouse sobre el texto que es diferente del campo "nombre" de un archivo bigBed. Si el campo está vacío, el mouse sobre volverá al campo de nombre.

Para que esto funcione, cree un archivo bigBed con al menos 8 columnas y coloque el texto del mouse sobre un campo bigBed extendido como se explica en el ejemplo 3 de la documentación de bigBed. El nombre de campo de su archivo .as es el nombre de campo de esta declaración.

Para archivos bigBed, esta configuración crea el mouse sobre el texto a partir de un patrón basado en los valores de los campos del archivo. El patrón se construye con nombres de campo del archivo .as, precedidos por el signo de dólar ($), y puede incluir texto arbitrario entre los nombres de campo.

Esta configuración hace que aparezca un enlace en la configuración de la pista y las páginas de detalles de los elementos para iniciar una vista de regiones personalizadas de múltiples regiones, donde las regiones están definidas por el archivo proporcionado como un argumento para la configuración. Es útil para pistas con escasas anotaciones en el genoma. El archivo debe tener formato BED y debe contener un número limitado (por ejemplo, de 2 a 10) regiones de interés para la pista. Puede tener el formato BED 3 (cromado, inicio, fin), pero puede tener cualquier número de campos adicionales. Cuando se hace clic en el enlace, también se crea una pista personalizada complementaria para resaltar y titular las regiones mostradas. Si el campo de nombre (campo 4) está presente en el archivo BED, el nombre de cada región se mostrará en la pista personalizada.

  • Se muestra una miniatura especial (hélice NHGRI) antes de la etiqueta de la pista en el menú de la pista del navegador
  • El logotipo de ENCODE se muestra en la página de configuración de la pista
  • Los enlaces del navegador 'Descargas' y 'Vista previa' se muestran en la parte superior derecha de la página de configuración de la pista
  • La descripción de la pista incluye una nota sobre los datos en el navegador de vista previa
  • Los enlaces "descargas" y "metadatos" aparecen después de "Ver tabla:" en la página de detalles de la pista

Bed / bigBed: pistas de artículo o región

Algunos de los tipos de pistas más comunes son aquellos que resaltan regiones o elementos de tamaño variable en un ensamblaje del genoma. Hay muchas variaciones en la pista de "artículos", la mayoría de las cuales se especifican con un formato de cama o cama grande. Estos dos formatos son en realidad un grupo de muchos formatos, todos comenzando con tres campos comunes (inicio del cromosoma y fin) y teniendo opcionalmente muchos más campos. Para obtener definiciones completas de formato de cama o cama grande, consulte las preguntas frecuentes.

BigChain: Alineaciones por pares en todo el genoma

El formato bigChain describe una alineación por pares que permite espacios en ambas secuencias simultáneamente, tal como lo hacen los archivos Chain, pero los archivos bigChain se comprimen e indexan como bigBeds.Los archivos bigChain se crean usando el programa bedToBigBed con un archivo AutoSQL especial que define los campos de bigChain. Los archivos de bigChain resultantes están en formato binario indexado. La principal ventaja de los archivos bigChain es que solo se transfieren a UCSC partes de los archivos necesarios para mostrar una región en particular. Entonces, para grandes conjuntos de datos, bigChain es considerablemente más rápido que los archivos Chain normales. El archivo bigChain permanece en su servidor de acceso web (http, https o ftp), no en el servidor UCSC. Solo la parte que se necesita para la posición cromosómica que está viendo actualmente se almacena en caché localmente como un "archivo disperso". Para obtener definiciones completas del formato de bigChain, consulte la página de ayuda de bigChain.

BigPsl: Alineaciones por pares

El formato bigPsl almacena alineaciones entre dos secuencias, como hacen los archivos PSL, pero están comprimidos e indexados como bigBeds. Los archivos bigPsl se crean utilizando el programa bedToBigBed con un archivo AutoSQL especial que define los campos de bigPsl. Los archivos bigPsl resultantes están en formato binario indexado. La principal ventaja de los archivos bigPsl es que solo se transfieren a UCSC partes de los archivos necesarios para mostrar una región en particular. Entonces, para grandes conjuntos de datos, bigPsl es considerablemente más rápido que los archivos PSL normales. El archivo bigPsl permanece en su servidor de acceso web (http, https o ftp), no en el servidor UCSC. Solo la parte que se necesita para la posición cromosómica que está viendo actualmente se almacena en caché localmente como un "archivo disperso". Para obtener definiciones completas del formato bigPsl, consulte la página de ayuda de bigPsl.

BigGenePred: Anotaciones genéticas

El formato bigGenePred almacena elementos de anotación que son una colección vinculada de exones, al igual que los archivos BED indexados como lo hacen los bigBeds, pero bigGenePred tiene información adicional sobre los marcos de codificación y otra información específica de genes en ocho campos adicionales. Los archivos bigGenePred se crean utilizando el programa bedToBigBed con un archivo AutoSQL especial que define los campos de bigGenePred. Los archivos bigBed resultantes están en formato binario indexado. La principal ventaja de los archivos bigBed es que solo se transfieren a UCSC partes de los archivos necesarios para mostrar una región en particular. Entonces, para grandes conjuntos de datos, bigBed es considerablemente más rápido que los archivos BED normales. El archivo bigBed permanece en su servidor de acceso web (http, https o ftp), no en el servidor UCSC. Solo la parte que se necesita para la posición cromosómica que está viendo actualmente se almacena en caché localmente como un "archivo disperso". Para obtener las definiciones completas del formato bigGenePred, consulte la página de ayuda de bigGenePred.

BigNarrowPeak: picos

El formato bigNarrowPeak almacena picos en un rango con un solo pico central de par de bases. Los archivos bigNarrowPeak se basan en el formato bigBed. Los primeros seis campos son los mismos que la cama. Los otros cuatro incluyen tres puntuaciones y el desplazamiento del par de bases del pico central. Los archivos bigNarrowPeak se crean utilizando el programa bedToBigBed con un archivo AutoSQL especial que define los campos de bigNarrowPeak. Los archivos bigBed resultantes están en formato binario indexado. La principal ventaja de los archivos bigBed es que solo se transfieren a UCSC partes de los archivos necesarios para mostrar una región en particular. Entonces, para grandes conjuntos de datos, bigBed es considerablemente más rápido que los archivos BED normales. El archivo bigBed permanece en su servidor de acceso web (http, https o ftp), no en el servidor UCSC. Solo la parte que se necesita para la posición cromosómica que está viendo actualmente se almacena en caché localmente como un "archivo disperso". Para obtener definiciones completas del formato bigNarrowPeak, consulte la página de ayuda de bigNarrowPeak.

BigMaf: alineaciones múltiples

El formato bigMaf almacena múltiples alineaciones en un formato compatible con archivos MAF, que luego se comprimen e indexan como bigBeds. Los archivos bigMaf se crean usando el programa bedToBigBed con un archivo AutoSQL especial que define los campos de bigMaf. Los archivos bigMaf resultantes están en formato binario indexado. La principal ventaja de los archivos bigMaf es que solo se transfieren a UCSC partes de los archivos necesarios para mostrar una región en particular. Entonces, para grandes conjuntos de datos, bigMaf es considerablemente más rápido que los archivos MAF normales. El archivo bigMaf permanece en su servidor de acceso web (http, https o ftp), no en el servidor UCSC. Solo la parte que se necesita para la posición cromosómica que está viendo actualmente se almacena en caché localmente como un "archivo disperso". Para obtener definiciones completas del formato bigMaf, consulte la página de ayuda de bigMaf.

BigBed: pistas de artículo o región

Algunos de los tipos de pistas más comunes son aquellos que resaltan regiones o elementos de tamaño variable en un ensamblaje del genoma. Hay muchas variaciones en la pista de "elementos", la mayoría de las cuales se pueden representar con un formato bigBed. Este formato es realmente un grupo de muchos formatos, todos comenzando con tres campos comunes (inicio del cromosoma y finalización) y teniendo opcionalmente muchos más campos. Para obtener definiciones completas del formato de bigBed, consulte la página de ayuda de bigBed.

HalSnake - Múltiples alineaciones en un archivo HAL

HAL es un archivo generado por Cactus Progressive Alignment Suite, consulte la página de Cactus github.

Si se incluye la configuración bigDataUrl, se mostrarán los datos en la ubicación especificada por esa URL. De lo contrario, una tabla de base de datos con una sola columna fileName puede especificar la ubicación de un archivo local o una URL. Si la tabla de la base de datos incluye una columna seqName, se puede especificar un archivo VCF o URL diferente para cada secuencia de ensamblaje.

Se puede encontrar un ejemplo a continuación.

Tanto bed como bigBed declaran el número de campos de camas estándar en los datos. Los campos adicionales pueden seguir estos estándares. Si es así, el tipo debe terminar con un '+' (más). Incluso si no hay campos adicionales no estándar, el parámetro adicional '. '(punto) es necesario, si esta pista está destinada a ser configurable.

Se pueden encontrar ejemplos a continuación.

Type bigBed declara el número de campos estándar de "cama" en los datos. Puede haber campos adicionales siguiendo estos estándares. Si es así, el tipo debe terminar con un '+' (más). Incluso si no hay campos adicionales no estándar, el parámetro '. Se debe especificar '(punto) si esta pista está destinada a ser configurable.

Cada uno de estos es una variación especializada del formato de la cama. Sus definiciones especializadas deben buscarse en otra parte. Sin embargo, estas pistas de elementos comparten muchas de las mismas opciones de configuración disponibles para las pistas de la cama.

Puede encontrar un ejemplo a continuación.

Esta configuración es para pistas de tipo de archivo de datos remotos (por ejemplo, bigWig) y se describe completamente en la sección "Configuración común de trackDb" de este documento.

Para colorear elementos de manera diferente según la hebra con la que se alinean, use la configuración colorByStrand. El primer color se utilizará para alineaciones de hebras positivas y el segundo para las hebras negativas. Esta configuración es incompatible con el espectro y todos los elementos de la misma línea tendrán el mismo color, independientemente de la puntuación del elemento.

Las alineaciones de las hebras positivas se colorearán en rojo y las alineaciones de las hebras negativas serán de color azul. Esta configuración es incompatible con el espectro y, por lo tanto, todos los elementos de la misma línea tendrán el mismo color, independientemente de la puntuación del elemento.

A veces, las características que destaca un seguimiento de la cama en un genoma también se muestran en pistas de otros genomas. Si existe un elemento con el mismo nombre en las huellas del lecho de dos o más genomas, se puede establecer fácilmente un puente entre ellos a través de enlaces en la página de detalles del elemento. Para establecer esta asociación, la característica debe tener el mismo nombre en cada genoma y el nombre debe ser único dentro de la pista del lecho de cada genoma. Los componentes de esta configuración son una base de datos de ensamblaje del genoma, una tabla y columna opcionales, con una etiqueta para el enlace. Si se omite el parámetro de la columna, se asume que es el nombre. Si se omite la tabla, se supone que es la misma que la tabla actual. Se pueden establecer vínculos con múltiples genomas con esta configuración, ya que cada par está unido por '=' y delimitado por espacio. Asegúrese de utilizar '_' como sustituto de los espacios en las etiquetas.

En este ejemplo para la pista promotora bidireccional ENCODE hg18, cada genoma tiene una pista del mismo nombre y los nombres son únicos dentro de cada pista. Sin embargo, un promotor bidireccional con nombre no se encontrará en todos los genomas, por lo tanto, solo se mostrarán los enlaces a los genomas donde realmente se encuentra el nombre.

TODO: Alerta de error: esto se codificó de forma estricta y puede tener algunos problemas cuando los nombres de la tabla o columna difieren de los predeterminados. Esta función podría ampliarse para proporcionar simplemente un enlace al éxito superior de liftOver, si no se encuentra una tabla con nombre.

Las pistas de tipo bigBed en modo denso hacen un gráfico de densidad basado en la cobertura máxima vista en cada píxel. MaxVal corresponde al recuento en el que la trama alcanza la oscuridad máxima. Si maxVal es 0, esto se calculará a partir de los datos en sí.

Por lo general, las etiquetas (el campo de nombre BED) se dibujan junto a las características. Esta declaración intenta dibujar la etiqueta de la característica sobre los bloques de exón. El efecto depende del tamaño de la función en la pantalla, que a su vez depende del nivel de zoom. Si no hay suficiente espacio para 4 caracteres, no se dibuja ninguna etiqueta. Si hay más espacio, la etiqueta se dibuja con un color de contraste en los bloques en forma de exón. Si son demasiado cortos para el texto, se recortan para que quepan en el espacio disponible y se agrega el sufijo ".". Tenga en cuenta que las entidades no deben tener regiones demasiado largas y delgadas (UTR), ya que el texto puede ser difícil de leer en estas partes.
Para que el texto sea legible, las flechas que indican la hebra se muestran sobre los intrones, pero se suprimen en los bloques, por lo que la declaración debe usarse para las pistas en las que la hebra no es de importancia primaria, no está definida en el campo de la hebra BED o desactivada con exonArrows.

En las pistas que muestran exones o bloques dentro de las características, las flechas de exón permiten al usuario saltar al siguiente exón o bloque fuera de la imagen. Las flechas de exón se muestran normalmente de forma predeterminada en este tipo de pistas, con la excepción de las pistas del grupo Regulación. Las flechas se pueden mostrar u ocultar explícitamente utilizando esta configuración.

Un mouseover que muestra los números de exón e intrón se puede mostrar u ocultar explícitamente usando esta configuración. El valor predeterminado es "activado" para los tipos de pista genePred y bigGenePred.

El texto se puede configurar con las opciones "exonText" e "intronText". Su valor predeterminado es "exón" e "intrón", respectivamente.

Hay varios filtros numéricos disponibles para pistas de cama. Estos se nombran convenientemente por el campo que se filtra. El filtro numérico más común se basa en la puntuación de campo de cama estándar y, por lo tanto, está controlado por la configuración de scoreFilter. Otros ejemplos son pValueFilter, qValueFilter y signalFilter, que son filtros en campos de lecho no estándar definidos en los formatos broadPeak y narrowPeak. Esta configuración de filtro numérico debe incluir el valor predeterminado. Si el campo numérico es de coma flotante, el valor predeterminado debe contener al menos un decimal.

De forma predeterminada, el rango de valores para un filtro numérico es de 0 a 1000. Sin embargo, puede establecer explícitamente los límites superior e inferior del filtro configurando & ltcolumn & gtFilterLimits.

Los filtros numéricos excluirán los elementos que se encuentren por debajo de la configuración. Es decir, un scoreFilter de 800 excluirá todos los elementos con una puntuación por debajo de 800. También puede filtrar por valores dentro de un rango, incluyendo la configuración & ltcolumn & gtFilterByRange. Por ejemplo, un rango de scoreFilter de 800-900 incluirá solo elementos con puntajes en o por encima de 800 y por debajo de 900.

Nota: se permiten múltiples filtros de diferentes campos.

En este ejemplo, la puntuación del campo de cama estándar, que es un número entero, se utilizará para filtrar elementos en la pista. De forma predeterminada, se excluirán los elementos con puntuaciones inferiores a 100. Además, de forma predeterminada, los límites de scoreFilter son 0-1000.

El campo de cama no estándar pValue, que es de punto flotante, se filtrará por rango. El rango de datos esperado es de 0.0 a 15.0 y, de forma predeterminada, solo se mostrarán los elementos con pValues ​​dentro del rango de 3.0 a 15.0.

Las pistas de tipo bigBed se pueden filtrar en la puntuación de campo de cama estándar. Este filtro numérico es solicitado por la configuración scoreFilter, que debe incluir el valor predeterminado.

De forma predeterminada, el rango de valores para un filtro de puntuación es de 0 a 1000. Sin embargo, puede establecer explícitamente el límite superior e inferior del filtro estableciendo scoreFilterLimits.

El filtro de puntuación excluirá los elementos que se encuentren por debajo de la configuración. Es decir, un scoreFilter de 800 excluirá todos los elementos con una puntuación inferior a 800.

Desde la introducción de scoreFilter, existen opciones de filtro. & LtfieldName & gt donde la columna de puntuación se puede filtrar con una sintaxis diferente. De esta manera, scoreFilter 400 y scoreFilterLimits 0: 1000 se pueden reemplazar con filter.score 400 y filterByRange.score 0: 1000. La ventaja de cambiar al enfoque filter. & LtfieldName & gt es que también se pueden agregar filtros en bigBed & ltfieldNames & gt adicionales, como filterText.disease o filterValues.cellType, donde se pueden filtrar los bigBeds definidos con una columna de enfermedad o cellType. Consulte filter. & LtfieldName & gt para obtener más información y ejemplos.

El campo de puntuación de la cama estándar, que es un número entero, se utilizará para filtrar elementos en la pista. De forma predeterminada, se excluirán los elementos con puntuaciones inferiores a 300. El filtro no se puede establecer en menos de 200 ni en más de 1000 ..

NO PARA HUBS. Aún no es compatible con bigBeds

Otro método de filtrado de elementos se basa en valores discretos. Uno o más campos, como el nombre o la puntuación, pueden contener un número limitado de valores discretos que se pueden filtrar. Estos valores discretos se mostrarán en una lista desplegable de la que el usuario puede elegir una o más opciones. Si bien el número máximo de opciones en la lista no está limitado, mostrar demasiadas opciones puede resultar confuso para el usuario.

  • Debido a que los filtros para diferentes campos están delimitados por espacios en blanco, cualquier espacio en blanco en títulos y etiquetas debe reemplazarse por el carácter '_' (guión bajo).
  • Cada par de campo / opción está unido por '=' (signo igual).
  • La parte del campo puede tener un título que está delimitado del nombre del campo por ': (dos puntos)'.
  • Un filtro de campo único tendrá múltiples opciones delimitadas por comas.
  • Si las opciones son un índice basado en 1 (1,2,3.), La lista de opciones puede ir precedida de un '+' (signo más) y las opciones en sí mismas son solo etiquetas.
  • De lo contrario, cada opción será un valor y una etiqueta opcional delimitada por '| ' (barra vertical). Tenga en cuenta que si una opción tiene una etiqueta, todas las opciones de ese filtro deben tener una etiqueta.
  • Finalmente, las opciones pueden tener el estilo CSS envuelto en corchetes y adjuntados al final.

Debido a esta complejidad, recuerde utilizar la línea de continuación '' para asegurarse de que la configuración sea legible:

Es probable que esta configuración se redefina en algún momento, dado que es muy complicado. Sin embargo, este formato actual será compatible hasta que se reemplace por completo.

  1. Evite el uso de caracteres delimitadores, |: = <> en títulos y etiquetas. (Estos caracteres se pueden incluir mediante códigos HTML). Los espacios se pueden incluir utilizando el carácter '_'.
  2. Las etiquetas de las opciones pueden ser de color o tener otros atributos de estilo CSS. Agregue el estilo entre corchetes y sin espacios. Por ejemplo: Pull_Over . Si una opción tiene estilo CSS, todas las opciones de ese filtro deben incluir una definición de estilo.
  3. La opción filterBy se implementa en el código mediante una cláusula where de SQL. Por ejemplo, filtrar en el campo de nombre para "Fred" y "Ethyl" daría como resultado una cláusula donde SQL de "donde el nombre en ('Fred', 'Ethyl')". En las pistas de tipo genePred, este conocimiento se utiliza para definir filtros en campos en una tabla separada. Esto se hace definiendo el campo como . .

La mejor forma de entender esta configuración es con un ejemplo. Este es un ejemplo operativo en la pista hg19 "Open Chrom Synth".

Esta configuración establece dos filtros, uno en el campo "color" y otro para el campo "ocCode". El filtro de color recibe el título "Nivel de validación". La segunda opción tiene un valor de "255" y una etiqueta de "Cromatina abierta (OC 2-3)". Tenga en cuenta que aparecerá en azul en la lista debido a la definición de estilo. También observe que todas las opciones para este campo de color tienen un estilo definido, aunque la primera opción es negra y lo sería por defecto. En este ejemplo, el único espacio en blanco dentro de la sección de valor de configuración precede inmediatamente a la segunda definición de filtro. El segundo filtro, "ocCode", está titulado por el inescrutable "Código OC". Es un filtro de índice numérico (declarado por el '+'). El valor de la segunda opción es 2 y solo la etiqueta se define como "Dos: Dnase (todo)". Tenga en cuenta que los dos puntos de la etiqueta son un código HTML.

La configuración filterBy es muy potente. Le recomendamos que experimente con la configuración para determinar cuál funciona mejor para su caso.

  • filterByDate
  • filterByNumber (actualmente * Filter)
  • filterByWild
  • filterByWildList (como en la búsqueda de pistas)

Estos controles de filtro genéricos deberían funcionar con una "cláusula where" y deberían estar permitidos en cualquier pista basada en elementos, incluidas las BigBeds. Tenga en cuenta que bigBeds ya es compatible con scoreFilter y siempre tendrá el problema de que el alejamiento no admitirá el filtrado. La interfaz de usuario del navegador debería mostrarse cuando se filtran las pistas, de modo que perder el filtro es obvio.

filter. & ltfieldName & gt se utiliza para datos numéricos. Requiere que se pase un valor predeterminado. Se puede usar un valor de 0 (o el valor más bajo presente en el conjunto de datos) para habilitar el filtrado numérico, pero no filtrar nada de forma predeterminada.

De forma predeterminada, el rango de valores para filter. & LtfieldName & gt es de 0 a 1000. Sin embargo, puede establecer explícitamente los límites superior e inferior del filtro con filterLimits. & LtfieldName & gt.

Los filtros numéricos excluirán los elementos que se encuentren por debajo de la configuración. Es decir, un filtro. & LtfieldName & gt de 800 excluirá todos los elementos con una puntuación inferior a 800. También puede filtrar valores dentro de un rango si incluye la configuración filterByRange. & LtfieldName & gt. Por ejemplo, filter. & LtfieldName & gt 800: 900 incluirá solo elementos con puntuaciones iguales o superiores a 800 e inferiores a 900. Se recomienda utilizar filterByRange. & LtfieldName & gt en combinación con filterLimits. & LtfieldName & gt para establecer límites de límites.

La etiqueta del filtro será la descripción del campo según lo especificado por el archivo autoSql (.as). Esta etiqueta se puede personalizar con el parámetro filterLabel. & LtfieldName & gt. Consulte la página de ayuda de bigBed y el ejemplo 3 para obtener más información sobre la creación de archivos .as únicos para datos de bigBed.

  • filter. & ltfieldName & gt se puede usar varias veces con diferentes columnas
  • Se admiten tanto números enteros como decimales (flotantes)
  • Cualquier valor de columna / campo que comience con caracteres no numéricos se tratará como ceros
  • Los valores de Column / fieldName que comienzan con un número seguido de caracteres no numéricos se tratarán como solo el número que se ignorarán los caracteres no numéricos (y cualquier número que los siga) (consulte el ejemplo a continuación)
  • Si una columna / nombre de campo contiene valores negativos, asegúrese de especificar un valor predeterminado en o por debajo del valor negativo más bajo para evitar filtrar activamente elementos de forma predeterminada (a menos que ese sea el comportamiento previsto)
  • Para que los filtros funcionen, la pista debe ser del tipo bigBed N + o del tipo bigBed N. Se requiere un & quot + & quot (para pistas bigBed +) o un & quot. & quot (para pistas bigBed no extendidas)
  • De forma predeterminada, todas las pistas de cama que sean al menos bed5 tendrán un filtro de puntuación. Habilitar cualquiera de las configuraciones del filtro filter *. & LtfieldName & gt deshabilitará ese filtro predeterminado

En este ejemplo, se habilita el filtrado para la puntuación de campo. Estamos pasando un valor predeterminado de 0, que suele ser un valor predeterminado seguro para pasar, ya que la mayoría de los valores de puntuación contienen solo números positivos. Sin embargo, tenga en cuenta que los valores negativos se filtrarían de forma predeterminada en este ejemplo.

En este segundo ejemplo, estamos habilitando el filtrado en la misma puntuación de campo, sin embargo, estamos pasando el entero 300. Esto significa que cuando se cargan los datos, los elementos con puntuaciones por debajo de 300 se excluirán de forma predeterminada. Este valor se puede modificar en la página de descripción de la pista.

En este ejemplo, habilitamos el filtrado numérico en la señal de campo. filterByRange. & ltfieldName & gt también se está habilitando, lo que permite filtrar entre valores de intervalo, esto también nos permite pasar un rango de valores al parámetro filter. & ltfieldName & gt. En este caso, de forma predeterminada, solo se muestran valores entre 300 y 400. Por último, los límites del filtro se están modificando para aceptar valores entre 200 y 500 en contraposición al valor predeterminado de 0 a 1000.

Valores de ejemplo en el campo / columna de puntaje de confianza:

Este ejemplo aplica el filtro. & LtfieldName & gt a los valores del campo denominado Confianza Puntuación que contiene algunos valores no numéricos. Si los elementos con los cuatro valores anteriores se filtraron con un valor mínimo de 6:

5: el elemento se eliminará porque es menor que el valor del filtro
6 (Incierto): el elemento debería aparecer, ya que se interpretaría como & quot6 & quot
Desconocido: el elemento se eliminaría ya que se interpretaría como 0
7.0 - el elemento aparecería ya que se admiten decimales

filterText. & ltfieldName & gt se utiliza para habilitar la búsqueda de texto en el fieldName especificado. Requiere que se pase una cadena de búsqueda predeterminada. Se puede usar un asterisco / comodín (*) para habilitar la búsqueda de texto, pero no pasar ningún valor predeterminado. Si se pasa una palabra o una cadena, los elementos que coincidan con la cadena se filtrarán de forma predeterminada. Consulte los ejemplos a continuación para obtener más detalles.

filterText. & ltfieldName & gt habilitará dos tipos de búsqueda, comodín y regexp. De forma predeterminada, la opción de comodín está habilitada. Esto significa que un término de búsqueda con un elemento comodín (*) en cada extremo coincidirá con cualquier número de caracteres adicionales antes y / o después del término de búsqueda. La opción regexp permite realizar búsquedas con reglas de expresión regular. Se puede agregar la configuración opcional filterType. & LtfieldName & gt para cambiar el valor predeterminado de comodín a regexp.

La etiqueta del filtro será la descripción del campo según lo especificado por el archivo autoSql (.as). Esta etiqueta se puede personalizar con el parámetro filterLabel. & LtfieldName & gt. Consulte la página de ayuda de bigBed y el ejemplo 3 para obtener más información sobre la creación de archivos .as únicos para datos de bigBed.

  • filterText. & ltfieldName & gt tratará todos los campos como cadenas. Es decir, se puede habilitar en campos completamente numéricos, como chromStart, si se busca filtrar valores numéricos. como texto
  • Para que los filtros funcionen, la pista debe ser del tipo bigBed N + o del tipo bigBed N. Se requiere un & quot + & quot (para pistas bigBed +) o un & quot. & quot (para pistas bigBed no extendidas)
  • De forma predeterminada, todas las pistas de cama que sean al menos bed5 tendrán un filtro de puntuación. Habilitar cualquiera de las configuraciones del filtro filter *. & LtfieldName & gt deshabilitará ese filtro predeterminado

En este ejemplo, estamos aplicando un filtro predeterminado en el campo geneName para que solo los elementos con BRCA en geneName sean visibles. De forma predeterminada, esta es una búsqueda con comodines de * BRCA * que equivale a una búsqueda de expresiones regulares. * BRCA. *. El término del filtro se puede cambiar libremente en la página de configuración de la pista, lo que permite a los usuarios filtrar por otros valores en el campo geneName.

Este ejemplo habilita el filtrado en el mismo campo que el anterior, geneName, sin embargo, no declara un parámetro de búsqueda predeterminado. Esto se hace pasando solo un asterisco / comodín (*). Esto significa que el cuadro de búsqueda estará presente, pero no se filtrará ningún elemento geneName de los datos a menos que el usuario especifique un valor.

Este ejemplo una vez más habilita el filtrado en el mismo campo, sin embargo, declara regexp como el tipo de filtro y pasa una expresión regular que se aplicará de forma predeterminada. En este caso, estamos apuntando a todos los elementos geneName que son de la versión 1.

filterValues. & ltfieldName & gt se utiliza para habilitar el filtrado por valores especificados dentro de un campo. Se puede utilizar en campos que pueden contener un valor de texto o una lista de valores de texto separados por comas, como "classA, classB". Por lo general, estos son nombres de categorías. La opción requiere al menos un valor para filtrar.

Cada valor individual posible que pueda aparecer en el campo debe pasarse en una lista separada por comas. Luego podrá seleccionar esos valores como categorías, eligiendo mostrar solo los elementos que pertenecen a uno, cualquiera o al menos uno de los valores seleccionados. De forma predeterminada, el usuario puede seleccionar varios valores de esta lista y el filtro permite pasar cualquier característica con al menos uno de estos valores (multipleListOr).

Para elegir el comportamiento de selección predeterminado, se puede utilizar el parámetro opcional filterType. & LtfieldName & gt. Si no se pasa este parámetro, de forma predeterminada, la selección se establecerá en & quot una o más coincidencias & quot, que es lo mismo que tener filterType.fieldName multipleListOr. Si el usuario solo debería poder seleccionar un valor único, se puede pasar singleList en su lugar. Otra opción, multipleListAnd, significa que el usuario puede seleccionar varias categorías, pero el filtro dejará pasar solo las características en las que estén presentes todas estas categorías.

multipleListOr y multipleListAnd todavía permiten que el usuario anule el tipo de combinación manualmente en la interfaz de usuario con un botón de opción. Si especifica multipleListOnlyOr o multipleListOnlyAnd, el botón de radio se suprime y el usuario ya no puede elegir entre las opciones. Esto se puede utilizar en casos en los que, por la naturaleza del campo, tiene poco sentido ofrecer la búsqueda OR o AND.

También puede elegir qué valores seleccionar de forma predeterminada mediante el parámetro filterValuesDefault. & LtfieldName & gt. Puede tomar una lista separada por comas como filterValues. & LtfieldName & gt, y todos los elementos incluidos se seleccionarán automáticamente. No es que los valores necesiten estar presentes en ambos entornos.

Las etiquetas en el menú que se muestra al usuario se pueden configurar para mostrar un nombre / etiqueta diferente a la que está presente en el campo bigBed. Esto puede ser útil cuando los valores de los datos se escriben en forma abreviada, pero desea que aparezca un nombre más descriptivo en la interfaz de usuario. El formato de esta sustitución es el siguiente:

P.ej. Si el valor en el campo bigBed es AML, una configuración como Leucemia mieloide aguda | AML mostrará Leucemia mieloide aguda en la interfaz de usuario, pero dará lugar a que se busque el valor AML en el campo bigBed. Esto puede reducir mucho el tamaño del archivo bigBed. Consulte el ejemplo a continuación para obtener más información.

  • Actualmente, todos los valores deben indicarse individualmente
  • Los nombres de los valores deben coincidir exactamente
  • De forma predeterminada, todas las pistas de cama que sean al menos bed5 tendrán un filtro de puntuación. Habilitar cualquiera de las configuraciones del filtro filter *. & LtfieldName & gt deshabilitará ese filtro predeterminado
  • Para que los filtros funcionen, la pista debe ser del tipo bigBed N + o del tipo bigBed N. Se requiere un & quot + & quot (para pistas bigBed +) o un & quot. & quot (para pistas bigBed no extendidas)
  • No debe haber espacios en blanco entre los elementos declarados después de las comas, p. Ej. "itemOne, itemTwo, itemThree"
  • La etiqueta predeterminada se puede personalizar con el parámetro filterLabel. & LtfieldName & gt
  • Cuando se utilizan valores de filtro en un campo que incluye comas, se puede utilizar una coma adicional para escapar. Ex. "fieldOne, fieldTwo ,, fieldTwo, fieldThree"

En este ejemplo simple, estamos aplicando filterValues. & LtfieldName & gt al campo OddEven, que designa & quotEven & quot o & quotOdd & quot. Luego, podemos filtrar los datos utilizando el campo OddEven con un menú desplegable que se muestra en la página de controles de la pista para solo pares o probabilidades. Como no hay filterType, el usuario también puede mostrar pares y probabilidades al mismo tiempo.

En este ejemplo de seguimiento, estamos pasando el parámetro filterType.fieldName singleList, lo que significa que solo se puede elegir un elemento en el campo OddEven, en este caso & quotOdd & quot o & quotEven & quot. Esto elimina el valor predeterminado que permite múltiples selecciones.

En este tercer ejemplo, también hemos agregado el parámetro filterValuesDefault.fieldName. Ahora, el filtro predeterminado cuando se carga el concentrador tendrá preseleccionado el valor impar.

En este ejemplo, el filtro se aplica a varios valores en el campo annotationType. Luego, podemos seleccionar entre estos valores en el campo annotationType con un menú desplegable que se muestra en la página de configuración de la pista y mostrar solo los elementos que coinciden con nuestras selecciones. Las opciones de selección nos permitirán hacer coincidir uno, todos o cualquier combinación de los valores proporcionados.

En este seguimiento de la pregunta anterior, hemos cambiado el nombre de los elementos que aparecen en el menú desplegable para que sean más descriptivos que los valores de formato de archivo denso. Esto significa que si solo quisiéramos ver elementos con annotationType de DNA-BR, seleccionaríamos la región de unión al ADN en el menú de la interfaz.

Cuando un usuario hace clic en un elemento de la pista en la imagen del navegador, se muestra la página de detalles del elemento. Esta configuración especifica una etiqueta alternativa para el filtro en esa página. Sin esta configuración, la etiqueta será la descripción del campo según lo especificado por el archivo autoSql (.as). Algunos de los parámetros modificados por esto son:

En este ejemplo, tenemos un campo estándar & quotstrand & quot BED con la descripción predeterminada & quot + o - para cadena & quot. Hemos habilitado un filtro y simplificado la etiqueta a solo "Filamento (Orientación)".

En los formatos de cama que admiten al menos 9 campos de cama estándar, esta configuración se puede utilizar para activar la coloración del artículo utilizando el valor del noveno campo, itemRgb. El valor del campo del artículo debe ser un triplete R, G, B. Cuando se carga en una tabla, este campo aparece como un número entero con los valores RGB en bits específicos del número entero. Para observar este campo, especifique el tipo como, escriba bigBed 9, o escriba bigBed 9+, para columnas no estándar adicionales, en la estrofa trackDb para el archivo bigBed.

Tenga en cuenta que la visualización del color se ve afectada por la opción maxItems. Cuando la pista se amplía hasta el punto en que el número de elementos para mostrar excede maxItems, la pista se fuerza a modo denso y los elementos se extraen del resumen de bigBed en el color de pista predeterminado en lugar de usar la columna itemRgb.

Número máximo de elementos para mostrar individualmente en modo completo. Cuando se excede el máximo, los elementos sobrantes se dibujan uno encima del otro en la última línea. En el modo empaquetado, esto se refiere al número de líneas en lugar de al número de artículos. Predeterminado: 250. Para pistas de tipo bigBed, esta configuración nunca puede ser superior a 100.000.

Cuando se pueden mostrar demasiados elementos de cama individuales en la imagen del navegador (como puede ocurrir cuando se ve una región grande de un cromosoma), maxWindowCoverage cambiará la pista a un gráfico de cobertura de densidad cuando la ventana contenga más del número especificado de bases.

Las imágenes del navegador que muestran más de 10,000,000 de bases darán como resultado que los datos de la pista se muestren como un gráfico de cobertura de densidad.

Cuando se pueden mostrar demasiados elementos de cama individuales en la imagen del navegador (como puede ocurrir cuando se ve una región grande de un cromosoma), maxWindowToDraw activará una opción para mostrar un mensaje pidiendo a los usuarios que acerquen una región más pequeña.

Dependiendo de la visibilidad actual de la pista de la cama y de qué otras pistas se muestran al mismo tiempo, el navegador puede reducir automáticamente la pantalla al modo empaquetado o denso en algunos casos. La configuración de maxWindowToDraw le permite forzar a los usuarios a acercarse, ya que un mensaje predominante bloqueará la visualización de datos. A diferencia de la configuración maxItems, que controla la visualización del espacio vertical y fuerza una pantalla a densa cuando se excede el número máximo de elementos, la configuración maxWindowToDraw dicta la cantidad de bases que se mostrarán en una ventana antes de que la pista se oscurezca con un mensaje que explique el requisito de hacer zoom. Incluso sin esta configuración, hay operaciones del navegador que, en última instancia, evitarán que se muestren demasiados elementos al forzar un resumen visualizado en modo denso como se indica.

Las imágenes del navegador que muestran más de 10,000,000 de bases darán como resultado que los datos de la pista se oscurezcan con una nota en todo el rango genómico que indique el zoom del mensaje.

Cuando una pista de cama contiene la puntuación de campo estándar, y cuando esa puntuación se utiliza para presentar elementos en escala de grises o de colores (ver espectro), esta configuración especifica el tono más claro que se utilizará. Esto evita que las puntuaciones más bajas se muestren en un color demasiado claro para verlas fácilmente. Establezca el valor en el rango de 1 a 9, del más claro al más oscuro.

Esto establece las puntuaciones más bajas en un poco menos de gris medio, mientras que las puntuaciones más altas aparecen en negro.

De forma predeterminada, las pistas de cama con 5 o más campos de cama estándar que contienen un '. 'o un' + 'en la configuración de tipo serán filtrables en la puntuación, es decir, tendrán una configuración asumida de "scoreFilter 0". Para desactivar esta opción predeterminada de estilo antiguo, incluya la configuración "noScoreFilter".

Si su pista es una cama 5 o mayor, entonces existe el campo de puntuación de cama estándar. Esta puntuación, que se espera que varíe de 0 a 1000, se puede utilizar para controlar el sombreado de los artículos de cama dibujados en la imagen del navegador. Para activar esta función, active el espectro. Las puntuaciones más bajas se sombrearán en gris claro de forma predeterminada, mientras que las puntuaciones más altas tendrán una tendencia al negro. Esto se puede modificar de varias formas:

    el color se puede usar para reemplazar la escala de grises con una escala de color
  • altColor con color puede variar los elementos de color a altColor ->
  • minGrayLevel se puede utilizar para establecer el nivel del tono más claro
  • scoreMin y scoreMax se pueden utilizar para definir los límites superior e inferior del rango que recibirá sombreado graduado

Nota: El tipo de archivo debe ser escriba bigBed x donde x es al menos bigBed 5. Si solo escriba bigBed se utiliza, la configuración no funcionará, ya que se supone que es un bigBed 3.

En este ejemplo, la descripción de la pista se mostrará en azul, pero la pista seguirá siendo una escala de grises. Los elementos con puntuaciones inferiores o iguales a 700 se mostrarán en gris muy claro, aquellos con puntuaciones entre 700 y 900 se mostrarán en tonos de gris cada vez más oscuros y los elementos con puntuaciones superiores o iguales a 900 se mostrarán en negro.

Especifica la lista de nombres de campo en los que se ha realizado un índice. Cuando un usuario ingresa una cadena en el cuadro de búsqueda de posición del navegador, se buscará en este índice para encontrar ese nombre, y si la cadena está en el índice, se navegará al usuario a esa posición en el navegador, o si hay hay más de una coincidencia de esa cadena, se le dará una lista de las posiciones para elegir. Consulte AQUÍ para obtener instrucciones sobre cómo crear un índice para un archivo bigBed. La configuración de searchIndex requiere que los datos BED de entrada se clasifiquen entre mayúsculas y minúsculas (sort -k1,1 -k2,2n), donde las versiones más nuevas de la herramienta bedToBigBed (disponibles aquí) se mejoran para detectar entradas incorrectas.

Especifica la URL de un archivo TRIX que asigna texto libre a un conjunto de índices que se supone que tienen índices en el archivo bigBed asociado. Consulte AQUÍ para obtener instrucciones sobre cómo crear un archivo TRIX.

En las pistas de lecho que tienen 8 o más campos de lecho estándar, las porciones de elementos en las pistas, como los modelos genéticos, se pueden dibujar más gruesas para diferenciar las regiones de exones de los intrones. Cuando los datos se muestran en diferentes escalas, los elementos y las porciones gruesas de los elementos deben escalar proporcionalmente. Sin embargo, puede ser más importante ver la existencia de las regiones gruesas que intentar mantener la proporción. Al configurar thickDrawItem en, las regiones de visualización gruesas de los elementos siempre se dibujan a un mínimo de 3 píxeles, incluso cuando se aleja mucho.

La activación de esta configuración proporciona los controles de tipo de filtro de cama que le permiten filtrar los elementos de la cama por nombre con coincidencia de comodines.

TODO: esto debe reescribirse para permitirlo en cualquier fuente de datos basada en elementos y no excluir también otras opciones de filtrado. (Es decir, convierta esto en filterByWild o filterByWildList)

La pista de la cama se podrá filtrar por los nombres de los elementos de la cama.

Consulte la página de formato de pista CRAM para obtener una descripción de cómo utilizar esta configuración.

Cuando un usuario hace clic en un elemento de seguimiento de cama en la imagen del navegador, se muestra la página de detalles del elemento. Esta configuración especifica una etiqueta alternativa para el nombre del elemento en esa página. Sin esta configuración, la etiqueta será "Elemento:".

Cuando un usuario hace clic en un elemento de la pista en la imagen del navegador, se muestra la página de detalles del elemento. Esta configuración especifica una etiqueta alternativa para la partitura en esa página. Sin esta configuración, la etiqueta será "Puntuación:".

El límite superior del rango de datos en una pista se especifica con esta configuración.

Permite fusionar todos los elementos de la pista que se extienden más allá de ambos lados de la ventana de visualización actual en un elemento de cama en la pantalla. La presencia de esta configuración permite que la pantalla ofrezca esta opción de visualización contraída, mientras que sobre o apagado indica qué vista debe mostrarse de forma predeterminada.

El usuario puede habilitar / deshabilitar la pantalla en la página de configuración de la pista normal o mediante la selección en el menú contextual. Si la pista es un bigBed 9 (+), el elemento combinado se sombreará como el promedio de todos los elementos combinados.

Esta configuración cambia el significado del campo del nombre de la cama a "descripción del identificador". Si está activado, el navegador no muestra la primera palabra del nombre del artículo BED, pero usa esta primera palabra para vincular a la página de detalles del artículo. Esto permite colocar tanto un identificador, como un ID de gen, como su descripción legible por humanos en el campo de nombre del elemento BED, separados por un espacio.

Un campo de nombre BED de "9005 PITX2" se mostrará "PITX2" en el navegador del genoma, pero cuando el usuario haga clic en él, la URL se creará solo a partir de la primera palabra, por defecto cgi-bin / hgc? I = 9005 & amp (.). La URL se puede cambiar con directUrl, donde% s se reemplaza por el identificador.

Los archivos bigBed a menudo se crean utilizando UCSC bedToBigBed programa. De forma predeterminada, este programa solo espera una palabra para los nombres de los elementos BED. Para decirle al programa que acepte varias palabras separadas por espacios (requerido para esta configuración de pista), necesitará usar el -pestaña opción para bedToBigBed. Esto le dice al programa que los caracteres de tabulación se utilizan en lugar de espacios para separar los campos del archivo BED. Tenga en cuenta que esta opción solo funcionará si se utilizan caracteres de tabulación como separador de campo en todo el archivo BED. Más información sobre la creación de archivos bigBed está disponible aquí.

Especifica dónde se puede encontrar la secuencia del elemento (si existe) para que la secuencia del elemento, o las diferencias de la secuencia genómica, se puedan dibujar al ver una región suficientemente pequeña.

  • Si se especifica extFile, se requieren dos parámetros adicionales, el nombre de la tabla seq seguido del nombre de la tabla extFile que se utilizará para buscar la secuencia. Estas tablas son cargadas por hgLoadSeq.
  • Si se especifica hgPcrResult, se utiliza un resultado de PCR.
  • Si se especifica lfExtra, la secuencia de un elemento se encuentra en la última columna de la tabla o archivo remoto.
  • Si se especifica nameIsSequence, la cuarta columna (nombre o secuencia) contiene la secuencia. (ver hg / lib / encode / tagAlign.as)
  • Si se especifica seq1Seq2, la séptima y la octava columna (seq1 y seq2) contienen los pares izquierdo y derecho de la secuencia. (ver hg / lib / encode / pairedTagAlign.as)
  • Si se especifica ss, se busca una secuencia blat proporcionada por el usuario.

Especifica dónde se pueden encontrar las coordenadas de la secuencia de codificación (CDS) (si las hay) para que los codones se puedan dibujar al ver una región suficientemente pequeña. Si se especifica una tabla, se requiere un parámetro adicional de un nombre de tabla, en formato cdsSpec.

Especifica el modo de dibujo predeterminado. Las opciones itemBases, itemCodons, diffBases y diffCodons son aplicables solo si la pista tiene una secuencia, como se especifica en la configuración baseColorUseSequence. Los genomicCodons, itemCodons y diffCodons son aplicables solo si la pista tiene información de CDS, como se especifica en la configuración baseColorUseCds.

NO PARA HUBS. Aún no es compatible con bigBeds

Elija un color que contraste (esto suele ser blanco) o un tono de color más claro. Este debe ser del mismo color que se elegiría para el texto base si el usuario se acercara al nivel base.

Muestra las diferencias de base para todos los niveles de zoom.

NO PARA HUBS. Aún no es compatible con bigBeds

Muestre anotaciones que resalten las diferencias de base o codón solo si el nivel de zoom actual no excede basesPerPixel (un flotador). showDiffBasesAllScales también debe configurarse para que esto sea útil.

NO PARA HUBS. Aún no es compatible con bigBeds

Muestre CDS para pistas PSL en todos los niveles de zoom.

NO PARA HUBS. Aún no es compatible con bigBeds

Utilice esta configuración (un flotador) para especificar el alejamiento máximo permitido para mostrar el CDS para pistas psl. Junto con esta configuración, showCdsAllScales debe establecerse en y showDiffBasesMaxZoom debe establecerse en un valor no mayor que showCdsMaxZoom para que esta configuración de visualización sea útil.

TODO: Explicar ejemplos, ampliar la explicación de la opción

En las pistas que muestran exones o bloques dentro de los elementos, las flechas de exón permiten al usuario saltar al siguiente exón / bloque fuera de la imagen. Utilice esta configuración para mostrar flechas de exón incluso cuando la pista está en modo denso.

NO PARA HUBS. La tabla complementaria debe estar en la base de datos local.

Utilice esta configuración para especificar una tabla, indexada por nombre de elemento, que contiene un fragmento HTML opcional para mostrar en la página de detalles de este elemento. Las columnas esperadas en la tabla son "nombre" y "html".

Los elementos se pueden asociar con imágenes y las imágenes se pueden hacer visibles con estos dos ajustes. ItemImagepath especifica una ruta URL a un directorio con archivos de imagen nombrados en el formato . . El nombre se recupera de la tabla o del archivo de datos remotos. Esta imagen se mostrará en la página de detalles del artículo. Si también se proporciona itemBigImagePath, se proporcionará un enlace a una imagen más grande. Si la ruta proporcionada es local para el navegador, la ruta debe ser relativa.

Cuando el usuario hace clic en un elemento llamado fred, la página de detalles del elemento mostrará la imagen images / myTrackImages / fred.png y también proporcionará un enlace a una imagen más grande en http://bigImages.com/myTrackImages/fred.jpg .

Al especificar una pista de alineaciones múltiples, la página de detalles del artículo ilustrará las diferencias para ese artículo en varias especies.

Para las pistas que ofrecen múltiples elementos de bloque, como modelos genéticos, las flechas del exón siguiente / anterior generalmente se muestran de forma predeterminada en el navegador. La funcionalidad de estas flechas diminutas se describe al pasar el mouse por encima de las "sugerencias de herramientas" que, por defecto, son "Siguiente exón" y "Exón anterior". Si los bloques no representan exones, puede ajustar el texto de la información sobre herramientas a la información adecuada con estos dos ajustes.

Utilice esta configuración para mostrar una lista de algunos elementos de mayor puntuación en una región del genoma, al mirar un elemento individual en la página de detalles del elemento. La región cubrirá las coordenadas de la ventana del navegador actual. Actualmente, esta configuración no se puede configurar.

El formato de cama más simple, con nada más que un cromosoma y las coordenadas de inicio y parada para cada elemento de la cama. No hay nada que configurar.

La configuración de tipo para una cama y una cama grande es casi idéntica. Aquí, ambas configuraciones de tipo especifican una pista con los primeros 6 campos de cama estándar definidos (hasta la hebra) y con campos adicionales definidos después de esos 6 (indicados por el '+'). La configuración colorByStrand configura los elementos de la hebra positiva para que sean de color rojo, mientras que los elementos de la hebra negativa son azules.

Una pista bigBed con los primeros 8 campos de cama estándar (a través de ThickEnd) y sin campos adicionales. Los ' . 'le dice al navegador que el usuario puede configurar esta pista. El filtro de puntuación se declara explícitamente como predeterminado en 700, y el rango definido de 100 a 1000 sugiere que no hay valores de interés por debajo de 100. Este ejemplo también colorea el texto de descripción en azul y presenta un espectro o gradación de oscuridad según el rango de puntuación. . Los elementos con una puntuación de 700 o menos se muestran como los más claros y los elementos con una puntuación de 900 o más son los más oscuros. Finalmente, minGrayLevel asegura que el usuario vea el tono más claro. Sin duda, el valor de '4' se eligió después de experimentar con la pantalla del navegador.

Esta pista es esencialmente un conjunto de datos de formato de cama 6 + 3, pero se ha definido con características especiales para ENCODE. El pValueFilter se aplica a un campo llamado pValue que es uno de los 3 campos adicionales después del estándar 6.

La configuración de tipo para una cama y una cama grande es casi idéntica. Aquí, ambas configuraciones de tipo definirían una pista con los primeros 6 campos de cama estándar definidos (hasta hebra) y con campos adicionales definidos después de esos 6. Observe que los elementos de hebra positiva están coloreados en rojo, mientras que los elementos de hebra negativa son azules.

Una pista bigBed con los primeros 8 campos de cama estándar (a través de ThickEnd) y sin campos adicionales. Los ' . 'es necesario para indicarle al navegador que el usuario puede configurar esta pista. El filtro de puntuación se declara explícitamente como predeterminado en 700, y un rango permitido para la puntuación sugiere que no hay valores por debajo de 100 que valga la pena analizar. Este ejemplo también establece el texto de descripción en azul y presenta un espectro o gradación de oscuridad según el rango de puntuación. Los elementos con una puntuación de 700 o menos son los más claros y los elementos con una puntuación de 900 o más son los más oscuros. Finalmente, el tono más claro está configurado para que no sea demasiado claro con el ajuste minGrayLevel. Sin duda, se eligió 4 después de la experimentación para ver cómo se ve realmente en el navegador.

Wig, bigWig y bedGraph: Pistas de gráficos de señales

Otro conjunto de tipos de pistas comunes es el que representa gráficamente una señal de densidad a lo largo del genoma. El gráfico puede ser un gráfico de densidad que varía continuamente o uno que muestra una señal de densidad solo en ciertas regiones. El más antiguo y sencillo de ellos es el formato de peluca. Este tipo se ha mejorado como bedGraph y luego se ha mejorado mucho como bigWig. Si bien existen diferencias entre los formatos, todos admiten los controles básicos de configuración de gráficos. Para obtener especificaciones detalladas de cada tipo y cómo prepararlas para su visualización en el navegador Genome, consulte las preguntas frecuentes.

BigWig: Pistas de gráficos de señales

Otro conjunto de tipos de pistas comunes son los que grafican una señal de densidad a lo largo del genoma. El gráfico puede ser un gráfico de densidad que varía continuamente o uno que muestra una señal de densidad solo en ciertas regiones. Para los concentradores de datos, el tipo de pista de señal más común es bigWig. Para obtener especificaciones detalladas del formato de archivo de datos remotos bigWig y cómo prepararlo para su visualización en el navegador Genome, consulte: http://genome.ucsc.edu/goldenPath/help/bigWig.html.

Las tablas MariaDB de tipo wig y los archivos de datos remotos de tipo bigWig deben declarar el rango de señal esperado para los datos.

Se pueden encontrar ejemplos a continuación.

Los archivos de datos remotos de tipo bigWig deben declarar el rango de señal esperado para los datos.

Se pueden encontrar ejemplos a continuación.

La pista de tipo bedGraph tiene el mismo formato de archivo que un archivo bed, pero se carga en la base de datos MariaDB en una forma que se puede graficar. De forma predeterminada, el valor que se graficará es el quinto campo de cama estándar; sin embargo, puntúe, puede especificar un campo diferente para usar. Por lo general, solo se incluyen los primeros 3 campos de lecho estándar (cromado, inicio, parada) y el cuarto campo contiene el valor de la señal. La pista bedGraph ofrece un par de mejoras importantes sobre la pista de la peluca. En las pistas de peluca, el valor de la señal se trunca en un solo byte, que es efectivo para graficar pero falla en el almacenamiento de datos. Además, el tipo de peluca se diseñó originalmente para ventanas de tamaño fijo, aunque se agregaron variaciones. El tipo bedGraph permite crear ventanas variables y definir valores incluso hasta el nivel base. Para ser claros, las pistas de bigWig son tan versátiles como bedGraphs. Es solo el formato de la peluca el que adolece de estas limitaciones.

Por otro lado, la densidad de almacenamiento de la peluca, particularmente la variante de escalón fijo, es mucho más densa que bedGraph. En los casos en los que los datos están destinados únicamente a la visualización, los 256 niveles admitidos por la peluca son más que suficientes. Para resoluciones de nivel de base única o incluso de 10 bases, bedGraph generalmente no es práctico para todo el genoma. Tenga en cuenta también que las pelucas convertidas a bigWigs no sufren la reducción de precisión de las pelucas cargadas directamente en la base de datos. Un bigWig basado en pelucas FixedStep es la mejor manera de representar gráficos densos sobre el genoma.

Tenga en cuenta que los límites inferior y superior de la señal bedGraph no se declaran en el tipo, sino que se declaran con 2 configuraciones separadas, minLimit y maxLimit.

TODO: Desaprobar minLimit / maxLimit.

Se pueden encontrar ejemplos a continuación.

Cuando autoScale se establece en "on" o "group" en la pista de señal, además, configurar alwaysZero en "on" asegurará que el valor y = 0 estará a la vista en todo momento. Predeterminado: desactivado.

Esta configuración está disponible tanto para los tipos de gráficos de pistas (wig, bigWig, bedGraph) como para las pistas de mapa de calor Hi-C (hic). Se comporta de forma ligeramente diferente para cada uno.

Para las pistas de gráficos, el gráfico de los datos que se muestran en la imagen del navegador generalmente se escala en el eje y en coordenadas absolutas. Sin embargo, puede mostrar los datos en dos tipos de escala automática, lo que garantizará que la puntuación más alta en la ventana de visualización actual alcance su punto máximo en la parte superior del gráfico o que todas las pistas en una composición se escalen de acuerdo con el punto más alto en la ventana de visualización de cualquier pista visible en la misma composición. Como la mayoría de las configuraciones de gráficos, el usuario puede configurarlo. Al configurarlo en "on" en trackDb, la pista se escalará automáticamente a la vista de datos de forma predeterminada. Si lo configura como "grupo" en trackDb, la pista se ajustará automáticamente a la escala de grupo. El valor predeterminado es "desactivado", que configurará la pista para utilizar la configuración del rango de visualización vertical.

NOTA: Estas opciones pueden ser engañosas si una señal baja y ruidosa aparece erróneamente como significativa porque no hay señal alta en la ventana de visualización. La opción "grupo" solo se aplica a las pistas compuestas de bigWig.

Para las pistas Hi-C, las puntuaciones de interacción más altas se representan con colores más intensos. Cuando esta configuración se establece en "off", la puntuación en la que el color alcanza la intensidad máxima es un valor fijo que se puede elegir con la configuración de saturationScore trackDb. Cuando esta configuración se establece en "on", la puntuación de intensidad máxima cambia dinámicamente dependiendo de los valores en la ventana de visualización actual. El valor predeterminado para esta configuración es "activado". La opción "grupo" para autoScale no está disponible para pistas Hi-C.

La señal se puede representar gráficamente como "puntos" mostrados en el valor de la señal, o como la "barra" que llena el espacio por defecto.

Se debe declarar la cantidad de espacio de visualización vertical para su pista de señal, aunque es configurable por el usuario. Por lo general, se establece en no más de 100 píxeles y no menos de 8, con un valor predeterminado de 16 o 32 píxeles.

El navegador mostrará la pista con una altura de 16 píxeles, pero el usuario puede escalarla hasta 100 píxeles.

Cuando se hace clic en los datos de la señal en la imagen del navegador, se muestran los detalles de la señal en la ventana de visualización actual. Para bigWigs que hacen referencia a datos remotos, la consulta puede ser una operación muy costosa si la ventana actual es grande. Para evitar sobrecargar el navegador, el tamaño de la ventana de consulta debe ser limitado. El valor de esta configuración es el tamaño máximo de ventana en bases que debe consultarse para dar los números de señal detallados.

Niega los valores en el meneo, lo que significa que los valores positivos se vuelven negativos y viceversa. Esto es útil para los meneos que representan la transcripción u otras actividades en la cadena Crick. Tenga en cuenta que las ondulaciones con valores negativos se dibujan en altColor, no en color, como lo son los valores positivos.

NO PARA HUBS. Solo para pistas de peluca.

Establece el intervalo de puntos de datos para que sea solo el primer intervalo en la tabla o lista de intervalos en la tabla cargada. Puede encontrar los intervalos haciendo: "seleccionar intervalo de & lttable & gt grupo por intervalo". Normalmente, spanList es solo uno, como muestra el ejemplo. Rara vez puede haber más:
"spanList 1,1000". Se deben hacer esfuerzos especiales para cargar tramos adicionales en la mesa para propósitos especiales.

A menudo, la información de la señal es gruesa, porque se proporciona un solo valor para varias bases. El gráfico puede suavizar los datos voluminosos, presentando una visualización más reflectante de la biología real que pretende ilustrar. El valor numérico de esta configuración determina la cantidad de datos circundantes que se utilizarán para suavizar: cuanto mayor sea el número, menos abruptas serán las curvas. La configuración es configurable por el usuario. Predeterminado: desactivado.

La señal de la pista se puede presentar en escala logarítmica con esta configuración configurable por el usuario. Predeterminado: NINGUNO.

Los datos de mayor interés en una pista de gráficos pueden estar contenidos dentro de un rango estrecho. Normalmente, los valores atípicos altos pueden sesgar un gráfico y los valores muy bajos pueden representar datos poco interesantes. Use viewLimits para establecer el rango de visualización predeterminado. También use viewLimitsMax como límites externos sugeridos.

Cualquier punto de datos de 20 o más se mostrará como el pico del gráfico. Los puntos de datos que estén por debajo de 5 no se mostrarán. Aunque el rango de datos completo se extiende a 100, estas configuraciones sugieren que las puntuaciones de 20 o más se consideran todas altamente relevantes.

NO PARA HUBS. Solo para pistas de peluca.

Las regiones de la señal graficada se pueden resaltar con color. Use una mesa de noche y la configuración de color para sombrear las regiones de la pista de la peluca.

La tabla tipo cama "myBed" se utiliza para resaltar regiones de señal graficada según las puntuaciones de esa tabla. La tabla en sí misma puede ser una pista visible, o puede existir solo con el propósito de resaltar la pista de la señal.

Dependiendo del tamaño de una región genómica que se muestre en la imagen del navegador, puede ser necesario resumir la señal real. Esta configuración configurable por el usuario controla cómo el navegador contrae la señal de (por ejemplo) 100 o 100 mil bases a un solo píxel. Por defecto, el píxel único representa la media de los datos, aunque alternativamente se puede mostrar el máximo o el mínimo. Una opción más informativa suele ser significar + bigotes. Esta configuración muestra la media, máxima y una desviación estándar por encima de la media, diferenciadas por sombreado. La media se muestra como el tono más oscuro, un stdDev por encima de la media como un poco más claro y el máximo como el tono más claro. Este sombreado sutil puede indicar rápidamente si los datos condensados ​​ocultan información importante que puede evaluarse adecuadamente solo haciendo zoom.

Cuando se aleja, esta pista mostrará la señal media, pero incluirá sombras que representan puntuaciones más altas. El usuario puede cambiar esta configuración.

Puede resultar útil trazar una línea a lo largo del gráfico de la señal de la pista en alguna coordenada y fija. Haga esto configurando yLineOnOff en "on" y especificando la coordenada y con yLineMark. Estos dos ajustes son configurables por el usuario. Valores predeterminados: desactivado y 0,0.

A menudo se confunde con estos ajustes configurables el gridDefault, que simplemente dibuja una línea a en y = 0 en toda la pista. Esta configuración puede resultar útil si la falta de datos equivale a una señal 0.

La señal se representa gráficamente con una línea sólida predeterminada en cero, lo que sugiere que cualquier espacio en los datos debe interpretarse como señal cero. También habrá una línea a la altura de la señal de 2.5 que puede usarse para enfatizar qué picos en la señal alcanzan esta altura crítica.

Esta pista de movimiento se compone de una tabla MariaDB y archivos binarios "wib" a los que se hace referencia en la tabla. La función de ventana predeterminada es la señal máxima en cada ventana (debajo de cada píxel) que se muestra. El tramo de bases cubierto por cada fila de la tabla es idéntico y se puede recopilar desde la primera fila de la tabla. El meneo tiene colores proporcionados por la mesa de la cama, myBed.

Esta señal de formato bigWig se guarda en un archivo de datos (que puede ser remoto). La función de ventana media + bigotes más informativa se utiliza de forma predeterminada en esta pista, y la señal tendrá una altura de 32 píxeles en la visualización de la imagen del navegador. Tenga en cuenta que aunque el valor de la señal puede ser menor que cero, esa parte de la señal no se mostrará. El navegador mostrará una línea en y = 0 y otra en y = 15, que puede ser un valor umbral para esta señal. La pista será de color violeta.

Esta pista de señales de estilo bedGraph se compone de una tabla de elementos MariaDB, cada uno con una puntuación definida en la cuarta columna. Mientras que una pista de meneo generalmente se compone de ventanas de señal de intervalo fijo (por ejemplo, 200 pb), la tabla bedGraph puede definir una señal en diferentes granularidades de ventanas con o sin espacios.

Esta señal de formato bigWig se guarda en un archivo de datos (que puede ser remoto). La función de ventana media + bigotes más informativa se utiliza de forma predeterminada en esta pista, y la señal tendrá una altura de 32 píxeles en la visualización de la imagen del navegador. Tenga en cuenta que aunque el valor de la señal puede ser menor que cero, esa parte de la señal no se mostrará. El navegador mostrará una línea en y = 0 y otra en y = 15, que puede ser un valor umbral para esta señal. La pista será de color violeta.

GenePred: modelos y predicciones genéticas

NO PARA HUBS. (Ninguna de las configuraciones de esta sección se aplica a los concentradores).

genePred es una variación de pistas basadas en elementos diseñadas especialmente para mostrar modelos genéticos. Los modelos de genes se pueden representar en pistas de tipo bed 12 o bigBed 12, pero el formato de tabla genePred permite más detalles, como distinguir entre transcripción, región codificante y exones codificantes frente a no codificantes. Consulte las preguntas frecuentes para obtener información sobre cómo preparar tablas genePred para su inclusión en el navegador del genoma.

Este tipo de pista, basada en tablas MariaDB, es para predicciones y modelos genéticos.

  • pepTable - Tabla de secuencia de proteínas opcional
  • mrnaTable - Tabla de ARNm representativa opcional

Tenga en cuenta que las opciones que faltan se pueden completar con un '. ' punto. Los ajustes adicionales que se describen a continuación permiten la agrupación de modelos de genes en clases y la coloración y filtrado de los modelos por clase.

Se pueden encontrar ejemplos a continuación.

Los genes se pueden agrupar en clases con el propósito de colorear y filtrar. El truco consiste en asociar cada gen nombrado con su clase. Utilice geneClasses para crear una lista de todos los nombres de clases de genes delimitados por espacios en blanco.

Declare un color RGB para una clase con nombre.

Declare una tabla MariaDB que vinculará clases a modelos de genes con nombre.

Opcionalmente, declare la columna de itemClassTbl que contendrá los nombres genePred.Predeterminado: nombre.

Opcionalmente, declare la columna de itemClassTbl que contendrá la clase. Predeterminado: clase.

En esta pista de tipo genePred, los modelos de genes de ARN se dividen en 3 clases que son de color rojo, verde o azul. La asociación de modelos de genes nombrados en la tabla genePred con las tres clases se define en la tabla "rnaType". Esa tabla contiene el tipo de ARN en la columna "rnaType" y el nombre del gen en la columna "rnaName".

Mediante esta configuración se puede filtrar los modelos de genes por columna de la tabla o incluso por columna itemClassTbl. La descripción completa de esta configuración se puede encontrar en la configuración de la pista basada en elementos bed / bigBed. Aquí hay un ejemplo para hacer referencia a la clase que se encuentra en la tabla definida por itemClassTbl. No todos los tipos de pistas admitirán tablas referenciadas externamente usando filterBy como lo hace el tipo genePred. Pero si comprende el código CGI que realiza la selección de tabla, filterBy puede proporcionar una potente extensión para la selección de SQL utilizada.

Cuando se seleccionan modelos de genes de la tabla genePred para mostrarlos en el navegador, su clase también se selecciona de la tabla "rnaTypes". El uso de la configuración filterBy crea un cuadro de lista desplegable seleccionable por el usuario de 3 opciones o "todas". Cuando el usuario filtra por tRNA y snRNA (las opciones verde y azul), la sentencia de selección SQL utilizada por el navegador estará limitada por la cláusula where "donde rnaTypes.rnaType in ('tRNA', 'snRNA')".

De forma predeterminada, se genera una traducción de proteína predicha para un modelo genético cuando un usuario lo ve en la página de detalles. Esta función puede bloquearse estableciendo autoTranslate en cero.

La pista genPred NO mostrará la secuencia de proteínas autogenerada, quizás porque esta pista es para genes de ARN.

Al dibujar modelos de genes, puede ser útil ver "flechas de exón" cuando la transcripción se extiende más allá de la ventana actual. Esta configuración, que por defecto es cero, asegura que estas flechas no se dibujarán si la brecha del intrón intermitente es menor que el número indicado de bases.

No dibuje flechas de exón cuando el espacio entre los exones sea de 12 bases o menos.

En hgTables, al seleccionar campos de salida, muestre estas tablas vinculadas a all.joiner de forma predeterminada.

Al usar esta configuración, puede vincular nombres alternativos a los modelos de genes que se encuentran en un genePred. El navegador de tablas lo utiliza para establecer enlaces a otras tablas.

El ID en la columna de nombre de la tabla knownGenes está relacionado con el alias que se encuentra en la tabla kgAlias.

En versiones sucesivas de modelos genéticos, puede ser útil mapear genes más antiguos con sus modelos más nuevos. Esto se puede hacer proporcionando una tabla MariaDB que mapea el cambio y luego usando esta configuración para asegurarse de que la página de detalles del gen muestre cualquier cambio.

La versión anterior de UCSC Genes hace referencia a los cambios que se ven en la versión más reciente.

Seguimiento del modelo genético con clases definidas y la opción de filtrar por clases codificadas por colores. Tenga en cuenta la opción de coloración del nivel base.

Esta pista de predicción de genes tiene ARNm representativos asociados que se encuentran en la tabla "mrna". También hay una URL de "Resumen del gen AceView" que se presenta en la página de detalles.

Bam / cram: Alineación de secuencia comprimida / Pistas de mapa

El formato bam / cram es un formato de datos comprimidos indexados para alineaciones de secuencia. Es ideal para el acceso remoto de etiquetas de secuencia de alto rendimiento y es un formato de salida nativo para algunos alineadores de secuenciación de alto rendimiento (HTS). El formato de los datos de bam son pares de archivos de datos, con un índice en un archivo separado. Los archivos CRAM son versiones comprimidas de archivos BAM donde no se incluye la secuencia de referencia. Los archivos CRAM deben aparecer como "type bam" en trackDb. Suelen ser conjuntos de datos remotos que no residen en el servidor UCSC. Consulte la página de formato de pista BAM o la página de formato de pista CRAM y el sitio web de SAMtools para obtener información sobre cómo crear e implementar estos archivos de datos remotos para incluirlos en el navegador Genome.

Declara los ajustes de configuración para una pista de tipo bam. Si se incluye la configuración bigDataUrl, se mostrarán esos datos en la ubicación especificada por esa URL. De lo contrario, una tabla de base de datos con una sola columna fileName puede especificar la ubicación de un archivo local o una URL. Si la tabla de la base de datos incluye una columna seqName, se puede especificar un archivo BAM o URL diferente para cada secuencia de ensamblaje.

Se puede encontrar un ejemplo a continuación.

Existen numerosas formas de colorear las pistas de bam para resaltar ciertos aspectos de los datos. Todos estos son configurables por el usuario.

  • hebra: (predeterminado) cuando se colorea por hebra, las bases no coincidentes se resaltan en rojo brillante, las alineaciones en la hebra inversa son de color rojo oscuro y las alineaciones en la hebra delantera son de color azul oscuro.
  • gris: cuando se colorea en escala de grises, los elementos se sombrean de acuerdo con el método especificado por bamGrayMode: calidad de alineación, cualidades de base o extremos no emparejados.
  • etiqueta: los colores se especifican en "etiquetas definidas por el usuario". SAM / BAM puede incluir etiquetas definidas por el usuario, cuyos nombres comienzan con X, Y o Z e incluyen otra letra o número. La etiqueta definida por el usuario nombrada aquí especifica las intensidades de rojo, verde y azul (RGB) como una cadena terminada en cero (etiqueta tipo Z) que contiene triples separados por comas de números del 0 al 255. Por ejemplo, si un registro SAM / BAM incluye la etiqueta YC: Z: 255,0,0, entonces el elemento es de color rojo YC: Z: 0,0,255 hace que el elemento sea azul. De forma predeterminada, la etiqueta es "YC" a menos que se cambie mediante la configuración bamColorTag.
  • apagado: Sin coloración adicional.

Cuando bamColorMode está configurado en "gris", puede resaltar uno de los siguientes:

  • aliQual: (Predeterminado) Las "cualidades de alineación" de los elementos están sombreadas en una escala de 0 (más claro) a 99 (más oscuro). Utilice aliQualRange para especificar un rango predeterminado.
  • baseQual: Las "cualidades base" están sombreadas en una escala de 0 (más claro) a 40 (más oscuro). Utilice baseQualRange para especificar un rango predeterminado.
  • desemparejado: cuando se selecciona "extremos desemparejados", un elemento que se emparejó en la secuenciación pero cuyo compañero no se asignó se colorea en gris, mientras que los elementos únicos y correctamente emparejados se colorean en negro.

Consulte los detalles del formato SAM para una discusión de estos valores.

También puede utilizar datos RGB asociados con etiquetas individuales dentro del propio archivo bam. Consulte la documentación de SAM para comprender cómo se incluyen los valores RGB. Cuando bamColorMode se establece en "etiqueta", la etiqueta estándar "YC" se utiliza como predeterminada. El valor predeterminado puede anularse con esta configuración.

Las opciones de coloración de bam son todas configurables por el usuario dentro del navegador. Si su conjunto de datos de bam no contiene etiquetas de color, esta configuración debe incluirse para evitar que el navegador ofrezca la opción de etiquetas de color mediante un valor RGB incrustado.

Configura el bam para usar el esquema de coloración predeterminado basado en la alineación de la hebra. Al mismo tiempo, la pista bam no ofrecerá la opción de colorear las etiquetas con valores RGB, quizás porque este bam no tiene valores RGB.

Esta configuración resaltará las etiquetas según la puntuación de calidad de la alineación. Si la puntuación está en 80 o más, la etiqueta está sombreada en negro si es menor que 20, la etiqueta está sombreada en gris muy claro.

El archivo bam incluye valores RGB en el campo YC que se utilizarán para colorear etiquetas.

No se aplicará ningún color especial a los artículos.

Cualquier etiqueta bam se puede mostrar en la página de detalles haciendo clic en ella en la imagen del navegador. Los detalles incluyen puntuaciones de calidad de forma predeterminada. Si estas puntuaciones no son relevantes para este bam en particular, pueden excluirse de la página de detalles con esta configuración.

Las diferencias de inserción y eliminación entre las secuencias de etiquetas y el genoma de referencia se pueden resaltar con el uso de estos ajustes. Estas opciones pueden ser configuradas por el usuario.

  • indelDoubleInsert: se utiliza para resaltar los espacios de alineación en la secuencia de destino (referencia) y de consulta (etiqueta) con líneas dobles (=).
  • indelQueryInsert: se usa para resaltar una inserción en la secuencia de consulta solo dibujando una línea vertical naranja (|) o violeta (|). Las líneas naranjas muestran regiones que no se pueden alinear en el medio de una secuencia y las regiones resaltadas en violeta al final de la secuencia de consulta.
  • indelPolyA: se utiliza para resaltar una cola poli-a aparentemente válida dibujando una línea verde vertical (|).

Cuando la imagen del navegador se amplía al nivel en el que las etiquetas individuales son visibles, las etiquetas de un archivo bam se pueden filtrar para mostrar solo aquellas con una puntuación de calidad de alineación mínima. Esta es una configuración configurable por el usuario. Predeterminado: 0.

Algunas tecnologías de secuenciación de alto rendimiento dan como resultado etiquetas "finales emparejadas", que son dos registros bam individuales unidos por su nombre. Si este es el caso de su conjunto de datos, incluya esta configuración.

La búsqueda para unir pares de etiquetas por nombre se limitará a una distancia máxima (predeterminado: 20.000 bases). Utilice un rango más grande para aumentar la probabilidad de que se encuentren ambas lecturas en un par, incluso cuando solo haya una lectura en la región de visualización. Utilice un rango más pequeño para acelerar la reproducción de imágenes.

El conjunto de datos incluye etiquetas finales emparejadas. El rango de búsqueda máximo para unir pares de etiquetas por nombre tiene un límite de 5000.

Cuando la imagen del navegador se amplía al nivel en el que se pueden ver las etiquetas individuales, el nombre de la consulta para cada etiqueta se muestra de forma predeterminada. Utilice esta configuración para ocultar este nombre.

La configuración de doWiggle permite que los datos de BAM se muestren como un gráfico de barras donde la altura es proporcional al número de lecturas asignadas a cada posición genómica. Mediante el cálculo dinámico de elementos en la ventana actual, esta función traza una línea similar a un gráfico de movimiento que se puede personalizar con una serie de opciones de configuración basadas en gráficos, como dibujar líneas indicadoras, suavizar gráficos, ajustar la altura del gráfico y el rango vertical, y cambiando de barras a puntos. Tenga en cuenta que la función se muestra mejor con & quotModo de visualización & quot establecido en completo y que el & quot; Escala de vista de datos & quot es & Quotauto-scale to data view & quot.

Los datos de bam se guardan en el archivo "barneysSon.bam" que se encuentra en una ubicación accesible a través de Internet. Además del archivo de datos, un archivo de índice asociado debe residir en la misma ubicación. El archivo de índice debe tener el mismo nombre que el archivo de datos, con ".bai" adjunto (por ejemplo, barneysSon.bam.bai).

Psl: alineaciones de secuencia

NO PARA HUBS. (Ninguna de las configuraciones de esta sección está disponible para los concentradores, aunque es probable que se agregue compatibilidad con el concentrador en el futuro).

PSL es un formato de alineación en el que los datos se toman normalmente de archivos generados por BLAT o psLayout. Para obtener más información sobre este formato, consulte las preguntas frecuentes y la documentación de BLAT.

Las pistas de tipo psl requieren la especificación de un subtipo: est, mrna, protein o xeno. El valor predeterminado, que se representa como ".", Es ARNm humano normal. Cuando se selecciona el subtipo xeno, se puede establecer un parámetro opcional adicional para especificar el conjunto de otras especies. Si están presentes, las alineaciones se pueden codificar por colores por cromosoma, y ​​el cromosoma y la posición (en kilobases) se muestran en la etiqueta de alineaciones.

Se pueden encontrar ejemplos a continuación.

Incluya un blastRef en un ensamblado y una tabla que contenga el geneId y la posición recuperables por el identificador de acceso. Esta información se mostrará en el nombre del artículo.

Para pistas psl del subtipo xeno, las alineaciones se pueden colorear para indicar su ubicación en las otras especies. Esta configuración está activada de forma predeterminada cuando se especifica la otra especie en la configuración de tipo psl. Utilice esta configuración para desactivar la coloración cromosómica de forma predeterminada, ofreciendo al usuario la opción de activarla.

Utilice la configuración pred para nombrar un ensamblaje y una tabla que contenga datos de secuencia de proteínas para las alineaciones nombradas.

  • all: muestra las etiquetas de nucleótidos en todas las bases.
  • diferente: etiqueta solo las diferencias de base.
  • no: permite al usuario seleccionar cuál de las otras dos opciones prefiere.

  • transMapInfo: se utiliza para nombrar la tabla en el ensamblaje actual que vincula una alineación con el ensamblaje y la función de origen.
  • transMapSrc: se usa para nombrar la tabla en el ensamblaje de especies de origen que contiene los detalles de la ubicación de origen de la característica.
  • transMapGene: Úselo para nombrar la tabla que mapea la alineación con los nombres de los genes en las especies relevantes. Tenga en cuenta que las tablas que son comunes a varias especies deben colocarse en la base de datos hgFixed.
  • transMapTypeDesc: se utiliza para establecer una etiqueta para el tipo de transMapping que cubre la alineación.

Tenga en cuenta que varias de las tablas nombradas están en hgFixed, que es una base de datos que contiene tablas que son compartidas por múltiples especies y ensamblajes. También observe que la misma tabla que se nombró en transMapGene también se usa en este ejemplo para baseColorUseCds.

Para alineaciones que ilustran la retrotransposición, use esta configuración para nombrar una tabla con detalles de la ubicación de origen.

En este ejemplo de genes retropuestos, el ARNm maduro se ha alineado con el genoma. Observe que hay una tabla ucscRetroInfo que describe la ubicación del gen no transpuesto. También observe el uso de la configuración baseColor para colorear la secuencia de codificación (CDS).

En este ejemplo de resultados de blat de secuencia de proteínas, el color de la secuencia coincidente es verde, mientras que los indeles (en este caso los intrones) se resaltan en amarillo.

Este ejemplo de etiqueta de secuencia expresada tendrá alineaciones de colores que se clasifican mediante una puntuación gracias al "espectro activado". Aunque las pistas psl no tienen una columna de puntuación como parte del formato, se genera una puntuación basada en coincidencias y discrepancias en la alineación. El sombreado es aún más sutil en el sentido de que el peso dado a los insertos varía dependiendo de si la alineación es de la misma especie o de una diferente.

Esta pista psl es para especies foráneas o alineaciones "xeno", en este caso la secuencia se lee de una especie de pez alineada con la humana.

Chain y netAlign: alineaciones de especies pareadas

NO PARA HUBS. Tampoco lo son los ajustes de esta sección.

Si bien los formatos "chain" y "netAlign" son diferentes, a menudo se combinan para mostrar dos vistas diferentes de los mismos datos.

Las pistas de la cadena muestran alineaciones de una especie de "consulta" a un ensamblaje del genoma "objetivo". Por ejemplo, un chimpancé panTro2 puede alinearse con el genoma humano de hg19. El formato de cadena permite espacios en ambas secuencias simultáneamente. Cuando las cadenas se ven en el navegador, muestran cuadros sólidos para alineaciones, separados por líneas simples o dobles. Las líneas simples aparecen cuando se produce una inserción en el objetivo o se produce una eliminación en la especie de consulta. Las líneas dobles representan brechas en ambas especies que podrían resultar de una serie de causas (por ejemplo, una inversión en una especie). Para obtener más información sobre el formato de "cadena", consulte http://genome.ucsc.edu/goldenPath/help/chain.html.

Una pista netAlign representa la mejor cadena para cada región en el genoma objetivo. La pista neta mostrará las cadenas de puntuación más grandes y más altas que abarcan una región. Cuando estas cadenas tienen huecos, pueden rellenarse con cadenas adicionales, que se muestran en un nivel inferior, y los huecos en estas cadenas pueden a su vez rellenarse en un nivel incluso inferior. Estos niveles ayudan a visualizar reordenamientos del genoma como inversiones y elementos retropuestos. Para obtener más información sobre el formato netAlign, consulte http://genome.ucsc.edu/goldenPath/help/net.html.

Las pistas de la cadena de tipos muestran alineaciones de secuencia de otra especie al genoma de referencia. Este tipo requiere que la base de datos de ensamblado de las otras especies sea nombrada tanto en la configuración de tipo como en la configuración de "otherDb".

Se puede encontrar un ejemplo a continuación.

Las pistas de tipo netAlign muestran las mejores cadenas de alineaciones de secuencia de otra especie al genoma de referencia. Los huecos se llenan en niveles, siempre que sea posible. Este tipo requiere que la base de datos de ensamblado de las otras especies sea nombrada tanto en la configuración de tipo como en la configuración "otherDb".

Se puede encontrar un ejemplo a continuación.

Por defecto, las cadenas están coloreadas por el cromosoma de alineación de la especie de consulta. Esto se puede anular con esta configuración. Las tres opciones son:

  • Cromosoma - predeterminado
  • Puntaje normalizado: las cadenas están coloreadas por puntaje
  • Negro: no se produce coloración

Esta configuración afecta a las pistas de tipo cadena pero no netAlign.

La configuración de chainLinearGap debe reflejar el parámetro "-linearGap" utilizado en axtChain para generar la pista. Representa la matriz de puntuación de brechas utilizada y será:

Esta configuración es para pistas de tipo cadena y netAlign.

La configuración de chainMinScore debe reflejar el parámetro "-minScore" utilizado en axtChain para generar la pista. Representa el umbral de puntuación para que las cadenas se incluyan en el conjunto. El valor predeterminado es 1000. Esta configuración es para pistas de tipo cadena y netAlign.

Una determinada cadena o pista netAlign puede tener o no una columna normScore completa. Si la columna existe, su valor se puede mostrar en la página de detalles del elemento del navegador configurando chainNormScoreAvailable en yes. La coloración del elemento en función de la puntuación seleccionada por la configuración de puntuación normalizada de chainColor también requiere que esta configuración sea sí.

El método para calificar y seleccionar cadenas y generar netAligns se basa en una matriz de costos para las sustituciones de bases. La matriz utilizada en la generación de cualquier alineación emparejada dada puede variar dependiendo de cosas como la distancia evolutiva y las especies involucradas. La matriz utilizada se puede incluir dinámicamente en la descripción HTML utilizando tres elementos:

  1. La descripción HTML debe contener el token $ matrix.
  2. La matriz que se utilizará debe definirse con esta configuración de trackDb. El formato de esta configuración es el tamaño de celda de la matriz, que para las alineaciones de ADN es 16. Este tamaño está separado por un espacio de la matriz delimitada por comas de todos los valores a medida que las celdas de la matriz se rellenan de izquierda a derecha y de arriba a abajo. .
  3. La configuración matrixHeader debe usarse para definir el orden de las transiciones base en la matriz. Normalmente es & ldquoA, C, G, T & ldquo.

Aquí, el token de matriz de $ que se encuentra en el archivo chainNet.html será reemplazado por la siguiente matriz:

ACGRAMOT
A91-114-31-123
C-114100-125-31
T-31-125100-114
GRAMO-123-31-11491

Tanto las pistas de cadena como de netAlign anteriores son para alineaciones de la especie de consulta / ensamblaje rheMac2 contra la especie objetivo determinada por la base de datos a la que pertenece este trackDb (por ejemplo, humano / hg19). Debido a que la pista netAlign se basa en los datos de la pista en cadena, hace referencia a la pista en su configuración de tipo. Ambas pistas utilizan la misma configuración de matriz, cadenaMinScore y espacio lineal. Los métodos para agrupar estas dos pistas en un solo conjunto que comparten la configuración se describen más adelante en este documento.

WigMaf: múltiples alineaciones

NO (actualmente) PARA HUBS. Tampoco lo son los ajustes de esta sección.

Se pueden mostrar múltiples alineaciones por pares con pistas de tipo "wigMaf". Las pistas de este tipo pueden estar compuestas de varias tablas y archivos de datos. La configuración de tipo nombrará una tabla de formato MAF (con un archivo "maf" asociado en / gbdb). La configuración opcional de "meneo" nombrará una o más tablas de formato de peluca (con archivos "wib" asociados) que contienen señales de conservación. Consulte las preguntas frecuentes para obtener información sobre cómo preparar varios conjuntos de datos de formato de alineación.

Una pista de tipo wigMaf se compone de alineación de formato MAF (cargada con hgLoadMaf). La pista puede incluir opcionalmente una o más señales de conservación. Las señales deben estar dentro del mismo rango de datos definido con los valores mínimo y máximo en la configuración de tipo.

Se pueden encontrar ejemplos a continuación.

Una pista wigMaf o bigMaf puede mostrar la traducción del codón de genes. El marco de lectura puede diferir entre especies. Al proporcionar la información de los marcos de lectura en una tabla separada, el usuario puede elegir qué marco usar al ver los datos.Para bigMaf se espera que el valor sea un bigBed, para wigMaf debería ser una tabla.

  • Línea única '-': Sin bases en las especies alineadas. Posiblemente debido a una inserción específica de linaje entre los bloques alineados en el genoma humano o una deleción específica de linaje entre los bloques alineados en la especie alineada.
  • Línea doble '=': Las especies alineadas tienen una o más bases no alineables en la región del hueco. Posiblemente debido a una distancia evolutiva excesiva entre especies o indeles independientes en la región entre los bloques alineados en ambas especies.
  • Coloración amarillo pálido: las especies alineadas tienen N en la región de la brecha. Refleja la incertidumbre en la relación entre el ADN de ambas especies, debido a la falta de secuencia en porciones relevantes de las especies alineadas.

Esto controla si los nombres de las especies en la alineación múltiple deben escribirse con mayúscula en la pantalla por pares. Configure "noChange" para evitar forzar la primera letra a minúsculas.

Una pantalla de wigMaf en la imagen del navegador es un conjunto apilado de alineaciones por pares con el genoma objetivo. Con esta configuración, puede cambiar la altura de cada señal por pares en la imagen.

Esta configuración, que se utiliza con "marcos", declara la especie predeterminada para el marco de lectura de codones.

Para controlar cuáles de las alineaciones por pares apiladas se muestran u ocultan de forma predeterminada, use speciesDefaultOff para enumerar las alineaciones de especies que no se mostrarán. Cada especie se especifica como en el archivo MAF Los nombres de los organismos, excepto que los puntos y / o espacios incrustados se reemplazan por guiones bajos (por ejemplo, C. elegans - & gt c_elegans).

Utilice speciesOrder para declarar el orden de las alineaciones apiladas. Si hay muchas especies en su pista, puede tener sentido utilizar la configuración de specsGroups en su lugar.

Puede incluir una lista de "clados" para agrupar las especies. Esta opción es una alternativa a SpeciesOrder, que se utiliza cuando hay muchas especies. Cada grupo de especies de la lista debe tener su propia configuración (sGroup_ & ltgroup & gt), seguida de una lista de especies, especificada como especieOrden.

Elija una de estas dos alternativas para mostrar especies.

Esta configuración, que se utiliza con menos frecuencia, puede sustituir a speciesOrder y speciesGroups. Establezca el archivo de uso de especies en una ruta relativa a apache cgi-bin. El archivo debe contener un solo nombre de especie como primera palabra de cada línea.

Esta configuración contiene un nombre de tabla que contiene una tabla de resumen MAF o una URL que apunta a un bigBed que contiene esa información. La vista de resumen se utiliza cuando la pantalla del navegador se reduce para contener un millón o más de pares de bases. Se crea una tabla de resumen a partir de un archivo MAF de alineación múltiple utilizando la utilidad hgLoadMafSummary. Para bigMaf, se supone que el valor es bigBed.

El árbol filogenético que se puede utilizar para mostrar las relaciones de las especies en la alineación múltiple debe incluirse como un archivo de imagen. Esta ruta es relativa al directorio de imágenes htdocs (generalmente / images).

Opcionalmente, se puede incluir más de una señal de conservación con su pantalla MAF usando esta configuración. Cuando incluye ondulaciones de conservación, también puede incluir la configuración estándar para controlar las pistas de tipo de señal. La configuración incluye tres partes, luego (opcionalmente) conjuntos adicionales de tres, todos delimitados por espacios en blanco. La primera tabla es la predeterminada. La etiqueta leftLabel se usa para prefijar la etiqueta "Contras" en el área de la etiqueta izquierda de la imagen del navegador. El uiLabel se muestra en la página de configuración de la pista. Si solo aparece una tabla y no hay ninguna etiqueta, se mostrará la etiqueta predeterminada "Conservación". Las etiquetas no pueden contener espacios, pero los guiones bajos (_) se traducirán a espacios en la pantalla.

Nota: emparejar directamente las señales de conservación dentro de la pista wigMaf es una forma más antigua de hacer las cosas. Es más fácil dar a los usuarios el control de lo que quieren ver, al incluir su pista wigMaf y pistas de tipo de señal separadas como subpistas dentro de una pista compuesta. Consulte la descripción de la pista compuesta a continuación.

Esta alineación múltiple de 8 vías para el ensamblaje humano hg17 se define para incluir una tabla de resumen, una imagen de árbol y una tabla de meneo que contiene la puntuación de conservación para las 8 especies. Tenga en cuenta que las alineaciones por pares para las últimas tres especies están desactivadas de forma predeterminada, y cada alineación por pares tendrá una altura de 10 píxeles. Con pocas especies mostradas de forma predeterminada, irows también está predeterminado en "apagado", lo que dará como resultado una pantalla más limpia. Dado que hay un movimiento de conservación, hay configuraciones adicionales para esa señal.

Para esta pista de wigMaf, no hay ningún movimiento definido. En este ejemplo real tomado del navegador del genoma hg19, las diversas señales de conservación mostradas en concierto con esta alineación múltiple son pistas de tipo de señal separadas definidas como parte de la pista compuesta "Conservación" (ver discusión de compuestos a continuación). Observe que las 46 especies en esta alineación están organizadas en clados usando el ajuste "speciesGroups". Cada clado tiene su propia configuración "sGroup" para declarar el orden dentro (no se muestran todas las especies).

ExpRatio: datos de expresión de microarrays

NO PARA HUBS. Tampoco lo son los ajustes de esta sección.

Aunque muchos experimentos de microarrays han sido reemplazados por experimentos de secuenciación de alto rendimiento (por ejemplo, ChIP-seq), todavía existen varias pistas de microarrays. Además, los experimentos de microarrays pueden ser la opción económica o práctica en muchos casos. Los conjuntos de datos para las pistas de microarrays incorporados en Genome Browser se almacenan en formato bed 12 + 3 (bed 15) que incluye tres campos adicionales: expCount, expIds y expScores. Para mostrarse correctamente en el navegador del genoma, las pistas de microarrays requieren la configuración de varios atributos en el archivo trackDb asociado con el ensamblaje del genoma de la pista. Cada conjunto de pistas de microarrays también debe tener un archivo de configuración microarrayGroups.ra asociado que contenga información adicional sobre los datos de cada una de las matrices. Consulte la sección de pistas de microarrays del genomewiki de UCSC para obtener información sobre cómo preparar pistas de microarrays. En particular, ese documento describe el formato del archivo groupings.ra que debe estar asociado con una pista expRatio.

Nota: Los formatos de datos expRatio se reutilizan para el tipo factorSource.

Los datos de microarrays se muestran en el navegador mediante pistas de tipo expRatio. El tipo requiere configuraciones adicionales: expScale, expStep y agrupaciones.

Se puede encontrar un ejemplo a continuación.

Si los datos de microarrays incluyen modelos genéticos o bloques dentro de los elementos, entonces los datos se pueden ver como exones e intrones configurando expDrawExons en on. El ajuste es configurable por el usuario.

Cantidad para avanzar en la escala de expresión visible. Lo mejor es un número redondo cercano a expScale dividido por 8.

Esta configuración especifica el nombre de una tabla en la base de datos común hgFixed que contiene nombres de experimentos, etc.

TODO: No sé dónde se lee esto en el código C.

Un conjunto de datos de microarrays debe hacer referencia a un conjunto específico de configuraciones para cargar desde el archivo microArrayGroups.ra. Consulte la sección de pistas de microarrays del genomewiki de UCSC para obtener instrucciones detalladas sobre la ubicación de este archivo y su formato. Utilice la configuración de "agrupaciones" para apuntar a una estrofa tecleada en "nombre" en ese archivo.

Este conjunto de datos de microarrays se refiere a agrupaciones definidas en la estrofa "gnfHumanAtlas2Groups" del archivo makeDb / hgCgiData / Human / microarrayGroups.ra.

SnpNNN: subclase especializada de BED 6 para variantes dbSNP

NO PARA HUBS. Tampoco lo son los ajustes de esta sección.

Esta variante particular del lecho 6, identificada por el nombre de la tabla, es para el subconjunto de UCSC de dbSNP, la base de datos de NCBI de variantes genéticas cortas.

El subconjunto de UCSC de dbSNP podría describirse como "cama 6 + 19" y se produce mediante un proceso complejo que comienza con la descarga de varios archivos de volcado de base de datos y archivos fasta de dbSNP, y termina con la creación de snp.NNN y varias tablas de datos auxiliares. Este tipo no se admite como tipo de pista personalizada.

Si se usaron cadenas / redes de chimpancé para identificar el alelo del ensamblaje de referencia del chimpancé en la ubicación homóloga al SNP humano, esto especifica qué ensamblaje del genoma del chimpancé se usó, p. panTro2.

Si se usaron cadenas / redes de chimpancé y macaco rhesus para identificar el alelo del ensamblaje de referencia de chimpancé o macaco en la ubicación homóloga al SNP humano, esto especifica la tabla de la base de datos que contiene los alelos mapeados.

Si se usaron cadenas / redes de chimpancé, orangután y macaco rhesus para identificar el alelo del ensamblaje de referencia de chimpancé / orangután / macaco en la ubicación homóloga al SNP humano, esto especifica la tabla de la base de datos que contiene los alelos mapeados.

En desuso probablemente se eliminará. Esto especifica una etiqueta de texto para mostrar las predicciones de & lttable & gt del efecto de un SNP sobre un gen que codifica una proteína.

En desuso probablemente se eliminará. Esto especifica una o más tablas que contienen predicciones de los efectos de SNP sobre genes que codifican proteínas.

La página de detalles de un SNP puede mostrar el efecto funcional previsto en un gen de cualquier pista genePred. Dado que a menudo hay muchas pistas y modelos genéticos, la predicción dependerá del modelo genético utilizado. El usuario tiene la oportunidad de elegir entre los disponibles, pero esta configuración establece una pista genética predeterminada o pistas en las que basar las predicciones.

dbSNP asigna un peso de 1, 2 o 3 a cada variante, dependiendo de cuántas asignaciones distintas tengan las secuencias flanqueantes de una variante con el genoma. Si se establece en 1, solo se mostrarán de forma predeterminada las variantes asignadas de forma única. Si es 2, solo se mostrarán las variantes asignadas de forma única y las variantes con una pequeña cantidad de asignaciones duplicadas. Si es 3, se mostrarán todas las variantes independientemente del peso. Nota: algunas tablas como snpNNNComún y snpNNNLos marcados contienen solo variantes asignadas de forma única, por lo que esta configuración no tiene ningún efecto en esas tablas.

La página de detalles del SNP busca el ID del SNP en las tablas de seguimiento de HapMap que tienen diferentes nombres y contenidos dependiendo de si se cargaron desde los datos de la fase II de HapMap o de la fase III de HapMap. (Esta configuración también la utilizan las pistas de SNP de HapMap).

Si se usaron cadenas / redes de macacos para identificar el alelo del ensamblaje de referencia del macaco en la ubicación homóloga al SNP humano, esto especifica qué ensamblaje del genoma del macaco se usó, p. rheMac2.

Si se usaron cadenas / redes de orangután para identificar el alelo del ensamblaje de referencia del orangután en la ubicación homóloga al SNP humano, esto especifica qué ensamblaje del genoma del orangután se usó, p. ponAbe2.

Esto especifica una tabla auxiliar que contiene anotaciones de propiedades inusuales de variantes. Esta configuración se aplica solo a las versiones anteriores a la compilación 132 de dbSNP a partir de la compilación 132, las excepciones se incorporan en el snp principalNNN ya no se necesita una mesa y una mesa auxiliar.

Esto especifica una tabla auxiliar que asigna palabras clave de excepción a descripciones de una oración.

Esto especifica una tabla auxiliar que mapea los ID de las variantes a las compensaciones de archivo en las que se almacenan las secuencias flanqueantes.

Esto especifica un archivo auxiliar que contiene las secuencias flanqueantes del SNP enviado representativo de cada variante.

Esta pista muestra variantes de dbSNP build 135 con una frecuencia de alelos menores (MAF) de al menos el 1%. Las compensaciones del archivo de secuencia flanqueante provienen de la tabla snp135Seq, las descripciones de propiedades inusuales se toman de la tabla snp135ExceptionDesc y los efectos de las variantes en los genes que codifican proteínas se muestran con respecto a la tabla knownGene (UCSC Genes track) de forma predeterminada. Si la región visualizada tiene más de 10,000,000 de pares de bases, los datos no se cargarán ni se dibujarán.

VcfTabix: formato de llamada variante indexado por tabix

Variant Call Format (VCF) es un formato de texto orientado a líneas flexible y extensible desarrollado por 1000 Genomes Project para lanzamientos de variantes de un solo nucleótido, indels, variantes de número de copia y variantes estructurales descubiertas por el proyecto. El formato ha sido adoptado posteriormente por otros grandes proyectos. Cuando un archivo VCF se comprime e indexa usando tabix y luego se hace accesible a través de la web, el navegador buscará solo las partes del archivo necesarias para mostrar elementos en la región visualizada. En otras palabras, este es un formato de archivo de datos remoto, al igual que los formatos BAM, bigBed y bigWig. Consulte la página de formato de pista VCF y tabix para obtener una descripción completa de cómo preparar y mostrar los datos VCF.

Si se incluye la configuración bigDataUrl, se mostrarán los datos en la ubicación especificada por esa URL. De lo contrario, una tabla de base de datos con una sola columna fileName puede especificar la ubicación de un archivo local o una URL. Si la tabla de la base de datos incluye una columna seqName, se puede especificar un archivo VCF o URL diferente para cada secuencia de ensamblaje.

Se puede encontrar un ejemplo a continuación.

Si el archivo VCF incluye columnas de genotipo para al menos dos individuos, entonces una visualización de clasificación de haplotipos está habilitada de forma predeterminada. Esta opción se puede utilizar para deshabilitarla si se desea, por ejemplo, si los genotipos no se han eliminado y una parte significativa de los genotipos son heterocigotos. Puede encontrar más información sobre la visualización de clasificación de haplotipos aquí.

  • centerWeighted: para los organismos diploides, esto separa los dos haplotipos de cada muestra y agrupa dinámicamente todos los haplotipos por similitud, ponderados por la proximidad a una variante central. El árbol de agrupamiento se dibujará en el área de la etiqueta de la izquierda. Esto funciona mejor para genotipos en fase.
  • fileOrder: los genotipos se muestran en el orden en que aparecen en el archivo VCF.
  • treeFile url : Los genotipos se muestran en el orden en que aparecen en url , un archivo de árbol con formato de Newick cuyos ID de nodo hoja son los mismos que los ID de columna de genotipo en el archivo VCF. El árbol se dibujará en el área de la etiqueta de la izquierda.
  • altOnly: el alelo de referencia es blanco (invisible), el alelo alternativo es negro. Esto enfatiza los haplotipos con alelos alternos. (defecto)
  • función: si también se proporciona la configuración de geneTrack, entonces el alelo de referencia es blanco (invisible) y el alelo alternativo es rojo si la variante cambia la secuencia de proteínas de un gen, verde si la variante cae dentro de un gen pero no cambia la secuencia de proteínas, azul si la variante cae dentro de la UTR de un gen que codifica una proteína o dentro de un gen no codificante, y negro si es intrónico o intergénico.
  • refAlt: el alelo de referencia es azul, el alelo alternativo es rojo.
  • base: A es rojo, C es azul, G es verde y T es magenta.

Esto es para usar con la función hapClusterColorBy, especifica la pista de genes que se usará al determinar el efecto funcional de cada variante.

Suponiendo que hapClusterEnabled es verdadero, esto controla la forma de los grupos de hojas a la derecha del árbol (es decir, las líneas dibujadas para denotar grupos de haplotipos locales idénticos): triángulo para la forma & lt (predeterminado), rectángulo para la forma [.

Una lista de campos del archivo basado en bigBed que se puede usar como etiqueta. El valor especial none se puede especificar si no se desean etiquetas.

Una lista de campos del archivo basado en bigBed que deben usarse como etiqueta de forma predeterminada. Solo se aplica si se establece labelFields. Si no se especifica defaultLabelFields, el primer campo de labelFields se utiliza como predeterminado. El valor especial none se puede especificar si ninguna etiqueta debe ser la predeterminada.

Uno o más caracteres para usar como separador de campo entre varias etiquetas. Una barra (/) por defecto, esta cadena puede tener comillas dobles alrededor si debe tener espacios en blanco.

El ancho máximo (en bases) de una ventana donde halSnake mostrará los SNP entre la referencia y las otras especies.

Suponiendo que hapClusterEnabled sea verdadero, esto especifica la altura en píxeles de la pantalla de clasificación de haplotipos.

Si es verdadero, no se mostrarán las variantes cuya columna QUAL contenga un valor menor que la configuración minQual.

Suponiendo que applyMinQual es verdadero, este es el valor CUAL mínimo requerido para que se muestre una variante.

La frecuencia mínima de alelos menores requerida para que se muestre una variante. De forma predeterminada, es 0.0 (es decir, muestra todas las variantes).

Activar / desactivar las opciones de FILTRO disponibles de forma predeterminada para las pistas VCF

Activa / desactiva las opciones de filtro QUAL disponibles de forma predeterminada para las pistas VCF

Activa / desactiva las opciones de filtro de frecuencia de alelos menores disponibles de forma predeterminada para las pistas VCF

Los datos de esta pista VCF se almacenan en el archivo remoto, "myVcf.gz". Ese archivo está emparejado con un archivo de índice generado por tabix llamado "myVcf.gz.tbi" que se encuentra en la misma ubicación remota.

VcfPhasedTrio: VCF + tabix con metadatos adicionales

Después de preparar un archivo VCF como se indica en la sección VCF, si sus datos contienen información sobre tríos, es posible que desee utilizar el tipo de pista vcfPhasedTrio para obtener una visualización del haplotipo. Para obtener más información sobre esta pantalla, consulte la documentación de VCF Trio para obtener una explicación completa del tipo de pista vcfPhasedTrio.

El ID de columna del genotipo VCF de la muestra & quot; hijo & quot, seguido opcionalmente por un carácter & quot | & quot y un alias para la visualización. Esta muestra se convertirá en el haplotipo central si también se especifican los padres.

Una lista separada por comas (sin espacios) de los ID de columna del genotipo VCF de los & quot; padres & quot, seguida opcionalmente por un carácter & quot | & quot y un alias para la visualización. Esta configuración es opcional y es compatible con uno o ambos padres.

Haga que la pantalla use los alias como etiquetas predeterminadas para cada línea de haplotipos en lugar del ID del VCF.

Los datos de esta pista VCF se almacenan en el archivo remoto, "myVcf.gz". Ese archivo está emparejado con un archivo de índice generado por tabix llamado "myVcf.gz.tbi" que se encuentra en la misma ubicación remota. "NA123456" es el ID de una de las columnas Genotype en el VCF, y los haplotipos parentales se mostrarán en relación con su similitud con esta muestra.

PgSnp: formato SNP del genoma personal

NO PARA HUBS. (Ninguna de las configuraciones de esta sección se aplica a los concentradores).

Este formato se utiliza para mostrar SNP de genomas personales. Se utiliza para las pistas Genome Variants y Population Variants. Consulte las preguntas frecuentes para obtener información sobre cómo preparar conjuntos de datos de SNP del genoma personal.

Las pistas de tipo SNP de Genoma Personal están esencialmente en formato "cama 4 + 3". La cuarta columna, nombre, se rellena con una o más variantes (incluidas inserciones y eliminaciones) delimitadas con un carácter '/'. La quinta columna contiene el número de variantes que se encuentran en la columna del nombre, mientras que la sexta y la séptima columnas contienen matrices de frecuencias y puntuaciones delimitadas por comas, respectivamente. Los archivos en este formato se pueden cargar en MariaDB con hgLoadBed usando el esquema "pgSnp.sql".

La imagen del navegador muestra variantes como cuadros apilados que muestran la frecuencia de cada variante, si esa información está en la tabla. La página de detalles de cada elemento de variante calcula cualquier cambio de aminoácido si la variante está en una región de codificación.

No compatible con pistas personalizadas

Tabla auxiliar con probabilidades de variante de daño a las proteínas de polyPhen.

No compatible con pistas personalizadas

Tabla auxiliar con probabilidad de variante de daño a las proteínas de SIFT.

Una pista de SNP del genoma personal que muestra polimorfismos de un solo nucleótido del genoma de referencia.

AltGraphX: pistas de modelos de genes de empalme alternativo

Los modelos genéticos con empalme alternativo se pueden mostrar en el navegador con este tipo de pista. No admite configuraciones de trackDb más allá de las comunes.

Modelos de genes de corte alternativo pista especializada utilizada para mostrar la cobertura del genoma.

La pista de empalme alternativo del Instituto Suizo de Biología proporciona un enlace externo a través de la configuración de URL. Pero el término "tromer" real en el valor se completará con los resultados de una consulta a la tabla sibTxGraph. Con suficientes configuraciones oscuras, el navegador logra cosas sutiles.

BedDetail: pista de cama extendida de texto

Esta es una extensión del formato BED. Detalle de BED utiliza las primeras 4 a 12 columnas del formato BED, más 2 campos adicionales que se utilizan para mejorar las páginas de detalles de la pista. El primer campo adicional es un ID, que se puede utilizar en lugar del campo de nombre para crear enlaces desde las páginas de detalles. El segundo campo adicional es una descripción del elemento, que puede ser una descripción larga y puede consistir en html, incluidas tablas y listas.

Formato de tipo de cama extendido que tiene una descripción de texto incrustada en la tabla para cada artículo. El formato puede variar entre 4 y 12 columnas de cama estándar más dos adicionales. El número de columnas (incluidas las 2 columnas específicas de bedDetail) debe seguir el término "bedDetail" en la configuración de tipo.

Se puede encontrar un ejemplo a continuación.

Este bedDetail contiene detalles de cada elemento formateado para visualización HTML. Además, cada artículo tiene una "identificación" a diferencia del "nombre" y esa identificación se utiliza en la URL del enlace externo que se muestra en la página de detalles del artículo.

ClonePos: pistas de cobertura del genoma

Esta es una pista de formato especializado que solo se usa para mostrar la cobertura en el genoma humano. No admite configuraciones de trackDb más allá de las comunes.

Una pista especializada que se utiliza para mostrar la cobertura del genoma.

La pista de cobertura del genoma humano variará en color entre el negro y el gris claro, según la profundidad de cobertura de la secuencia clonada.

CtgPos: el mapa físico contiene pistas

Esta es una pista de formato especializado que se utiliza para "contigs de mapa físico" en el genoma humano. No admite configuraciones de trackDb más allá de las comunes.

Una pista especializada que se utiliza para mostrar la ubicación de contigs en el mapa físico.

La pista de GCR Map Contigs normalmente generaría una URL para NCBI, pero en este caso, la URL se ha bloqueado explícitamente.

DescargasOnly: pista especializada que contiene solo archivos descargables

Todas las pistas ENCODE tienen un directorio especial y soporte CGI para descargar archivos. Esto puede ser muy útil para organizar el acceso a la gran cantidad de archivos descargables asociados con una pista ENCODE. Hay un puñado de conjuntos de datos que no se prestan fácilmente para la visualización en nuestro navegador, pero que, no obstante, son un componente necesario de los datos ENCODE en su conjunto. Por lo tanto, downloadsOnly type fue desarrollado para proporcionar un fácil acceso a estos conjuntos de archivos descargables.

Una pista especializada que proporciona acceso a un conjunto de archivos descargables y actualmente solo es ENCODE. Una pista de tipo DownloadsOnly no se visualiza en el navegador.

Se puede encontrar un ejemplo a continuación.

La configuración fileSortOrder es necesaria para las pistas de tipo DownloadsOnly. Se puede encontrar una descripción completa en la sección de pistas compuestas de este documento. Requiere que cada archivo se defina como un objeto en la metaDb y que cada uno de esos objetos se refiera a un "compuesto" que será el nombre de esta pista y el nombre del directorio donde se encuentran los archivos. El "fileSortOrder" define la columna y el orden de clasificación predeterminado. El usuario podrá ordenar y filtrar la lista de archivos.

El navegador no proporcionará visualización de esta pista, pero brindará acceso para descargar cualquier cantidad de archivos organizados en un solo grupo. La página de descargas presenta esos archivos en una tabla con una serie de columnas que se pueden ordenar y posiblemente filtrar. Gran parte de la presentación y organización se basa en la configuración establecida en la metaDb para esta pista. Sin embargo, la configuración fileSortOrder ha solicitado que se presenten seis columnas específicas en el orden deseado.

EncodeFiveC: Pista de interacción de la cromatina Five C

Esta es una pista de formato especializado que se utilizó para mostrar evidencia de interacción cromatina / cromatina a larga distancia. Esencialmente una pista de tipo "lecho" que muestra ubicaciones en el genoma. La página de detalles de cada ubicación presenta una lista de otras ubicaciones dentro del genoma que pueden tener interacciones funcionales.

Una pista especializada que se utilizó para mostrar las ubicaciones donde la cromatina puede tener interacciones con otras ubicaciones de cromatina.

Cada ubicación que se encuentra en la tabla principal de la pista debe tener regiones asociadas definidas en la tabla de interacciones nombrada con esta configuración. El formato de la tabla de interacciones es esencialmente una "cama 7 + 1".

La tabla de interacciones se presenta en la página de detalles de cada elemento y se titula "Principales ___ interacciones".

Esta pista de interacciones de Five C se mostrará como elementos de colores. Las regiones de cromatina asociadas se extraen de una segunda tabla. El tipo de asociaciones son los sitios de inicio de la transcripción.

FactorSource: Pistas de elementos combinados

La fuente de factor no es una pista de grupo, sino una pista que se crea a partir de un grupo de fuentes, que pueden ser a su vez pistas del navegador. Este es un tipo especializado de pista basada en "artículo" de formato "cama 15", el mismo formato que se utiliza para el tipo expRatio. Su propósito es mostrar los factores de transcripción detectados en múltiples líneas celulares, aunque podría ser adaptable para cualquier tipo de elemento que se acumule en ubicaciones superpuestas y pertenecerá a una de varias categorías. Sin embargo, este tipo fue diseñado específicamente para combinar la evidencia de unión del factor de transcripción (TF) de múltiples líneas celulares en una sola pista. Como pista de tipo lecho, consta de elementos o regiones donde hay evidencia de unión de TF. A la izquierda de cada elemento, se muestra el nombre del factor, mientras que a la derecha se muestra una lista codificada de tipos de celda donde se ha encontrado la evidencia. A diferencia de la mayoría de las pistas basadas en elementos, se requiere una segunda tabla para describir las líneas de celdas. Utilice el programa hgBedsToBedExp para crear las tablas a partir de una colección de lechos más simples, uno para cada interacción de factor de transcripción / celda.

Un formato de mesa de cama 15 con elementos superpuestos. Este es un tipo de pista especializada diseñada para contener evidencia de unión del factor de transcripción a través de múltiples líneas celulares. El formato es el mismo que se utiliza para la expresión de microarrays.

Se puede encontrar un ejemplo a continuación.

Las pistas de tipo factorSource necesitan una tabla secundaria que contenga descripciones de las fuentes. Aquí es donde se declaran las abreviaturas de las líneas celulares y se asocian con las líneas celulares reales.

Al ver los detalles de un elemento de seguimiento de factorSource (normalmente un sitio de unión TF), se puede mostrar información adicional sobre la evidencia de la línea celular. Esta configuración nombra una tabla que contendrá la información adicional. Se utiliza junto con la configuración inputTableFieldDisplay.

Si hay una inputTrackTable definida con su pista, los campos que se mostrarán deben declararse con esta configuración asociada.

Esta configuración proporciona al usuario el filtrado de elementos de factorSource por nombre de factor. El uso más simple es incluir una lista separada por comas de todos los nombres de factores en la pista como argumento para la configuración. Se puede encontrar una descripción completa de esta configuración en la configuración de la pista basada en elementos bed / bigBed.

Una mesa de la cama 6 que contiene regiones con motivos para resaltar dentro de los elementos de factorSource.

Si los nombres de los motivos difieren o no son únicos para los nombres de elementos de factorSource en la tabla motif, esta tabla se puede utilizar para reasignar los nombres. Esta tabla tiene un formato simple de 2 columnas: factor char (255), motivo char (255).

Al ver los detalles de un elemento de la pista de factorSource que contiene un motivo de unión en la tabla de motivos, se puede mostrar la secuencia del motivo de consenso y la imagen del logotipo de la secuencia. Esta configuración nombra la tabla que contiene las matrices de peso de posición que proporcionan esta información.

Visualización de motivos resaltados en una pista de factorSource se puede limitar utilizando esta configuración. En las regiones genómicas grandes, los motivos no se distinguen bien en la pantalla y el rendimiento mejora al suprimir la característica.

Si una pista de factorSource tiene una tabla de motivos, esta configuración controla si los motivos se dibujan de forma predeterminada. También es configurable por el usuario.

Esta pista mostrará la evidencia de unión del factor de transcripción (TF) encontrada en múltiples líneas celulares. Cada elemento representa un TF en particular, junto con las líneas celulares que muestran evidencia de unión en esa ubicación. La tabla fuente secundaria contiene las definiciones de cada abreviatura de línea celular. Se declara una tercera tabla con inputTrackTable y contiene detalles para cada línea de celda que debe verse en el navegador. Cuando se ve en detalle del artículo, se verán 3 campos (cellType, tratamiento y laboratorio) para cada celda asociada con la ubicación de unión de TF particular.

Rmsk: repite las pistas de enmascaramiento

Esta es una pista de formato especializado que se utiliza solo para la pista de repetición de enmascaramiento. Para completarlo, se describe brevemente aquí. Estas pistas se crean mediante el uso del programa RepeatMasker de Arian Smit, que analiza las secuencias de ADN en busca de repeticiones intercaladas y secuencias de ADN de baja complejidad.

Las pistas de enmascaramiento de repetición contienen datos formateados de forma única para la función especial de enmascaramiento de repetición.

Se puede encontrar un ejemplo a continuación.

La pista de enmascaramiento de repetición tendrá elementos de repetición individuales sombreados por una medida de cuán exacto es un elemento repetido dentro del tramo de repetición. Esta pista está restringida para mostrarse a menos de 10 millones de resolución base.

Serpiente: pistas de alineación autorreferenciales - EXPERIMENTAL

Esta es una pista de formato especializado que muestra el curso serpenteante de alineaciones bidireccionales y superpuestas. Este formato puede ayudar a ilustrar los reordenamientos de tipo inversión que se alinean con la hebra positiva, luego la hebra negativa y nuevamente con la hebra positiva. También se puede utilizar para ilustrar alineaciones superpuestas, como cuando se ha producido una duplicación en comparación con el genoma de referencia.

Una pista especializada que se utiliza para mostrar la trayectoria de las alineaciones serpenteantes que representan reordenamientos cromosómicos, duplicaciones e inversiones. Dado que este tipo es casi siempre un mapeo entre dos especies o dos conjuntos de la misma especie, el tipo también debe declarar esa especie / conjunto por nombre de base de datos.

Al igual que con las cadenas y netAligns, que normalmente muestran asignaciones entre dos ensamblajes, la configuración "otherDb" también es necesaria para declarar qué otro genoma y ensamblaje representan los datos en esta pista.

Esta huella de serpiente ilustrará los reordenamientos cromosómicos que se han producido en el genoma mm9 del ratón como se ve cuando se alinea con el genoma humano.

BigInteract: interacciones por pares

El formato bigInteract almacena interacciones entre pares de regiones en el genoma. Los archivos BigInteract se crean utilizando el programa bedToBigBed con un archivo AutoSQL especial que define los campos. Los archivos resultantes están en un formato binario indexado que admite un acceso remoto eficiente, por lo que el archivo se puede alojar en su servidor de acceso web y mostrarse en UCSC. Para obtener las definiciones completas del formato de bigInteract, consulte la página de ayuda de bigInteract.

Esta configuración se utiliza cuando la interacción tiene una orientación (dirección del efecto). La configuración de desplazamiento muestra la fuente (offsetSource) o el destino (offsetTarget) debajo del otro tipo de extremo que se desplaza verticalmente en la imagen. La interacción se dibuja con líneas discontinuas cuando la región objetivo precede a la región fuente (dirección inversa) en el genoma.

La configuración del clúster recopila todas las interacciones con la misma fuente (clusterSource) o destino (clusterTarget) y muestra cada grupo como una sola pantalla de bloque vinculado en el navegador. Esto proporciona una vista alternativa de un archivo de interacción.

Esta configuración invierte la pantalla curva de visibilidad completa para que el pico de las curvas esté "arriba" (colinas en lugar de valles).

Esta configuración hace que aparezca un enlace en la página de detalles que aparece cuando se hace clic en una interacción. Este enlace generará una vista del navegador del genoma "multirregión" de los puntos finales de interacción (o grupo de interacción). Utilice el relleno para especificar un relleno no predeterminado en los bordes de cada región. El valor predeterminado es 200 pares de bases.

BigLolly: Gráficos de piruletas

Los gráficos de piruletas se usan generalmente para mostrar datos que son locales a una sola base que tiene de uno a tres valores de datos asignados que se pueden mostrar usando la altura de la piruleta, el color y el tamaño del círculo en la parte superior de la piruleta. Para ver ejemplos, visite la página de ayuda de bigLolly.

Hic: matrices de contacto Hi-C

El tipo de pista hic es para mostrar datos de interacción cromatina-cromatina a través de mapas de calor. Actualmente, este tipo de pista admite un formato de archivo: el formato de archivo .hic creado por Aiden Lab en Baylor College of Medicine. Este es un formato binario indexado que admite el acceso remoto, por lo que el archivo se puede alojar en cualquier servidor web accesible y mostrarse en UCSC. Para obtener más información sobre el formato de archivo .hic y la herramienta Juicer que genera estos archivos, consulte la documentación en github.

Esta configuración controla el modo de visualización predeterminado para la pista hic. En el modo de arco, una interacción entre dos regiones se dibuja como un arco entre los centros de esas dos regiones. En el modo cuadrado, las interacciones se representan mediante un cuadrado en un mapa de calor. Las regiones que interactúan para cualquier cuadrado se pueden identificar proyectando los lados del cuadrado sobre el eje diagonal del mapa de calor y viendo dónde caen esos puntos en la ventana cromosómica que se está viendo. En el modo de triángulo, las interacciones se dibujan como diamantes. Las regiones de interacción para cualquier diamante se pueden identificar proyectando los lados del diamante en el eje horizontal del mapa de calor y viendo dónde caen esos puntos en la ventana cromosómica.

Esta configuración controla qué método es el predeterminado para normalizar las puntuaciones brutas del archivo .hic. Las puntuaciones de todos estos métodos se calculan durante la creación del archivo .hic. Para obtener más información sobre estos métodos, consulte la documentación de Juicer vinculada anteriormente.

Esta configuración controla el tamaño predeterminado de los contenedores en los que se agrupan los resultados de los contactos Hi-C. La lista de resoluciones disponibles depende del archivo, pero los valores comunes incluyen números como 5000 y 10000. Además de un valor entero, también se puede proporcionar la cadena Auto (Auto también es el valor predeterminado si no se especifica esta configuración). En el modo automático, el navegador elegirá dinámicamente una resolución que parezca proporcionar una buena cantidad de detalles dependiendo del tamaño de la ventana del cromosoma que se esté viendo en ese momento.

La configuración de saturationScore es parte de cómo se muestran los tonos de color del mapa de calor. Los colores en el mapa de calor se correlacionan con la puntuación de cada interacción: una puntuación de interacción más alta corresponde a una intensidad de color más alta. Sin embargo, en algún momento, se alcanza la máxima saturación de color y las puntuaciones de interacción más altas no cambian más el color. Esta configuración determina cuál es la puntuación predeterminada para el punto en el que se alcanza la máxima saturación de color.

BigBarChart: gráficos de barras de variables que se muestran en regiones genómicas

El formato bigBarChart almacena valores de un conjunto de variables para cada región genómica en el archivo. Los archivos BigBarChart se crean utilizando el programa bedToBigBed con un archivo AutoSQL especial que define los campos. Los archivos resultantes están en un formato binario indexado que admite un acceso remoto eficiente, por lo que el archivo se puede alojar en su servidor de acceso web y mostrarse en UCSC. Para obtener las definiciones completas del formato bigBarChart, consulte la página de ayuda de bigBarChart.

La etiqueta de la unidad se adjunta a los valores en la pantalla, gráficos y diagramas de la pista.

Esta configuración proporciona una etiqueta para la lista de selección de categorías.

La visualización de la pista BarChart selecciona uno de tres tamaños (pequeño, mediano o grande) para mostrar barCharts, según el tamaño de la región genómica en la ventana actual. Para datos densos, es útil reducir los tamaños de barChart, incluso cuando se encuentran en regiones genómicas relativamente pequeñas. Esta configuración limita el tamaño del barChart más grande al valor seleccionado. Cuando no se configura, el valor predeterminado es & quot; grande & quot.

Esta configuración proporciona una forma de elegir los umbrales de pares de bases que determinan los tamaños de los gráficos de barras (gráficos pequeños, medianos o grandes). El tamaño predeterminado de la ventana del par de bases es 50000 y 500000 bases, que está previsto para un gráfico por gen en los genomas de vertebrados. Esta configuración se puede utilizar para personalizar de manera flexible los tamaños de los gráficos en función del tamaño de la ventana del par de bases que se visualiza al anotar densamente una secuencia.

grande tamaño de la ventana y lt largeMax
medio tamaño de la ventana & gt = largeMax y & lt smallMin
pequeñatamaño de la ventana & gt = smallMin

En este ejemplo, que se utiliza cuando se muestran gráficos de barras en un genoma viral de 30.000 pares de bases, aparecen gráficos grandes en ventanas de hasta 499 bases, medianos en ventanas de 500 a 7999 de tamaño y pequeños cuando se muestran 8000 o más bases en la ventana del navegador.

Esta configuración proporciona una etiqueta para la información de la página de detalles sobre los valores de barChart presentados. Por lo general, estos son valores de resumen, derivados de muchas muestras (a menudo, el valor mediano).

Esta configuración es una lista de etiquetas para las variables categóricas (barras). Es necesario para este tipo de pista.

Esta configuración es una lista de colores, uno para cada categoría (barra). Los colores se especifican como valores RGB (255,255,255 o #FFFFFF) o por nombre (los 16 nombres de colores HTML definidos en HTML 4.01). Los colores HTML nombrados son:

Especifica un archivo de matriz de datos que proporciona valores de datos para todas las muestras. Se usa junto con barChartSampleUrl para generar un diagrama de caja en la página de detalles.

Especifica un archivo separado por tabulaciones que proporciona categorías para muestras en el archivo barChartMatrixUrl. Se utiliza para generar un diagrama de caja en la página de detalles.

Especifica un archivo separado por tabulaciones que proporciona etiquetas y, opcionalmente, colores para las categorías (barras). Esta configuración puede reemplazar la configuración de barChartBars y barChartColors, y es particularmente útil para pistas con un gran número de categorías.

Grupos de pistas principales predefinidos

Todas las pistas pertenecen a uno de varios grupos. Las pistas de hub pertenecen al grupo que abarca su hub. Otras pistas pertenecen a uno de los grupos predefinidos. Para hg19 se definen los siguientes grupos:

  • mapa - "Mapeo y secuencia"
  • phenDis - "Asociaciones de fenotipos y enfermedades"
  • genes - "Genes y predicción de genes"
  • ARN - "ARNm y EST"
  • expresión - "Expresión"
  • reglamento - "Reglamento"
  • compGeno - "Genómica comparativa"
  • neandertal - "Montaje y análisis neandertal"
  • varRep - "Variación y repeticiones"

Si no se establece ningún grupo para una pista incorporada, la pista terminará en la sección Experimental Tracks en la parte inferior.

Configuración de Supertrack

El primer contenedor jerárquico se llama supertrack, que puede considerarse como una carpeta que contiene otras pistas que por defecto están cerradas, a menos que se agregue la configuración show. Actualmente, el navegador solo admite un nivel de carpetas de supertrack. Generalmente, las subpistas de una supertrack son de diferentes tipos. Si todos los hijos son del mismo tipo, a menudo es mejor utilizar la agrupación compositeTrack que se describe a continuación. Si todos los niños son pistas de peluca o peluca grande, puede ser de interés utilizar una superposición de señales de agrupación "contenedor multiWig". Las pistas de superposición de señales muestran los datos de la señal de varias subpistas como transparencias de colores, lo que permite ver los datos de varias pistas juntas en una vista condensada.Consulte la sección multiWig para obtener más información.

Las supertracks pueden contener pistas compuestas y contenedores multiWigs, pero no al revés. Con supertracks, pistas compuestas y multiWigs de contenedor, los niños heredarán la configuración de sus padres, pero pueden anular la configuración de sus padres dentro de sus propias estrofas.

Para declarar una supertrack, simplemente agregue esta configuración a una definición de pista que contendrá algunas configuraciones estándar. Para configurar una supertrack para que se muestre como predeterminada, agregue la palabra show, superTrack on show, al final de la declaración. Para que el supertrack no se muestre de forma predeterminada, use solo superTrack activado. Puede ser útil pensar en la estrofa de supertrack declarante original como un interruptor de luz que, por defecto, está apagado y se puede encender agregando show.

Todas las pistas que afirman pertenecer a la supertrack deben establecer sus propias visibilidades en estrofas inferiores declarando configuraciones como superTrack1 padre y también teniendo una línea densa de visibilidad separada. Si no se define una configuración de visibilidad para una pista, se asigna la configuración predeterminada de ocultar. Esto puede causar confusión si uno trata erróneamente de establecer visibilidades solo en la estrofa de supertack superior, no permitida, y las omite para cada niño.

No confunda la línea principal con cómo se usa en compuestos. Por ejemplo, en supertracks NO siga el ejemplo de padre superTrack1 [desactivado / activado] , donde [desactivado / activado] solo funcionará con pistas compuestas. Al intentar depurar la configuración de visibilidad, puede resultar útil leer la nota sobre la herencia que se encuentra a continuación.

La pertenencia a una pista supertrack, compuesta o agregada la declara el hijo, no la supertrack en sí con una línea como superTrack1 padre.

No confunda la línea principal con cómo se usa en compuestos. Por ejemplo, en las supertracks NO siga el ejemplo del padre compositeTrack1 [off / on], que solo funcionará con pistas compuestas.

Cualquier número de niños puede pertenecer a una supertrack, pero diez es un número sugerido por consideraciones de usabilidad. Estilísticamente, las estrofas de los niños dentro de trackDB suelen tener sangría directamente debajo de la estrofa del padre. Sin embargo, esto es menos frecuente en el caso de las supertracks, porque los elementos secundarios a menudo se encuentran dispersos en otros lugares dentro del archivo trackDb, o los elementos secundarios de supertrack son compuestos que contienen una sangría adicional que hace que la aplicación de la sangría de la supertrack no sea práctica.

Todas las pistas que afirman ser miembros de la supertrack deben establecer sus propias visibilidades en estrofas inferiores declarando configuraciones separadas como visibilidad densa. Cuando intente depurar configuraciones de visibilidad, puede ser útil leer la nota sobre herencia que se encuentra a continuación.

La pista llamada & quotMy Folder & quot se declara como una supertrack y contiene dos hijos que reclaman membresía con líneas principales. Observe que la primera pista, track myFirstTrack, es visible de forma predeterminada con visibilidad densa (porque la supertrack en sí, myFolder, tiene la configuración similar a un interruptor de luz de show para mostrar todo el contenido de la supertrack). La segunda pista, track mySecondTrack, no se muestra, sin embargo, con la visibilidad oculta y requerirá hacer clic en un cuadro en la página de Configuración de la pista para mostrarla.

Nota: no confunda la línea principal con cómo se usa en compuestos. Por ejemplo, en supertracks NO siga el ejemplo de padre superTrack1 [desactivado / activado] , que solo funcionará con pistas compuestas. Consulte la Guía de inicio rápido para organizar los centros de seguimiento en agrupaciones para obtener más ejemplos.

Pistas compuestas

Las pistas compuestas son otro nivel de jerarquía y están destinadas a agrupar pistas muy similares (llamadas "subpistas") juntas de modo que todas puedan compartir los mismos ajustes de configuración. En su forma más simple, un compuesto contiene pistas del mismo tipo (como bigBed). Inicialmente, todas las pistas del conjunto se configuran de forma idéntica. Por lo general, solo algunas de las subpistas son visibles de forma predeterminada, y estas tendrán el mismo modo de visualización (por ejemplo, denso) y configuraciones opcionales (por ejemplo, viewLimits). Si bien los ajustes predeterminados cubren toda la composición de pistas relacionadas, en la mayoría de los casos el usuario puede configurar subpistas individuales independientemente de la configuración de la composición. Sin embargo, una vez que se realizan los ajustes de las subpistas individuales, se pueden anular mediante nuevas elecciones realizadas a nivel compuesto. Puede resultar útil leer la "Nota sobre la herencia" que se encuentra a continuación.

Actualmente, solo los siguientes tipos de pistas se pueden organizar en una composición: pistas basadas en elementos (bed, bigBeg, broadPeaks, etc.), pistas basadas en señales (wig, bigWig, etc.), otras pistas remotas basadas en archivos (bams, vcf, etc.), cadenas / redes, pistas tipo genePred, psl y wigMaf.

Pistas compuestas

Las pistas compuestas son otro nivel de jerarquía y están destinadas a agrupar pistas muy similares (llamadas "subpistas") juntas de modo que todas puedan compartir los mismos ajustes de configuración. En su forma más simple, un compuesto contiene pistas del mismo tipo (como bigBed). Inicialmente, todas las pistas del conjunto se configuran de forma idéntica. Por lo general, solo algunas de las subpistas son visibles de forma predeterminada, y estas tendrán el mismo modo de visualización (por ejemplo, denso) y configuraciones opcionales (por ejemplo, viewLimits). Si bien los ajustes predeterminados cubren toda la composición de pistas relacionadas, en la mayoría de los casos el usuario puede configurar subpistas individuales independientemente de la configuración de la composición. Sin embargo, una vez que se realizan los ajustes de las subpistas individuales, se pueden anular mediante nuevas elecciones realizadas a nivel compuesto. Puede resultar útil leer la "Nota sobre la herencia" que se encuentra a continuación.

Para declarar una composición, simplemente agregue esta configuración a la definición de una pista, junto con algunas configuraciones estándar. Las estrofas de la subpista siempre siguen inmediatamente después de la delaración de la pista compuesta y se sangran a partir de ella.

Tenga en cuenta que, dado que los elementos secundarios de los compuestos heredan la configuración de sus padres, se encontrarán muchas más configuraciones de trackDb en el nivel compuesto que en el nivel de supertrack.

La pertenencia a un compuesto es declarada por el hijo de subtrack, no por el compuesto en sí, a través de esta configuración. Cualquier número de subpistas puede pertenecer a un compuesto, pero el rendimiento de la pantalla se degrada significativamente más allá de unos pocos cientos. Establezca la configuración principal en "activado" para indicar si una subpista debe estar visible (marcada, seleccionada) de forma predeterminada. La configuración de visibilidad en las subpistas compuestas se hereda directamente del padre. Por lo tanto, se ignorarán las líneas de visibilidad agregadas en el nivel de la subpista secundaria de un compuesto.

Cuando una pista compuesta simple presenta una lista corta de subpistas, puede ser conveniente para el usuario tener una manera fácil de seleccionarlas o deseleccionarlas todas. Incluya esta configuración para mostrar un "Todo" (par de botones más y menos) para la conveniencia del usuario. Si la lista contiene más de 10 subpistas, otros métodos pueden ser más útiles para organizar y seleccionar subpistas (que se describen a continuación).

De forma predeterminada, solo se muestra la etiqueta central única de la pista compuesta cuando las subpistas se muestran juntas en el modo denso del navegador. Si centerLabelsDense se establece en "on", el navegador mostrará una etiqueta central para cada subpista.

Cuando tiene muchas subpistas en una pista compuesta, puede ser útil en la página de configuración de la pista, también conocida como la página de configuración hgTrackUi, para reorganizar las subpistas. Una vía para reorganizar muchas subpistas es emplear la configuración sortOrder, como se describe a continuación, o permitir que el usuario arrastre y suelte las subpistas en un nuevo orden en la página Configuración de la pista. La configuración de las subpistas dragAndDrop habilitará el arrastre haciendo clic en la marca de verificación junto a la subpista en la página de configuración. De este modo, las pistas se pueden reorganizar en un orden final deseado, que luego se verá al explorar las pistas. Sin embargo, el orden de las pistas también se puede reorganizar en la imagen del navegador hgTracks arrastrando y soltando directamente los datos de las pistas mostradas. Sin embargo, reordenar las subpistas en la imagen del navegador en hgTracks no se reflejará en la página de configuración de hgTrackUi. Nota: Esta configuración no funcionará correctamente si se especifica 'contenedor multiWig'.

Cuando tiene muchas subpistas en una pista compuesta, puede resultar útil limitar la visualización a solo aquellas con datos en la ventana de visualización actual. Esta configuración de la pista produce una casilla de verificación en la página de configuración de la pista que permite al usuario habilitar o deshabilitar esta función. si se especifica activado, la función está activada de forma predeterminada (la casilla de verificación está marcada).

Para compuestos grandes, especialmente aquellos en los que cada subpista puede ser escasa, se pueden obtener mejoras sustanciales en el rendimiento creando un archivo de índice de las intersecciones de elementos en todas las subpistas (& quotmultiBed & quot). Este archivo, y un archivo de fuentes que lo acompaña, son configuraciones opcionales para la función hideEmptySubtracks. Las instrucciones para crear estos archivos se encuentran en la página de ayuda de MultiBed (TBD).

NOTA: Estos ajustes son necesarios para utilizar la función hideEmptySubtracks con compuestos de múltiples vistas.

Esta configuración se utiliza junto con la configuración hideEmptySubtracksMultiBedUrl, descrita anteriormente.

Esta configuración se utiliza junto con la configuración hideEmptySubtracks para personalizar la etiqueta que precede a la casilla de verificación de selección en la página de configuración de la pista. La redacción predeterminada es & quot; Ocultar subpistas vacías & quot. La redacción personalizada es útil para distinguir las pistas afectadas en compuestos de múltiples vistas (p. Ej., & Quot; Ocultar subpistas vacías de Peaks & quot).

Se muestra el compuesto con dos subpistas. Todas las subpistas son de tipo bigWig y todas tienen un viewLimits predeterminado de 0 - 0.2. Observe que la primera subpista está marcada de forma predeterminada, pero la segunda no (configuración principal). Sin embargo, el navegador mostrará dos botones (configuración allButtonPair) que permiten al usuario seleccionar todas las subpistas, o deseleccionarlas todas y luego marcar solo las de interés.

Subgrupos

Dentro de una pista compuesta, se pueden utilizar dos estilos de agrupación diferentes para permitir al usuario seleccionar pistas para mostrarlas en el navegador. En esta sección se describe la configuración de los "subgrupos". Las "vistas" se tratan en una sección posterior.

El subgrupo se puede utilizar para seleccionar conjuntos de subpistas para su visualización en función de determinadas características de los datos. Por ejemplo, si "célula" y "anticuerpo" se definen como subgrupos dentro de una pista compuesta, el usuario podrá seleccionar subpistas basadas en tipos de células y anticuerpos específicos para mostrar en el navegador. Se pueden definir hasta 9 tipos de subgrupos para un compuesto. Sin embargo, para minimizar la complejidad, se recomienda encarecidamente que solo se definan dos subgrupos para una pista compuesta determinada. Estos se presentarán en una matriz X / Y simple que es fácil de entender y navegar por el usuario. Es posible definir más subgrupos en dimensiones "abc" adicionales que se presentarán al usuario como cuadros de diálogo de selección múltiple desplegables, pero su uso debe evitarse o minimizarse.

Se pueden declarar hasta 9 subgrupos, uno por línea. Cada declaración de subgrupo debe incluir una etiqueta delimitada por espacios en blanco, un título y uno o más pares de membresía etiqueta / título unidos por un signo igual '='.

  • etiqueta: se utiliza en el código para seleccionar y ordenar subpistas en función de su membresía. Los nombres de las etiquetas deben ser alfanuméricos, comenzar con una letra, no contener un punto y estar formados de manera que resulte el orden de clasificación deseado de las subpistas de miembros.
  • title: Etiqueta del subgrupo tal como aparece en la matriz de selección que se muestra al usuario, por ejemplo, "Anticuerpo". Los espacios dentro de los títulos deben reemplazarse por '_'. Se permite una cantidad limitada de HTML en los títulos, como la inserción de letras griegas mediante un código HTML. Cualquier uso de HTML debe probarse para asegurarse de que se muestre correctamente.

Debido a que las configuraciones de subgrupos suelen ser largas, se recomienda utilizar el carácter de continuación de línea '' para dividir la configuración en varias líneas para facilitar la lectura.

Las propias subpistas declaran su pertenencia a un grupo con la configuración de subgrupos. Cada subtrack debe declarar su pertenencia a todos los subgrupos de su compuesto. Tenga en cuenta que la membresía se declara por pares de etiquetas: la etiqueta de grupo (por ejemplo, gTag1) se empareja con la etiqueta de miembro de ese grupo (por ejemplo, mTag1b) como gTag1 = mTag1b (celda = K562).

Para definir el tipo de interfaz de usuario deseada para seleccionar subpistas basadas en grupos, se necesitan configuraciones adicionales en el nivel compuesto. Para una matriz unidimensional o bidimensional de casillas de verificación, declare las dimensiones X e Y. Las dimensiones adicionales (llamadas "abc") se pueden declarar con esta configuración como dimA, dimB, etc.

Tenga en cuenta que el orden de los subgrupos en una dimensión es exactamente el mismo que el orden en el que aparecen en la configuración del subgrupo #, independientemente de si la lista de subpistas está ordenada por etiquetas. Tenga en cuenta también que si un concentrador no va a utilizar la matriz X, Y, dimX debería ser la primera dimensión definida en lugar de dimA. Además, la configuración de allButtonPair en evitará que se muestre la matriz.

Para las dimensiones "abc", las filas de casillas de verificación se mostrarán de forma predeterminada. Sin embargo, esta interfaz de usuario puede resultar confusa, especialmente combinada con una matriz unidimensional o bidimensional. En su lugar, se recomienda que organice las dimensiones "abc" como selecciones múltiples desplegables, a menudo denominadas cuadros de "filtro" debido a su similitud con la configuración filterBy discutida anteriormente. Declare las cajas de filtro de subtrack con la configuración filterComposite. Los compuestos de filtro pueden funcionar con o sin la matriz X / Y, pero están restringidos a las dimensiones "abc".

De forma predeterminada, el cuadro de filtro para seleccionar subpistas es de selección múltiple, lo que significa que se permite más de una opción. Es posible restringir esto a una sola opción agregando la opción "= uno" a la definición del cuadro de filtro. Esto puede tener sentido cuando solo hay 2 opciones. La opción de "todos" siempre está disponible, mientras que elegir nada es un caso inválido. Tenga en cuenta que si un concentrador no va a utilizar la matriz X, Y, dimX debería ser la primera dimensión definida en lugar de dimA.

Una complicación más en el proceso de selección es determinar qué opciones de subgrupo se seleccionan de forma predeterminada. En el caso de la matriz X / Y, esto se puede determinar mediante las subpistas que se comprueban actualmente. Pero, las dimensiones "abc" deben tener su estado seleccionado declarado explícitamente usando la configuración de dimensión & lt? & Gtchecked.

NO PARA HUBS. Usado actualmente solo por ENCODE

En ENCODE, los subgrupos a menudo se basan en términos de metadatos declarados en la tabla metaDb y definidos en el "vocabulario controlado", que se almacena como un archivo ra. En esta situación, las etiquetas de estos términos, tal como se muestran en la página de configuración de la pista, se pueden vincular a las definiciones de vocabulario controladas. Estos enlaces pueden ser bastante útiles, ya que la definición del término puede incluir documentos de protocolo y evidencia de validación. Para establecer los enlaces, la etiqueta de cada subgrupo debe estar vinculada al término metaDb real.

TODO: Actualmente, el archivo declarado en esta configuración no se utiliza, ya que el archivo cv.ra siempre se encuentra en su ubicación estándar.

Al declarar subgrupos, a menudo es útil ordenar la lista de subpistas por esos subgrupos. Al incluir una configuración sortOrder, el usuario organiza y navega con mayor facilidad conjuntos largos de subpistas. Si solo hay unas pocas subpistas en el compuesto, la clasificación puede tener poco valor y dragAndDrop puede ser una mejor opción. Actualmente, solo se pueden definir subgrupos en sortOrder, pero se prevé que esto se expandirá para incluir también etiquetas cortas y largas. La clasificación ocurrirá en los valores de etiqueta definidos en la configuración de subgrupo # y subgrupos. Al ordenar por etiquetas, se pueden definir órdenes no alfanuméricos.

NO PARA HUBS. Usado actualmente solo por ENCODE

Algunos conjuntos de pistas compuestas tienen sus propios directorios de archivos descargables y un CGI especial para acceder a esos archivos. Para ver la interfaz CGI para el directorio de descarga, el compuesto necesita un objeto para cada archivo definido en la metaDb. La estrofa trackDb para el compuesto también necesita tener definida la configuración fileSortOrder. La configuración se define como un conjunto de pares de variable = valor, que define el orden de clasificación predeterminado en las variables de metaDb. La parte "var" de cada par es un término definido en la metaDb para todos los objetos de archivo en el directorio. La "var" también puede ser "fileType" o "fileSize", que no están definidos en la metaDb. El "val" es el título que el usuario verá como el encabezado de la columna de la tabla ordenable de archivos. Este valor puede contener y '_' para espacios y códigos HTML limitados y caracteres especiales. Como siempre, se le anima a experimentar. El carácter de continuación '' debe usarse para dividir esta configuración larga en líneas legibles.

Este ejemplo muestra un compuesto con una subpista y dos subgrupos. La configuración de las dimensiones declara las dimensiones X e Y, que mostrarán una matriz 2D en la página de configuración del compuesto. Observe que el título del subgrupo cellLine contiene un espacio en blanco relleno con '_'. La segunda línea de celda, "CD14 +", incluye una codificación HTML para '+' en su título. Los dos subgrupos participan en el orden de clasificación predeterminado de las subpistas, pero cada uno tiene órdenes de clasificación no estándar. En el subgrupo cellLine, GM12878 ordena primero comenzando su etiqueta con "A". Los anticuerpos tienen números en sus títulos, pero las etiquetas expanden el número con "0" para rellenar el espacio. Esto asegura que H3K4me3 se clasifique antes que H3K36me3.

En este segundo ejemplo compuesto, se muestran una subpista y tres subgrupos. Como en el ejemplo anterior, la configuración de las dimensiones declara las dimensiones X e Y, lo que da como resultado una matriz 2D de las opciones "Anticuerpo" y "Línea de celda". Un tercer subgrupo de "Tratamiento" se declara como la dimensión "A", el usuario podrá seleccionar subpistas para esta dimensión a través de un cuadro de filtro de selección múltiple desplegable. Los tres subgrupos participan en el orden de clasificación predeterminado de las subpistas, y el subgrupo de tratamiento se clasifica en orden inverso de manera predeterminada. El tratamiento "Ninguno" ordena antes que todos los demás (en orden inverso) al comenzar la etiqueta con una "Z". Tenga en cuenta que para esta dimensión "A", el tratamiento "Ninguno" se seleccionará de forma predeterminada. Al declarar la configuración adecuada, el uso de subgrupos para organizar un compuesto puede ser bastante poderoso.

Este ejemplo ilustra que los subgrupos, las dimensiones y (en el caso de ENCODE) el vocabulario y los metadatos controlados deben estar vinculados para que el compuesto funcione completamente. Además, los términos reales, las "etiquetas" programáticas y los títulos visibles para el usuario tienen diferentes restricciones y roles que desempeñar en el establecimiento de esta cohesión. Las etiquetas de subgrupo se utilizan para organizar subpistas, mientras que las dimensiones con letras organizan la página de configuración para seleccionar más fácilmente subgrupos de subpistas. Para las pistas ENCODE, los subgrupos pueden representarse como "términos" de metadatos (distintos de las etiquetas) que a menudo se definen cuidadosamente mediante un vocabulario controlado. En el ejemplo anterior, la etiqueta "ab" se usa para organizar las subpistas en subgrupos, pero también está vinculada a la dimensión X. Esto asegura que los anticuerpos aparecerán como la dimensión horizontal en la matriz 2D en la página de configuración y la selección de un anticuerpo. seleccionará las subpistas asociadas. Por supuesto, el usuario no ve el anticuerpo como "ab" sino como "Anticuerpo".Yendo más allá, el término tal como se define en el vocabulario controlado es "anticuerpo", por lo que para todas las tablas y archivos asociados con esta pista compuesta, sus objetos metaDb deben contener una var de "anticuerpo" y se encontrará un anticuerpo dado (por ejemplo, H3K4me3). en el vocabulario controlado con un documento de validación. Todas las relaciones pueden ser confusas, pero la configuración de trackDb, si se hace correctamente, puede unir todos estos elementos en un paquete cohesivo agradable.

Este ejemplo muestra un compuesto con una subpista y dos subgrupos. La configuración de las dimensiones declara las dimensiones X e Y, que mostrarán una matriz 2D en la página de configuración del compuesto. Observe que el título del subgrupo cellLine contiene un espacio en blanco relleno con '_'. La segunda línea de celda, "CD14 +", incluye una codificación HTML para '+' en su título. Los dos subgrupos participan en el orden de clasificación predeterminado de las subpistas, pero cada uno tiene órdenes de clasificación no estándar. En el subgrupo cellLine, GM12878 ordena primero comenzando su etiqueta con "A". Los anticuerpos tienen números en sus títulos, pero las etiquetas expanden el número con "0" para rellenar el espacio. Esto asegura que H3K4me3 se clasifique antes que H3K36me3.

En este segundo ejemplo compuesto, se muestran una subpista y tres subgrupos. Como en el ejemplo anterior, la configuración de las dimensiones declara las dimensiones X e Y, lo que da como resultado una matriz 2D de las opciones "Anticuerpo" y "Línea de celda". Un tercer subgrupo de "Tratamiento" se declara como la dimensión "A", el usuario podrá seleccionar subpistas para esta dimensión a través de un cuadro de filtro de selección múltiple desplegable. Los tres subgrupos participan en el orden de clasificación predeterminado de las subpistas, y el subgrupo de tratamiento se clasifica en orden inverso de manera predeterminada. El tratamiento "Ninguno" ordena antes que todos los demás (en orden inverso) al comenzar la etiqueta con una "Z". Tenga en cuenta que para esta dimensión "A", el tratamiento "Ninguno" se seleccionará de forma predeterminada. Al declarar la configuración adecuada, el uso de subgrupos para organizar un compuesto puede ser bastante poderoso.

Puntos de vista

Además de los subgrupos, un solo compuesto se puede dividir en múltiples "vistas". Recuerde que un compuesto debe estar formado por subpistas del mismo tipo. Sin embargo, se pueden combinar diferentes tipos de subpistas en la misma pista compuesta si están en "vistas" separadas. Si bien las vistas son como subgrupos en muchos sentidos, pueden tener su propia configuración. Esto es necesario porque las vistas dentro de un compuesto pueden ser para diferentes tipos que tienen sus propios ajustes de configuración distintos, por ejemplo, bigBeds y bigWigs.

La organización "vista" (o "vista múltiple") se usa normalmente cuando los mismos datos básicos se almacenan en múltiples formatos y granularidades. Por ejemplo, una colección de vistas puede incluir alineaciones de secuencia de lectura corta (tipo bam), señales que representan acumulaciones de lecturas alineadas (tipo bigWig) y los picos (tipo bigBed) que se llaman en regiones donde la evidencia del resultado experimental es considerado significativo. Estas tres "vistas" de los mismos datos experimentales pueden verse de manera más informativa como un conjunto cohesivo dentro de una pista compuesta de múltiples vistas.

Las vistas se declaran como un subgrupo y como una estrofa de pista separada. Un compuesto con varias vistas solo tiene vistas como hijos y cada vista tendrá una o más subpistas como hijos. Los tres niveles deben definirse junto con el sangrado para que la jerarquía sea obvia.

Una nota sobre la herencia. Las subpistas heredarán la configuración de sus padres (tanto de los compuestos como de las vistas). Esto es cierto cuando la configuración es heredable, que suele ser el caso. Las excepciones obvias son configuraciones que son relevantes solo para el nivel superior. La herencia sigue el paradigma "más cercano a casa" en el que un ajuste en el nivel de la subpista tiene prioridad, seguido del ajuste del nivel de vista y, finalmente, el ajuste del nivel compuesto. Esta herencia se aplica tanto a la configuración predeterminada de trackDb como a las elecciones realizadas por un usuario. Las configuraciones realizadas por el usuario también involucran un elemento de tiempo: un cambio en una configuración de nivel principal anulará todas las configuraciones del mismo tipo para sus elementos secundarios. Si el usuario posteriormente realiza una configuración de subpista, anulará la configuración heredada para esa subpista.

Una anomalía dentro del esquema de herencia es la configuración de "visibilidad" (modo de visualización). A diferencia de otras configuraciones, la visibilidad es acumulativamente restrictiva desde el nivel de supertrack. Es decir, si el padre tiene una visibilidad de "denso" y la visibilidad del niño es "paquete", el niño se mostrará como "denso". Si el padre se cambia posteriormente al modo de visualización "completo", el niño ahora se mostrará en el modo "empaquetar". En el nivel de trackDb, la visibilidad predeterminada siempre es acumulativamente restrictiva. Sin embargo, cuando un usuario cambia explícitamente la visibilidad de una subpista para que sea mayor que la heredada de los padres, la visibilidad de esa subpista anulará la herencia. Si bien las sutilezas de la herencia pueden ser difíciles de explicar, a menudo son intuitivas en la práctica. En las subpistas compuestas, la configuración de visibilidad se hereda directamente del compuesto principal, por lo tanto, se ignorarán las líneas de visibilidad agregadas en el nivel de la subpista secundaria de un compuesto. También tenga en cuenta que se debe hacer referencia a la línea principal como myComposite principal si se desea que la subpista secundaria en un compuesto sea visible (marcada, seleccionada) de forma predeterminada.

Una vista siempre se declara tanto como un subgrupo como en una estrofa de pista. La declaración de subgrupo es como las declaraciones anteriores, pero el subgrupo de vista debe tener la vista de etiqueta y ser declarado como el primer subgrupo. Tenga en cuenta que la estrofa de la vista sigue a la estrofa compuesta con un nivel de sangría. Las subpistas seguirán su vista con un nivel adicional de sangría.

Una subtrack declara su pertenencia a una vista tanto como pertenencia a un subgrupo como con una configuración principal que hace referencia al nombre de la pista de la vista. Tenga en cuenta que una pista solo puede tener un padre. Cuando la pista principal de la subtrack es una vista, la pista compuesta es su implícito abuelo.

Si las subpistas dentro de una vista son configurables, entonces la vista tendrá los controles de configuración en un cuadro debajo del menú desplegable de visibilidad de la vista. Ese cuadro lleno de controles de configuración está oculto de forma predeterminada para que la interfaz de usuario no esté demasiado abarrotada. El usuario primero debe abrir la caja antes de que se vea su contenido. Si solo hay una vista con opciones de configuración, o si la vista es la más importante, el cuadro se puede abrir de forma predeterminada. Utilice esta configuración en la sección de configuración de la vista para predeterminar el cuadro de configuración como abierto.

Las pistas se pueden configurar de forma predeterminada si su tipo de pista lo admite, y las vistas y los compuestos se pueden configurar si el tipo de pista de sus hijos lo admite. Por último, las subpistas individuales se pueden configurar de forma predeterminada si su tipo de pista lo admite. A veces es conveniente desactivar la configuración. La configuración se puede volver a activar cuando se ha desactivado en un nivel superior. Por ejemplo, esto podría ser útil en una situación con un compuesto de múltiples vistas donde el nivel compuesto normalmente sería configurable, pero desea que solo una de las vistas y no todos los elementos secundarios de esa vista sean configurables. Si bien es posible que esta configuración rara vez se necesite, puede ayudar a evitar que el usuario vea sus datos de manera inapropiada.

El compuesto tiene dos vistas, una de las cuales se muestra, junto con una única subtrack que pertenece a esa vista. Observe que la vista no participa en la configuración de dimensiones, ya que es una dimensión implícita controlada por una fila de cuadros de diálogo de visibilidad en la parte superior de la página de configuración compuesta. Observe que la vista participa en la configuración sortOrder como otros subgrupos. En este ejemplo, la vista de picos contiene subpistas de bigBed que comparten los valores predeterminados de scoreFilter definidos en el nivel de vista. Casi cualquier configuración que sea común a todo el árbol se puede definir en el nivel compuesto, cualquier configuración que sea común a la vista se puede establecer en el nivel de la vista y cualquier configuración que sea específica de una subpista debe establecerse en ese nivel. Recordando la herencia, podemos ver que la subtrack mostrada hereda su tipo de track de la vista, pero tiene su visibilidad predeterminada limitada por el compuesto. Es decir, hereda la visibilidad empaquetada de la vista, pero el compuesto mostrará todas las subpistas visibles como densas.

Una cosa adicional a tener en cuenta es que esta pista compuesta es "tipo cama 3". Los compuestos no necesitan un tipo para definir su formato de datos, ya que todos los datos están asociados con subpistas. Además, los compuestos de múltiples vistas casi siempre tienen múltiples formatos de datos. Pero el "tipo" también controla qué opciones de configuración se pueden ofrecer para una pista. Normalmente, un compuesto de un solo nivel tiene el mismo tipo que todas sus subpistas y ofrece opciones de configuración de usuario en el nivel superior. Pero a un compuesto de múltiples vistas se le suele dar el "tipo cama 3" básico y ofrece opciones de configuración de usuario a nivel de vista. Existen excepciones a este patrón, pero son raras.

Pistas agregadas o superpuestas: multiWig

En algunos casos, los datos de varias pistas están tan estrechamente relacionados que tiene sentido verlos como una sola pista. El primer ejemplo de esto es la pista de superposición de señales (es decir, "multiWig"). Las pistas de superposición de señales muestran los datos de la señal de varias subpistas combinadas de varias formas diferentes, lo que hace posible ver los datos de varias pistas juntas en una vista condensada. El método de superposición predeterminado para multiWigs es como transparencias de colores, en el que todos los gráficos se dibujan uno encima del otro de tal manera que las regiones superpuestas tienen un color diferente. Otra opción es la superposición sólida, donde todos los gráficos se siguen dibujando superpuestos entre sí, pero sin transparencia. Se apila una tercera opción donde los valores de las subpistas se apilan uno encima de otro sin superposición, de modo que la altura total del meneo es la suma de todos los valores en las subpistas. El valor de la pista superpuesta supera simplemente la condensación de la imagen. En ocasiones, esta es la forma más eficaz de identificar relaciones ocultas en los datos subyacentes. Sin embargo, la pista superpuesta no debe usarse en exceso. Los intentos de superponer demasiadas subpistas pueden ocultar información importante, ya que las regiones con muchas señales en capas se vuelven demasiado oscuras para interpretarlas. Más de ocho subpistas en una sola superposición pueden resultar menos que ideales. Al igual que con los compuestos, es importante que las pistas multiWig tengan las mismas dimensiones de datos, es decir, una altura de señal de 100 debe ser interpretable de la misma manera para todo el conjunto de pistas. Si bien esto es cierto para un compuesto o una vista, es especialmente importante para las pistas superpuestas. No se puede superponer razonablemente una señal de 0-1 con otra señal de 0-1000.

Las pistas de superposición de señales se declaran de forma muy parecida a los compuestos simples. Sin embargo, en lugar de una configuración "compuesta", se declaran a sí mismos como un "contenedor" de "tipo multiWig". Al igual que los compuestos simples, todos los tipos de subtrack deben ser idénticos y el contenedor en sí debe declararse como del mismo tipo (por ejemplo, "bigWig"). También como un compuesto, el padre contenedor debe tener una configuración común para todos los hijos. A diferencia de los compuestos, los contenedores no pueden tener subgrupos ni vistas. Además, todas las subpistas dentro de un contenedor se configuran como una sola; no hay una configuración independiente de las subpistas individuales. Incluso cuando el usuario establece el método de superposición en ninguno y las subpistas se ven como señales separadas, todavía están configuradas como un conjunto.

La pertenencia a una pista de contenedores se declara a nivel de subtrack. Las subpistas deben definirse con sangría debajo de su contenedor principal.

Es importante declarar un método de agregación; de lo contrario, este conjunto de pistas se muestra como lo haría un compuesto, con restricciones adicionales. De las cuatro opciones, la configuración preferida es transparentOverlay. La configuración apilada dibujará los gráficos en modo apilado. La configuración solidOverlay no debe usarse si hay más de un par de pistas, y ninguna nunca debe ser la predeterminada. Sin embargo, el método de agregación es una opción configurable, por lo que el usuario puede desear establecerlo temporalmente en ninguno para ver las sutilezas ocultas en el modo de superposición.

Las subpistas de una superposición tienen colores individuales. Utilice esta configuración para mostrar el color asociado con cada uno en la página de configuración de la pista.

Este contenedor es para una superposición transparente de pistas de señales con 2 subpistas mostradas. Las pistas son del tipo "bigWig", aunque la primera subtrack es una peluca. Se permiten tales mezclas. Tenga en cuenta que la peluca tiene un rango ligeramente mayor que las demás. Las dimensiones de la señal son lo suficientemente cercanas en este caso, y el viewLimit predeterminado aplicado a todas las subpistas sugiere que cualquier señal por encima de 10 se interpreta como fuerte. Tenga en cuenta que cada subpista debe definir su color y, en este ejemplo, ese color se verá en la página de configuración de la pista, así como en la imagen. También observe que la primera subpista declara una tabla como distinta de su nombre de pista. Por lo general, el nombre de la tabla (o raíz del archivo remoto) es el mismo que el nombre de la pista. El nombre de la pista es una clave única. Pero es frecuente que una tabla o un archivo de datos remotos se muestre como una pista o subpista individual, así como como parte de una pista de superposición de señales. Establecer el nombre de la tabla aquí sugiere que una pista llamada "myFirstWig" también existe y muestra los mismos datos utilizados en esta pista superpuesta.

Este contenedor es para una superposición transparente de pistas de señales con 2 subpistas mostradas. Las pistas son del tipo "bigWig". Observe que la primera subpista tiene un rango ligeramente mayor que las demás. Las dimensiones de la señal son lo suficientemente cercanas en este caso, y el viewLimit predeterminado aplicado a todas las subpistas sugiere que cualquier señal por encima de 10 se interpreta como fuerte. Tenga en cuenta que cada subpista debe definir su color y, en este ejemplo, ese color se verá en la página de configuración de la pista, así como en la imagen.

Pistas personalizadas

Las pistas personalizadas son pistas que se cargan en el navegador a través de hgCustom CGI. A diferencia de las pistas alojadas localmente, o incluso las pistas de Data Hub, no tienen una estrofa trackDb.ra para definir su formato y comportamiento en el navegador. Sin embargo, admitirán la mayoría de las configuraciones como una pista alojada localmente del mismo tipo. Hay algunas configuraciones adicionales que se necesitan para admitir completamente las pistas personalizadas.

Lleno de nombre de base de datos de genoma / ensamblado.

Se usa solo una vez, para aplicar un desplazamiento a los datos del tipo de cama de una pista personalizada.

Solo interno & ndash usuario no establecido. Lleno de todas las líneas de estilo trackDb.ra de la entrada hgCustom.

Solo interno & ndash usuario no establecido. Se llena si las pistas personalizadas se cargan a través de una URL.

Solo interno & ndash usuario no establecido.

No estoy seguro de cómo se distingue de tdbType.

Solo interno & ndash usuario no establecido. Lleno con el número de columnas del lecho según se determina en hgCustom CGI.

Solo interno & ndash usuario no establecido. Lleno con el primer elemento de cama en bedList en hgCustom CGI.

Solo interno & ndash usuario no establecido. Lleno de nombre si es un archivo de basura que contiene una descripción HTML para una pista personalizada.

Solo interno & ndash usuario no establecido. Lleno de URL ingresada por el usuario para la pista

Solo interno & ndash usuario no establecido. Lleno de posición de entrada hgCustom.

Solo interno & ndash usuario no establecido. Lleno de nombre de fábrica personalizado según lo determinado en hgCustom CGI.

Solo interno & ndash usuario no establecido. Lleno de elemento de cama slCount en hgCustom CGI.

Solo interno & ndash usuario no establecido. Lleno con el nombre del archivo de basura que contiene los datos maf cargados en hgCustom CGI.

Solo interno & ndash usuario no establecido. Obsoleto: Lleno con un tamaño de índice mínimo para db que no "suavizará" juntos los chromNames.

Solo interno & ndash usuario no establecido. Lleno de línea de "seguimiento" como lo ingresó el usuario en hgCustom CGI.

Solo interno & ndash usuario no establecido.

Contiene el tipo que debería entrar en tdb- & gttype.

Solo interno & ndash usuario no establecido. Lleno con el nombre del archivo de basura que contiene datos binarios de wib tal como se cargan en hgCustom CGI.

Solo interno & ndash usuario no establecido. Lleno con el nombre del archivo de basura que contiene los datos de la peluca cargados en hgCustom CGI.


¿Cómo anotar un archivo .broadpeak con 9 columnas? - biología

ATACProc: una tubería para procesar datos ATAC-seq

Desarrollador: Sourya Bhattacharyya

Supervisores: Dr. Ferhat Ay y Dr. Pandurangan Vijayanand

Instituto de Inmunología de La Jolla, CA 92037, EE. UU.

ATACProc es una tubería para analizar datos ATAC-seq. Actualmente se admiten conjuntos de datos que involucran uno de los cuatro genomas de referencia, a saber, hg19, hg38, mm9 y mm10. Las características importantes de esta canalización son:

Admite datos con formato fastq o BAM de extremo único o emparejado.

Genera un resumen de alineación y estadísticas de control de calidad.

Pico de llamadas usando MACS2, para múltiples umbrales FDR (0.01 y 0.05)

Generación de pistas BigWig sin procesar y con cobertura normalizada para visualizar los datos en el navegador del genoma UCSC.

Análisis de tasa de descubrimiento irreproducible (IDR) (https://github.com/nboley/idr) entre un conjunto de llamadas de picos o incluso un conjunto de archivos de alineación de entrada (BAM) (en cuyo caso, los picos se estiman primero) correspondientes a un conjunto de réplicas de ATAC-seq biológicas o técnicas.

Nuevo en la versión 2.0: Apoyar el descarte de lecturas que caen en regiones genómicas incluidas en la lista negra

Nuevo en la versión 2.0: Admite la extracción de lecturas libres de nucleosomas (NFR), una o más regiones que contienen nucleosomas (indicadas como + 1M), para el análisis de huella de TF.

Nuevo en la versión 2.0: Compatibilidad con el paquete ATAQV (https://github.com/ParkerLab/ataqv) para generar estadísticas resumidas en un conjunto de muestras.

Versión 2.1 - julio de 2020

Cambio menor de la sintaxis de eliminación de duplicados de picard, de acuerdo con la versión 2.8.14 de la herramienta picard Recomendamos usar esta versión (o posterior)

Versión 2.0 - noviembre de 2019

Incluye huella de TF, descarte opcional de regiones genómicas incluidas en la lista negra, análisis de motivos

Estadísticas resumidas actualizadas que incorporan soporte para el paquete ATAQV (https://github.com/ParkerLab/ataqv)

Paquete R descartado ATACseqQC (https://bioconductor.org/packages/release/bioc/html/ATACseqQC.html) y operaciones correspondientes, principalmente debido a su complejidad de tiempo y problemas de confiabilidad.

Se lanzó la primera versión de la canalización ATAC-seq, que admite la generación de métricas de control de calidad, llamadas de picos, pistas de señales para visualizar en el navegador del genoma UCSC.

También admite IDR entre un conjunto de picos / alineaciones para un conjunto de réplicas.

Documentos / enlaces para comprender los controles de calidad de ATAC-seq:

https://github.com/crazyhottommy/ChIP-seq-analysis (muy útil contiene muchos artículos y enlaces para comprender los datos de ChIP-seq y ATAC-seq)

Comprender las llamadas pico

Entendiendo la huella de TF

Comprensión del análisis IDR

Se deben instalar los siguientes paquetes / bibliotecas antes de ejecutar esta canalización:

Entorno R (hemos utilizado 3.4.3)

El usuario también debe instalar los siguientes paquetes de R, ejecutando el siguiente comando dentro del indicador de R:

install.packages (c ("optparse", "ggplot2", "data.table", "plotly"))

Herramientas PICARD (hemos usado la versión 2.8.14 ahora anteriormente usábamos la versión 2.7.1) https://broadinstitute.github.io/picard/

Utilidades "bedGraphToBigWig", "bedSort", "bigBedToBed", "hubCheck" y "fetchChromSizes" - para descargar desde el repositorio UCSC http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/

HOMER (recomendamos utilizar la última versión) http://homer.ucsd.edu/homer/

El paquete ataqv (https://github.com/ParkerLab/ataqv). El usuario debe descargar el archivo de versión de GitHub (.tar.gz) en una ubicación conveniente, extraerlo y proporcionar la ruta correspondiente en un archivo de configuración (mencionado a continuación).

El primer usuario necesita instalar el módulo RGT usando los siguientes comandos:

Una carpeta rgtdata se crearía dentro del directorio de inicio. El siguiente paso es configurar esa carpeta escribiendo los siguientes comandos:

Luego, el usuario debe configurar los datos de configuración del motivo, mediante la ejecución de los siguientes comandos (es preferible que se ejecuten en el entorno qsub / cluster)

El usuario debe incluir el PATH de las bibliotecas / paquetes mencionados anteriormente dentro de su variable SYSTEM PATH. Alternativamente, las PATRONES de instalación para algunos de estos paquetes deben mencionarse en un archivo de configuración separado (que se describe a continuación)

Se deben instalar los siguientes paquetes / bibliotecas para ejecutar el código IDR

IDRCode (https://drive.google.com/file/d/0B_ssVVyXv8ZSX3luT0xhV3ZQNWc/view?usp=sharing). El usuario debe descomprimir el archivo y guardarlo en un lugar conveniente. Se debe proporcionar la ruta de este archivo para ejecutar el código IDR.

El usuario primero debe clonar esta canalización en una ubicación conveniente, usando el siguiente comando:

Un script de muestra "pipeline_exec.sh" contiene comandos de ejecución básicos, para invocar el ejecutable principal "pipeline.sh" (ubicado dentro de la carpeta "bin"). El ejecutable tiene las siguientes opciones de línea de comando:

Entradas en el archivo de configuración (primer parámetro)

El archivo de configuración sigue el formato parámetro = valor

Y debe llenarse con las siguientes entradas:

Descripción de la salida de la canalización ATAC-seq

Dentro de la carpeta OutDir (especificado por la opción de configuración -d) existen los siguientes archivos (f) y carpetas (F):

Resumiendo un conjunto de muestras de ATAC-seq

Supongamos que un directorio "/ home / sourya / Results" contiene las siguientes carpetas: 1, 2, 3, 4,. cada uno correspondiente a la salida para procesar muestras individuales de ATAC-seq.

Para obtener una lista resumida de métricas de rendimiento para estas muestras, utilice el script Análisis / ResSummary.r, utilizando la siguiente sintaxis.

Comando para ejecutar códigos IDR

La canalización actual admite el análisis IDR entre una lista de archivos de picos ATAC-seq o entre una lista de archivos de alineación (BAM). En el segundo caso, primero se analizan los archivos BAM y se submuestrean para contener el mismo número de lecturas (número mínimo de lecturas contenidas en las entradas) y, posteriormente, se estiman los picos a partir de estos archivos BAM (submuestreados) utilizando MACS2. A continuación, estos picos se aplican para el análisis IDR.

El script "sample_IDRScript.sh" incluido dentro de este paquete muestra las siguientes dos funciones (ambas están incluidas en la carpeta "IDR_Codes"):

Describir el resultado del análisis IDR

En el directorio de salida especificado "OutDir" mencionado en el script IDR, existen los siguientes archivos (f) y carpetas (F):

Para cualquier consulta, genere un problema de GitHub o, alternativamente, envíenos un correo electrónico:


Discusión

Los experimentos de ChIP-seq se utilizan cada vez más para investigar cómo los TF de unión a ADN específicos de secuencia regulan la expresión génica. En este informe, presentamos "zingers": cuatro clases de TFBS que muestran un enriquecimiento significativo en el sitio de unión, inesperadamente proximal al peakMax, a través de experimentos de unión de ChIP-seq para otros TF. Dentro de los experimentos de TF ChIP-seq individuales, se observa hasta un 45% de picos que carecen del motivo de unión de TF canónico y contienen un motivo de zinger, con una media del 12% (mediana del 9%). Aunque sesgadas a los picos de puntuación más bajos en otros datos de TF ChIP-seq, las mismas regiones asociadas a zinger tienden a ser picos de puntuación alta dentro de los conjuntos de datos ChIPped para el TF de zinger, lo que indica que estas regiones probablemente estén unidas por el TF de zinger. Los picos del motivo zinger se derivan de 257,631 regiones (vecindarios) en el genoma, el 36% de las cuales se observan de forma recurrente a través de conjuntos de datos para diversos TF, en marcado contraste con los vecindarios que contienen solo el motivo del TF fragmentado, que se repite con relativa poca frecuencia. Algunas regiones que carecen tanto del motivo ChIPped TF como del motivo Zinger, también se observan de forma recurrente. Tanto el motivo de Zinger como las vecindades de motivo no identificado se colocan proximales a las regiones estructurales definidas por la presencia de complejos de grupos cohesin y polycomb. Tener en cuenta la contribución de las regiones asociadas a zinger a los estudios globales de secuencias reguladoras será una consideración para el análisis futuro de los datos de ChIP-seq.

La comprensión del mecanismo bioquímico subyacente mediante el cual se observan las regiones asociadas con zinger en conjuntos de datos tan diversos aún no se ha resuelto. Sin embargo, con base en los hallazgos de esta investigación, presentamos un modelo de "estación de carga" consistente con nuestro estado de conocimiento (Figura 6). Se propone que las proteínas cohesin / polycomb y zinger participen en la demarcación y estabilización de las interacciones entre segmentos de ADN en las que se unen los TF. En estas "estaciones", el TF fragmentado puede estar presente a través de interacciones directas (Figura 6B) o indirectas (Figura 6C) con el ADN, y en cis- o trans- Arreglos con un TFBS zinger. En un experimento de ChIP, asumiendo la unión covalente de la TF en viruta y el ADN emparejado con cohesina, podrían surgir los patrones de enriquecimiento de motivos observados en este informe, incluida la presencia o ausencia de motivos tanto para la TF en viruta como para un zinger. Alternativamente, o posiblemente en combinación, pueden existir regiones que contienen zinger (Figura 6D) en las que están presentes muchas proteínas (a nivel de población celular). Dichas regiones pueden contener una amplia gama de epítopos y, por lo tanto, es más probable que se recuperen en experimentos de ChIP-seq, especialmente con anticuerpos policlonales. Dentro de este modelo, los TF pueden "visitar" regiones marcadas con cohesin y zinger, lo que da como resultado una recuperación baja pero constante de lecturas en un experimento de ChIP-seq. El modelo explica la detección recurrente de picos de motivos de zinger, la proximidad de los picos a las regiones de interacción de cohesión y por qué los motivos de zinger pueden estar presentes en la secuencia incluso cuando el motivo de TF fragmentado está ausente.

Un modelo para tener en cuenta el enriquecimiento del motivo Zinger en conjuntos de datos de ChIP-seq. Se presenta un modelo de estación de carga TF que es compatible con el enriquecimiento observado de motivos zinger en diversos datos y líneas celulares de TF ChIP-seq. El óvalo azul oscuro representa el TF fragmentado, el óvalo magenta representa los zingers, los óvalos de colores restantes representan TF u otras proteínas o complejos que se acoplan con el ADN, y el bucle rojo representa las proteínas del grupo cohesina y polycomb. Las hebras grises son cromatina. (A) Descripción general de una estación de carga. Múltiples proteínas pueden interactuar dentro de una región local, desde la cual los TF pueden dispersarse para buscar otras regiones reguladoras. Los zingers y componentes estructurales como la cohesina y las proteínas del grupo polycomb son características clave. Los paneles B, C y D presentan escenarios específicos bajo los cuales los segmentos de la estación de carga de ADN podrían recuperarse en un experimento de ChIP-seq. (B) Enlace directo. El TF ChIPped se une directamente a un TFBS, mientras que un motivo de zinger está presente en trans (superior) o en cis (más bajo). (C) Encuadernación indirecta. El TF fragmentado está presente debido a una interacción indirecta, que involucra una proteína mediadora. El motivo de zinger vuelve a estar presente en trans (superior) o en cis (más bajo). (D) Eventos no específicos. Numerosas proteínas están presentes en la estación de carga, proporcionando una abundancia de epítopos, aumentando así la probabilidad de ser recuperadas en un experimento de ChIP-seq.

Desde una perspectiva mecanicista más amplia, un mecanismo de estación de carga es consistente con la teoría de "salto-salto-salto" sobre cómo los TF buscan de manera eficiente el núcleo para llegar a sus TFBS [27]. El modelo de estación de carga propuesto está respaldado por la literatura reciente. Faure et al.[23] proponen un papel para la cohesina en la estabilización de grandes complejos proteína-ADN. Mientras se revisaba este manuscrito, Taipale et al.[28] publicó un estudio utilizando la línea celular LoVo que sugiere que la cohesina participa en mantener la cromatina abierta durante la división celular para facilitar que los TF se reubiquen nuevamente en esas regiones una vez que se complete la división.

El contenido de zinger de cada conjunto de datos de ChIP-seq debe evaluarse, en consonancia con un esfuerzo creciente para evaluar críticamente dichos datos [12], [29], [30]. Por ejemplo, el conjunto de datos STAT1 (GM12878) ChIP-seq excede el 30% de los picos con motivos zinger proximales al peakMax, mientras que los motivos STAT1 ocurren solo en la frecuencia de fondo. Proponemos un enfoque general para el estudio del contenido de zinger. Para cada conjunto de datos de ChIP-seq, las regiones de los picos deben escanearse para detectar la presencia del motivo TF en chips en las proximidades del peakMax. Los picos que carecen de un motivo TF en chips deben compararse con los barrios zinger recurrentes (archivo adicional 12: Conjunto de datos S1). La parte del conjunto de datos que se superpone a los vecindarios da una idea de la especificidad general del experimento.


Los datos de la anotación

Las diversas anotaciones están disponibles en la Página de conjuntos de datos de Isophonics pero es recomendable continuar leyendo a continuación para comprender las anotaciones y cómo se derivaron.

Las anotaciones publicadas aquí se dividen en cuatro categorías: acordes, claves, segmentaciones estructurales y tiempos / compases. El objetivo es permitir una recuperación de información musical más impulsada por la música mediante la combinación de varias funciones que están intrínsecamente vinculadas. Por supuesto, también puede utilizar las anotaciones de una única característica musical por separado.

Publicamos todos los datos de dos formas fundamentalmente diferentes, a saber, un formato de texto sin formato (con extensión .lab o .txt, según el tipo de datos) y RDF. Los datos RDF no son tan fáciles de leer por humanos, pero permiten usar los datos en un contexto de Web Semántica más amplio. Tenga en cuenta que, si bien los datos de texto se proporcionan como archivos separados para cada canción y cada función, solo hay un archivo RDF por canción. Siempre que tenga el archivo de audio original, el archivo RDF se puede abrir directamente en Sonic Visualiser y se mostrarán todas las anotaciones de esa canción.

Estamos orgullosos de publicar estos datos, pero tenga en cuenta que nunca serán exactamente "correctos", por varias razones:

  • la música siempre es ambigua y diferentes personas escucharán cosas diferentes en la misma música, por lo que una etiqueta solo puede reflejar la verdad percibida de una persona o un grupo de personas,
  • el medio en el que presentamos las anotaciones no es perfecto, y la sintaxis y, en general, el método con el que se anotan nuestras características aún puede mejorarse, y finalmente
  • Pueden ocurrir errores tipográficos y otros errores debido a malas interpretaciones por parte del anotador (que van más allá de la diferencia en la percepción como se indicó anteriormente).

Las anotaciones vienen con "etiquetas de confianza" (ver más abajo, y en los archivos RDF individuales), para indicarle hasta qué punto creemos que esta última fuente de "error tipográfico" de incorrección es relevante.

A continuación, encontrará comentarios más específicos sobre los tipos de anotaciones individuales para los archivos de texto. Los archivos RDF deben ser autoexplicativos para el usuario experto.

Acordes

Cumplir con la sintaxis de Chris Harte detallada en su tesis doctoral de 2010 [2] (que reemplaza al documento de propuesta ISMIR de 2005 [3]). Los archivos .lab son archivos de texto delimitados por espacios en blanco con tres columnas, correspondientes a la hora de inicio, la hora de compensación y la etiqueta de acorde, respectivamente. Nuestro juicio de confianza:

  • The Beatles: revisado varias veces por Christopher Harte y la comunidad MIR, úselo con confianza.
  • Zweieck, Queen: verificado por Matthias, úselo con moderada confianza.
  • Carole King: No se han revisado cuidadosamente, utilícelo con cuidado.

Segmentaciones

Se trata de segmentaciones estructurales, etiquetado de versos, estribillos, estribillos, etc. Los archivos .lab son archivos de texto delimitados por espacios en blanco con tres columnas, correspondientes a tiempo de inicio, tiempo de desplazamiento y etiqueta de segmento, respectivamente. Cada segmento comienza en el límite de una barra y los límites de la sección deben ser bastante fiables. Las partes (como un verso) que se repiten parcialmente (tal vez más adelante en la canción) pero que por lo demás aparecen como una, generalmente se tratan como una, es decir, sin subdivisiones. Sin embargo, el etiquetado no es muy consistente hasta ahora (observe las etiquetas de "silencio"), por lo que usar las etiquetas para evaluar si un algoritmo detecta correctamente que dos segmentos son "iguales" puede causar dolor. Utilícelo generalmente con cuidado.

Estas etiquetas denotan regiones de tonalidad en una canción. Los archivos .lab son archivos de texto delimitados por espacios en blanco con tres columnas, correspondientes a la hora de inicio, la hora de compensación y la etiqueta de clave, respectivamente. Por lo general, utilícelo con cuidado, especialmente las teclas de los Beatles: la clave principal siempre estará anotada, pero los cambios de clave pueden omitirse en algunos archivos.

  • Queen, Zweieck, Carole King: revisado por Matthias Mauch, usar con moderada confianza.
  • The Beatles: a menudo solo se da la clave principal. Puede que sea la única clave o no. Úselo con cuidado.

Beats

Los archivos de tiempo vienen como archivos .txt delimitados por espacios en blanco, que la primera columna indica el tiempo de tiempo, la segunda columna es la posición métrica. Las etiquetas de barra se pueden derivar de eso utilizando solo momentos en los que la posición métrica es "1".

  • The Beatles: revisado por Matthew Davies. Úselo con moderada confianza.
  • Zweieck: revisado por Helena du Toit y Matthias Mauch. Úselo con moderada confianza.

Audio

Usamos el audio que se proporciona en los siguientes CD:

  • Carole King: Tapiz, Ode Records, 4931802003
  • Queen: Greatest Hits I, Parlophone, 0777 7 8950424
  • Queen: Greatest Hits II, Parlophone, CDP 7979712
  • Queen: Greatest Hits III, Parlophone, 7243 52389421
  • The Beatles: Please Please Me, CDP 7 46435 2
  • The Beatles: With the Beatles, CDP 7 46436 2
  • The Beatles: A Hard Day’s Night, CDP 7 46437 2
  • The Beatles: Beatles en venta, CDP 7 46438 2
  • The Beatles: Help !, CDP 7 46439 2
  • Los Beatles: Rubber Soul, CDP 7 46440 2
  • Los Beatles: Revolver, CDP 7 46441 2
  • Los Beatles: el sargento. Pepper's Lonely Hearts Club Band, CDP 7 46442 2
  • The Beatles: Magical Mystery Tour, CDP 7 48062 2
  • The Beatles: The Beatles (el álbum blanco), CDS 7 46443 8
  • Los Beatles: Abbey Road, CDP 7 46446 2
  • The Beatles: Let It Be, CDP 7 46447 2
  • Zweieck: Zwielicht (póngase en contacto para obtener información o para comprar)

¿Cómo anotar un archivo .broadpeak con 9 columnas? - biología

Los archivos de entrada de ejemplo están debajo de los datos. Aquí hay un script de ejemplo: example.sh

Anota variantes en MAF (https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/) con la anotación OncoKB. Admite tanto python2 como python3.
Obtenga más detalles en la línea de comando usando python MafAnnotator.py -h.

Recomendamos procesar archivos VCF mediante vcf2maf con isoformas de OncoKB antes de usar MafAnnotator aquí.

Aún puede usar el formato MAF para anotar alteraciones atípicas, como MSI-H, TMB-H, EGFR vIII. Vea más ejemplos AQUÍ.

Obtenga más detalles en la línea de comando usando python CnaAnnotator.py -h.

OncoKB ofrece andar la variante estructural. Pero en el anotador, solo anotamos la fusión funcional. El formato de fusión para la deleción intragénica es GENE-intragenic o GENE-GENE. Para otras fusiones, utilice GENEA-GENEB o GENEA-GENEB Fusion.

Obtenga más detalles en la línea de comando usando python FusionAnnotator.py -h.

Datos clínicos (combinar MAF + CNA + Fusion)

Puede combinar todas las anotaciones a nivel de muestra / paciente utilizando el anotador de datos clínicos.

Obtenga más detalles en la línea de comando usando python ClinicalDataAnnotator.py -h.

Anotar con HGVSp_Short, HGVSp, HGVSg o cambio genómico

OncoKB MafAnnotator admite la anotación de la alteración con el formato HGVSp, HGVSp_Short, HGVSg o Genomic Change. Especifique el tipo de consulta con el parámetro -q. Los valores aceptables son HGVSp_Short, HGVSp, HGVSg y Genomic_Change (no distingue entre mayúsculas y minúsculas). Consulte data / example.sh para ver ejemplos.
Si no especifica el tipo de consulta, MafAnnotator intentará averiguar el tipo de consulta basándose en los encabezados.

Para HGVSp_Short, el anotador toma la alteración de la columna HGVSp_Short o Alteration
Para HGVSp, el anotador toma la alteración de la columna HGVSp o Alteration
Para HGVSg, el anotador toma la alteración de la columna HGVSg o Alteration
Para Genomic_Change, el anotador toma el cambio genómico de las columnas Chromosome, Start_Position, End_Position, Reference_Allele, Tumor_Seq_Allele1 y Tumor_Seq_Allele2.

La anotación con Genomic_Change es relativamente lenta. Primero debemos anotar la variante con GenomeNexus (https://www.genomenexus.org/) y luego obtener la anotación una por una. Hay un plan para mejorar este método. Si está anotando una gran cantidad de datos, priorice el uso de otro tipo de consulta si corresponde.

Anotar con diferentes genomas de referencia (GRCh37, GRCh38)

OncoKB MafAnnotator admite la anotación de la alteración con el genoma de referencia GRCh37 y GRCh38.

El anotador obtendrá el genoma de referencia de la columna del archivo MAF NCBI_Build o Reference_Genome.
Si no hay un genoma de referencia especificado en el archivo, usaremos el genoma de referencia predeterminado mediante el parámetro -r.

Puede especificar el genoma de referencia predeterminado mediante el parámetro -r (esto solo se aplica a MafAnnotator.py).
Los valores aceptables son GRCh37, GRCh38 (distingue entre mayúsculas y minúsculas).

Si no se especifican ambos valores, el anotador utilizará el genoma de referencia predeterminado de OncoKB, que es GRCh37.


Ver el vídeo: How to annotate text while reading (Diciembre 2022).