domingo, 25 de noviembre de 2012

Identificación de los determinantes de la estadía en Unidades de Cuidados Intensivos usando redes neuronales artificiales



La predicción de la duración de la estadía de los pacientes en la UCI a su ingreso, permite planificar adecuadamente la atención. Un modelo de estadía basado en múltiples variables de admisión origina información clínica relevante, como por ejemplo factores de riesgo o patologías determinantes, y es apropiado para ser tratado por medio de las redes neuronales artificiales (RNA).
La predicción de la duración de la estadía presenta problemas que se pueden agrupar en dos categorías: 1) determinación de la gravedad de la enfermedad de los pacientes que ingresan a la UCI, para lo cual se utilizan sistemas de índices de gravedad como el APACHE (Acute Physiology and Chronic Health Evaluation) y APS (Acute Physiology Score), TISS (Therapeutic Intervention Score System), PSI (Physiologic Stability Index), que intentan establecer la gravedad de los pacientes en un lapso que abarca desde el momento de la admisión hasta las 24 h siguientes. Cada uno de estos índices caracteriza adecuadamente el estado fisiológico del paciente, aunque se han realizado críticas fundadas respecto de la inclusión de conocimiento clínico en el momento de la admisión, como se describe en algunas publicaciones, y 2) una gran cantidad de trabajos intentan predecir estadía, usando métodos estadísticos lineales multivariados. Estos estudios adolecen de una extrema simplificación del modelo, que exige variables no correlacionadas, limitando el número de variables y no permitiendo el tratamiento simultáneo de diferentes tipos de variables (nominales, continuas o binarias). Estos modelos tampoco consideran las complejas interacciones que existen entre las diferentes variables. Las dificultades descritas aumentan en el caso de una UCI, por la diversidad de la patología y por el compromiso de múltiples órganos y sistemas.
Recientemente se han publicado estudios que utilizaron modelos no lineales para predecir estadías, como las RNA, pero que están circunscritos a aplicaciones particulares y de este modo no satisfacen las exigencias necesarias para el modelado de los casos que requieren las prestaciones de una UCI.
Una red neuronal artificial es un modelo computacional compuesto de elementos matemáticos que se han diseñado para realizar aproximadamente el trabajo que efectúan las neuronas. Está constituida por una capa que recibe y organiza las entradas, una capa de "neuronas" intermedia y una capa de "neuronas" de salida, unidas por conexiones que representan las sinapsis neuronales. Los patrones particulares son representados por los valores de las conexiones. Las redes neurales pueden ser entrenadas por un método de cálculo de conexiones denominado "back-propagation", que es una extensión del método de los mínimos cuadrados utilizado en la regresión lineal.
En el presente estudio se utilizaron las variables más relevantes del índice APACHE II y se cuantificó la información clínica de admisión, usando las hipótesis diagnósticas para conformar un nuevo factor (Diagnósticos de Ingreso), que representó la situación de los pacientes al ingreso, lo que condujo a un proceso de enriquecimiento de los datos por la adición de información clínica de expertos, que permitió cuantificar los diagnósticos asociados a cada paciente. Estos procedimientos llevaron a una mejor cobertura de la información requerida para la predicción de la estadía.
Para optimizar el modelo se utilizó el paradigma de RNA multicapa y el algoritmo de aprendizaje "Back propagation", que permitió utilizar diferentes tipos de variables y representar adecuadamente las no-linealidades y sinergismos de las condiciones de ingreso de los pacientes.

MATERIAL Y MÉTODO

Recolección de datos: Los datos fueron obtenidos de pacientes de dos UCI para adultos de la ciudad de Santiago: 1) UCI del Hospital Barros Luco Trudeau (HBLT), que realiza en promedio 350 internaciones anuales, y que aportó 162 casos a este estudio; 2) UCI del Hospital de Carabineros, que realiza 150 internaciones anuales en promedio, y que aportó 132 casos. La muestra obtenida constó de 294 casos (243 sobrevivientes y 51 fallecidos), con un rango de estadía que varió entre 1 y 42 días.
Las variables estudiadas en cada paciente se agruparon en cuatro factores: Epidemiológico, Condición de gravedad, Indice fisiológico (APS) y Diagnósticos de ingreso. Cada uno de estos factores estuvo compuesto a su vez por variables individuales, alcanzando un total de 36 variables de entrada (Tabla 1). Los datos fueron recolectados retrospectivamente de los registros clínicos de cada unidad, por alumnos del quinto año de la Carrera de Medicina de la Facultad de Ciencias Médicas de la Universidad de Santiago de Chile y enfermeras de la UCI del HBLT. La mayoría de las variables pudo ser cuantificada directamente pues fueron binarias o continuas. La incorporación del factor Diagnóstico de ingreso originó un problema de cuantificación, ya que se debió incluir conocimiento médico para convertirlo en variables numéricas tratables por la red neuronal.


Cuantificación de los diagnósticos. El procedimiento adoptado para cuantificar los diagnósticos consistió de cuatro pasos:
1) Se dividieron los 1.200 diagnósticos (para cada paciente se consideró un diagnóstico principal y hasta 7 estados co-mórbidos de relevancia) en 17 grupos que representaron sistemas fisiológicos y grupos mórbidos (Tabla 2).


2) A continuación, los especialistas clasificaron cada diagnóstico en tres diferentes categorías: crónico, agudo e hiperagudo (excepto el caso de los diagnósticos de trauma, que fueron considerados todos agudos o hiperagudos).
3) En el tercer paso, se debió tener en cuenta que en cada sistema fisiológico o grupo mórbido podía existir más de una de estas categorías, o existir una combinación de éstas y se generó un sistema de clasificación que tenía asociado un orden creciente de gravedad, como se muestra en la Tabla 3.



4) Finalmente, se desarrolló un algoritmo que asignó un valor de gravedad a cada uno de los 17 grupos para cada paciente según la combinación de diagnóstico obtenida. Así, cada paciente quedó representado por 36 variables numéricas que conformaron los patrones de entrada ingresados a la red neuronal.
Modelado. Las RNA son representaciones lógicas altamente simplificadas de grandes grupos de neuronas simuladas en "software". Estos modelos no requieren información a priori, y obtienen la información exclusivamente desde un conjunto de datos. El fundamento de estos modelos se basa en el funcionamiento de las redes de neuronas del hipocampo17,19, donde la información se almacena en las sinapsis neuronales. De este modo, en una estructura de red previamente fijada, para desarrollar el modelo sólo se requiere un método de cálculo (denominado aprendizaje) que permite obtener los valores adecuados de las sinapsis que logren un error mínimo entre las salidas del modelo y los datos de salida resultantes del fenómeno real. Desde un punto de vista funcional, estos modelos son similares a una regresión estadística, la cual relaciona variables independientes (entradas) con una variable dependiente (salida), mediante una función lineal. La ventaja de una RNA del tipo hetero-asociativa (que relaciona variables de entrada y salida con una o más capas de neuronas intermedias, denominadas capas ocultas) sobre una regresión, es que permite encontrar cualquier tipo de relación entre las variables, proceso que es frecuente en la práctica clínica. El modelo utilizado en este trabajo estuvo formado por una red hetero-asociativa con una capa intermedia, como se muestra en la Figura 1. El método utilizado para obtener los valores de las sinapsis (representadas por las conexiones en la Figura 1) fue el "Back propagation" que permite a la red aprender efectivamente. Este algoritmo se basa en una aplicación iterativa del método de los mínimos cuadrados usado en el cálculo de regresión. El aprendizaje (cálculo iterativo) se basa en la presentación simultánea de los datos de entrada y los datos de salida a la red, para todo el conjunto de casos (ciclo de entrenamiento). El principal problema del aprendizaje es lograr disminuir el error de salida sin introducir sesgo, para lo cual se requiere evaluar el error en un conjunto diferente de casos (conjunto de prueba) que no fueron usados en la etapa de aprendizaje. Durante el aprendizaje se debe ajustar básicamente dos parámetros: la tasa de aprendizaje (< 1, correspondiente al paso del método del gradiente) y el número de neuronas de la capa oculta. Un método adecuado para eliminar el sesgo del modelo y obtener el número adecuado de neuronas en la capa intermedia, es usar el método de la validación cruzada el cual consiste en separar el conjunto de datos en varios grupos, dejando uno para prueba y el resto para entrenamiento. Posteriormente se cambia el grupo de prueba y se continúa hasta probar todos los grupos. Después de lograr una red debidamente entrenada, es posible obtener la importancia o el impacto de las variables de entrada sobre la salida (en este caso la estadía). Para lograr este fin, se requiere realizar un análisis de sensibilidad de la red, el cual consiste en producir variaciones en las entradas y observar los cambios en las salidas. Así, la entrada que produzca los mayores cambios en la salida será aquella que cause un mayor impacto en la estadía.

Figura 1. Modelo de la Red Neuronal Artificial para estimar estadía, con cuatro factores de entrada (36 variables), una capa oculta y la estadía como salida.


RESULTADOS
En nuestro estudio, para el entrenamiento de redes que utilizaron 36 variables de entrada, los modelos desarrollados emplearon de 10 a 60 neuronas en la capa oculta. Los mejores resultados se obtuvieron con 45 neuronas en la capa oculta, con una tasa de aprendizaje de 0,5 en la capa oculta; 0,1 en la capa de salida, realizándose 2.714 ciclos de entrenamiento, con lo que se obtuvo un error de 11% (4,5 días).
La evaluación de los errores individuales demostró que los errores mayores se producen en las estadías largas (> 30 días), mientras que los casos en los cuales la estadía es menor que 30 días el error promedio es de 8,7% (3,56 días de promedio). La variación en este caso resultó ser de ± 0,4 días (IC 95%) y el coeficiente de correlación entre las estadías reales y los valores predichos por el modelo es r=0,90 (p <0,001). El análisis de sensibilidad permitió calcular el porcentaje de importancia que tuvo cada variable en predecir la estadía. Estos resultados se presentan en la Tabla 4, que indica el porcentaje que corresponde a cada factor en el que se agrupan las variables.



Con el fin de examinar más detalladamente la selección de variables se desarrolló un nuevo modelo, que incluyó las 12 variables mostradas en la Tabla 4. Cuando se utilizó una arquitectura de 29 neuronas en la capa oculta, con una tasa de aprendizaje de 0,5 y en 2.203 ciclos de entrenamiento, se logró un error de 8,8% (3,6 ± 0,4 días, IC 95%). El análisis de sensibilidad en este modelo reducido estableció un orden similar de las variables mostradas en la Tabla 4, sólo descendió en importancia la variable "Infección al ingreso", mientras se hizo más relevante la variable "Frecuencia respiratoria".

DISCUSIÓN

Para evaluar el poder de predicción del modelo se puede realizar una comparación simple entre los valores predichos por la red y la predicción realizada por el valor promedio de las estadías, para un diagnóstico particular. Las predicciones de estadía obtenidas utilizando redes neuronales son mejores que aquellas obtenidas por un sistema de predicción por promedio, como se muestra en la Tabla 5, al comparar los errores promedios para el grupo de diagnósticos seleccionados con el análisis de sensibilidad.



Una medida adecuada de comparación entre diferentes modelos es el uso del coeficiente de correlación. Una selección de trabajos recientes de predicción de estadía en UCI, mediante modelos lineales, permite destacar los trabajos de Clark et al y Chan et al que muestran coeficientes de correlación de r=0,76 (con 2.672 pacientes) y r=0,85 (con 1.064 pacientes), al usar variables del índice APACHE como entradas.

Entre los trabajos que usan RN para predecir estadía se puede destacar la comparación con modelos lineales que realiza Zernikow et al para 2.144 pacientes admitidos en unidades de neonatología, donde los modelos lineales logran correlaciones de r=0,85 y las RN de r=0,87. Se debe hacer notar que para los elevados valores de r y número de casos que se presentan en la literatura, todos los coeficientes de correlación mencionados son significativos con valores p <0,001.
Los errores obtenidos con conjuntos independientes de prueba fueron relativamente bajos para la predicción de 30 días (3,56 días), dado que pudo existir un error no previsible en los datos por razones netamente administrativas, ya que en numerosas ocasiones se puede retrasar la salida de los pacientes hasta por dos días. El origen más probable para el aumento de los errores cuando la estadía superó los 30 días, fue la falta de información en algunas variables de entrada y no la capacidad del modelo, dado que los resultados con el modelo reducido (12 variables) tuvieron errores similares a aquellos obtenidos con el modelo general (36 variables). Problemas similares han sido descritos por otros autores.
Desde el punto de vista de la evolución clínica, los pacientes con permanencias mayores a 30 días, fueron influidos en forma importante por las eventuales complicaciones que se produjeron al interior de la UCI. Para caracterizar estos cambios, proponemos usar en el futuro índices que evalúen estados de evolución, los cuales adquieren información durante la estada del paciente.
El análisis de sensibilidad apoyó la propuesta inicial de incluir las hipótesis diagnósticas, ya que el factor "Diagnósticos de ingreso" resultó responsable del 51,65% de la variación de la estadía. Este hallazgo solucionó uno de los principales problemas por el cual son criticados los índices de gravedad, la exclusión del conocimiento clínico al ingreso del paciente.
El proceso de cuantificación diagnóstica es difícil y requiere del aporte fundamental de los especialistas, que garanticen su reproducibilidad en cualquier especialidad médica. El presente estudio demostró que los diagnósticos de ingreso priman en importancia predictiva sobre otras variables cuantitativas, como los parámetros fisiológicos.
Como un hecho relativamente sorprendente, las patologías de los sistemas digestivo, respiratorio y renal son responsables de una parte importante de la prolongación de la estadía, primando sobre las patologías neurológicas y cardíacas, que no aparecen en nuestro estudio como determinantes de la prolongación de la estadía.
La inclusión de patologías psiquiátricas resultó adecuada, ya que se incluyen en ellas los diagnósticos de alcoholismo, que en general presentan permanencia prolongada.
En base al presente estudio, las perspectivas de desarrollo a futuro de las UCI debieran incluir la utilización de sistemas computacionales que recojan información al ingreso y efectúen predicciones en línea al momento de la admisión. También debiera considerarse la incorporación de los costos de las prestaciones en la unidad y estudiar su relación con la estadía.

IDENTIFICACIÓN DE LATIDOS CARDÍACOS ANÓMALOS CON REDES NEURONALES DIFUSAS


 Los sistemas neuro–difusos pertenecen al grupo de los sistemas híbridos inteligentes, que combinan las principales características de las redes neuronales artificiales con los postulados de la lógica difusa, con el objetivo de superar las dificultades encontradas cuando se pretende aplicar lógica difusa a sistemas representados numéricamente por conjuntos de datos, o también cuando se pretende aplicar la teoría de las redes neuronales a sistemas representados por la información lingüística de conjuntos difusos. Ni los sistemas de razonamiento difuso ni las redes neuronales artificiales pueden tratar, por sí mismos, problemas que involucren simultáneamente conocimientos numéricos y lingüísticos (Sinha y Karray, 2002).
En la implementación de los sistemas neuro–difuso, las redes neuronales multicapa han logrado gran aceptación. Wang y Mendel (1992) propusieron originalmente el uso del algoritmo de retropropagación para el entrenamiento de sistemas difusos en tareas de búsqueda de los pares deseados de vectores de entrada-salida. La idea esencial de esta propuesta es ver el sistema neuro–difuso como una red neuronal de alimentación directa y lograr, mediante entrenamiento progresivo, un correcto mapeo no-lineal, cuya eficiencia se ve mejorada con la incorporación de reglas lingüísticas. Así, el sistema neuro–difuso utiliza tanto información numérica (en la forma de pares de entrada-salida) como información lingüística (en la forma de reglas IF-THEN).
La generación neuro–difusa de reglas (rule generation) comprende la extracción de reglas (rule extraction), referida a la extracción de conocimientos de una red neuronal utilizando en el proceso los parámetros de la red, y el refinamiento de reglas (rule refinement), que consiste en la extracción de un conocimiento procesado y refinado, también de una red neuronal inicializada con conocimientos crudos.

Las limitaciones más destacadas del modelado difuso son la ausencia de métodos sistemáticos para transformar el conocimiento humano en bases de datos y reglas de un sistema de inferencia, y la necesidad de contar con procedimientos efectivos en el ajuste de las funciones de membresía para minimizar los errores de salida.
Una arquitectura de red neuronal difusa ha sido propuesta por Jyh-Shing Jang (1992) y se denomina  Sistema de Inferencia Difuso basado en Redes Adaptativas o ANFIS (Adaptive–Network–Based Fuzzy Inference System). La arquitectura propuesta sirve como base para la elaboración automática de conocimientos en la forma de reglas difusas del tipo IF-THEN. Mediante la identificación de las funciones de membresía apropiadas, el sistema puede generar los pares deseados de entrada-salida
El objetivo del presente trabajo es utilizar un sistema neuro–difuso para identificar latidos cardíacos anómalos en señales electrocardiográficas obtenidas in vivo. 
Materiales y Métodos
Señales electrocardiográficas: Corresponden a datos in vivo de sujetos normales y de pacientes con patologías cardíacas. Doce sujetos, todos del sexo masculino,  de edades comprendidas entre 27 y 57 años, conformaron la población de voluntarios. El conjunto de señales logradas en nuestro laboratorio corresponde a los registros identificados como serie 300 (307 al 320). Este banco de señales  in vivo comprende un total combinado de 14.636 latidos cardíacos. De los 12 sujetos, 6 presentaban antecedentes de afecciones cardíacas, 4 de ellos con patología coronaria severa y necrosis tisular en ventrículo, por infarto agudo de miocardio (IAM), y un total de 98 extrasístoles ventriculares (EV). Los otros 2 sujetos cardiópatas protagonizaron episodios de dolor precordial. Sin embargo en estos últimos 2 casos, uno de ellos registró tan solo una extrasístole ventricular en 1040 latidos normales;  el último sujeto, ninguna EV, no obstante los prolongados tiempos de registro electrocardiográfico, que excedieron los intervalos usuales en la práctica clínica rutinaria.
Todas las señales de esta serie 300 fueron registradas a partir de una Derivación II modificada (con electrodos pectorales, no en miembros) y han sido almacenadas con el formato de las señales de la base de datos de arritmias del MIT-BIH, compatible con la norma ISO 9660 (Moody y Mark, 2001; MIT-BIH, 2004). De esta manera –y a los fines de nuestros estudios– aseguramos la compatibilidad entre los registros in vivo y los del MIT-BIH.


Sistema de Adquisición: Hemos utilizado el sistema integral de adquisición y procesamiento de señales electrocardiográficas desarrollado en nuestro laboratorio y que fuera presentado en trabajos previos (Depiaggio y colaboradores, 2002; Pisarello y colaboradores, 2003). 
Red Neuronal Difusa: Nuestra red neuronal difusa se basa en la arquitectura ANFIS, que utiliza técnicas de aprendizaje neuro–adaptativas. Dado un conjunto de  datos de entrada/salida, ANFIS puede construir un sistema de inferencia que ajuste los parámetros de la función  de membresía utilizando el algoritmo de retropropagación, permitiendo que el sistema difuso aprenda de los datos que está modelando.
Un red adaptativa es un red multicapa de alimentación directa, en la cual cada nodo cumple una función particular (función de nodo) sobre las señales de entrada al nodo, utilizando un conjunto de parámetros específicos de ese nodo.
La forma de las funciones de nodo puede variar de nodo a nodo, según el diseño que se elija. Por convención, y a los fines de reflejar distintas capacidades de adaptación, se utilizan nodos circulares y cuadrados. Los nodos cuadrados (nodos adaptables) tienen parámetros modificables. Los nodos circulares son nodos fijos, sin modificación (Jang y Sun, 1993). 
  
Discusión de Resultados

La red difusa fue entrenada con la señal Nº 106 de  la Base de Datos de Arritmias del MIT-BIH, ya que presenta suficientes muestras para el entrenamiento y para la prueba. La señal Nº 106 exhibe un total de 2027 latidos cardíacos, de los cuales 1507 son normales y 520 son anómalos (i.e. contracciones ventriculares prematuras).

Conclusiones

De los valores obtenidos en nuestros ensayos se concluye que el clasificador implementado con redes neuronales difusas no supera la performance de otros paradigmas. En particular, los modelos multicapa de alimentación directa y de Kohonen de codificación del vector, que presentáramos en trabajos anteriores (Barbosa y colaboradores, 2000; Kleisinger y colaboradores, 2001), exhiben valores de mayor eficacia clasificatoria.


Redes neuronales artificiales para el diagnóstico y la predicción de la supervivencia en el cáncer de colon


RNAs son la regresión no lineal computacional dispositivos que se han utilizado durante más de 45 años en la clasificación y la predicción de la supervivencia en varios sistemas biomédicos, incluyendo el cáncer de colon. Descritos en el presente artículo es la teoría de las tres capas libre adelante redes neuronales artificiales con backpropagation error, que se utiliza ampliamente en campos de la biomedicina, y en un enfoque metodológico para su aplicación para la investigación del cáncer, como por ejemplo el cáncer de colon. Revisión de la literatura muestra que las aplicaciones de estas redes han mejorado la exactitud de la clasificación del cáncer de colon y de predicción de la supervivencia en comparación con otros métodos estadísticos o clinicopathological. Exactitud, sin embargo, debe ser ejercida en el diseño, la utilización y la publicación de resultados biomédica máquina-aprendizaje que emplean dispositivos tales como RNAs en la literatura de todo el mundo con el fin de reforzar la confianza en la calidad y la fiabilidad de los datos notificados.


Las solicitudes de RNAs para diagnostico de cáncer de colon

Microarray de datos se están convirtiendo en herramientas poderosas en el diagnóstico clínico, especialmente para la clasificación de tumores, ya que al mismo tiempo record los niveles de expresión génica de miles de genes. Estos datos se caracteriza por la alta dimensionalidad, porque un gran número de la expresión génica de entrada muy superior al número de toma de muestras, que pueden llevar a overfitting. Esta situación hace necesaria, ya sea a través de la reducción de dimensionalidad utilizando un algoritmo de reducción, o la selección de un pequeño conjunto de los genes, como aporte a la clasificación supervisada en un camino , o mediante el empleo de la validación cruzada para evitar el overfitting .
Ambos métodos de agrupamiento no supervisado y supervisado han sido los métodos empleados para la clasificación . He empleado el cáncer de colon como ejemplo para mostrar cómo RNAs supervisadas tienen una ventaja sobre los métodos de la agrupación (que se consideraban incapaces de detectar sutiles diferencias biológicas entre clases) en la clasificación en caso de algún conocimiento previo de las clases está disponible.

Existe una importante distinción sutil entre adenomas esporádicos de colon y el cáncer (ZEC) y la enfermedad inflamatoria tazón relacionado con displasia o cáncer (IBDNs) porque ZEC puede ser administrado por polipectomía por sí solo, mientras que IBDNs requieren un riesgo para la vida colectomía subtotal. Un microarray estudio fue realizado para evaluar la capacidad de ANN y el análisis de conglomerados jerárquico de discriminar entre estos tipos de cáncer basado en hibridadas 8064 clones de cDNA a mRNAs derivados de 39 especímenes neoplásica de colon . GeneFinder software se utiliza para seleccionar clones 1192 que mostró significativamente diferente media de los cuadrados de los niveles de expresión entre IBDNs y ZEC (P = 0,001). Un BP FFNN, con dos capas ocultas y 1192 entradas (en representación de los genes seleccionados) se construyó, y la salida se fijó en 0 para IBDNs y 1 para ZEC utilizando el programa de software MatLab (Math Works, Inc, Nattick, MA). El RNA es la formación adquirida mediante un conjunto de 5 IBDNs y 22 ZEC. La prueba comprende el resto de datos de las muestras consiste en 3 IBDNs y 9 ZEC. ANN aproximaciones se evaluó mediante análisis de regresión que comparó los resultados esperados (Meta) con ANN después de la formación de salida, y unpaired 2 caras "t" de Student también se utilizó para evaluar la diferencias estadísticas entre la red definida IBDNs versus ZEC (es decir, 0 vs 1). Jerárquicos agrupación se ha realizado mediante el programa Cluster (Universidad de Stanford, Palo Alto, CA). Considerando que la red correctamente diagnosticados 12 de 12 muestras de ciego, el análisis no jerárquicos, probablemente a causa de ruido en la base de datos. Sólo mediante un proceso iterativo para reducir el número de clones utilizados para el diagnóstico a 97, el grupo de análisis podría separar los dos tipos de lesiones. Incluso con este clon reducido conjunto, ANN todavía conserva su capacidad para el diagnóstico correcto de los dos tipos de cáncer de colon.

Otro estudio microarrays empleado una combinación de selección de método en relación con el conjunto de redes neuronales para el análisis de datos de cáncer, entre ellos el de colon. El principio del método se basa en el supuesto de que la combinación de distintos mecanismos de selección de función para elegir mejor clasificado de los genes va a obtener más información, y mediante el uso de un conjunto que combina la salida de varios RNAs en un total de la producción, a sus características pueden ser analizadas de manera más eficaz debido A la estabilidad de las redes y la solidez de la respuesta [39]. Los autores emplean la base de datos pública de Alon et al que contiene 62 muestras (40 tumores de colon y 22 muestras de tejido normal).

Escogieron 2000, de los genes expresados ~ 6500, en base a su confianza en el nivel medido expresión de montar redes consta de 100 miembros. No se dispone de muestras frescas para la realización de pruebas de la red de conjunto. No obstante, la utilización de este conjunto, la exactitud de predicción de la adopción de la licencia-un-a la validación cruzada (LOOCV) y 10 veces la validación cruzada fue 91,94% y 90,32%, respectivamente, frente al 85,48% obtenido mediante el uso de diferentes algoritmos de impulsar, en combinación con LOOCV. Sin embargo, un inconveniente de los RNAs conjunto enfoque es el aumento de complejidad computacional y el tiempo adicional necesario para realizar el análisis.

Solicitud de FFNN de predicción de la supervivencia en el cáncer de colon

Actualmente es difícil predecir cuándo y si un paciente va a morir tras la cirugía y el tratamiento de quimioterapia adyuvante del cáncer de colon, sobre todo en el intermedio duques; ByC etapas, utilizando técnicas disponibles sobre la base de estadificación TNM histopatológico y empleando univariado y análisis de regresión multivariante .
A 5 años de seguimiento de los datos de 334 pacientes tratados por cáncer colorrectal (CCR) se utilizaron para capacitar a 284 pacientes y 50 pacientes utilizando validar 6 FFNN con BP, que contiene de 2 a 15 unidades ocultas diseñado para predecir la muerte en 9, 12, 15, 18, 21 y 24 meses utilizando la función de activación logística con salida continua en el intervalo de 0, 1. Por otra parte, el entrenado de 12 meses ANN se aplicó entonces a 2 años de seguimiento de pacientes de una segunda institución. La red de las predicciones de que los pacientes mueren dentro de los 12 meses también se compararon con los de consultoría de dos cirujanos [42]. Los resultados mostraron que todos los 6 RNAs son capaces de lograr una exactitud de predicción de muerte a los IC del 95%: ≥ 80% en la primera institución, con una sensibilidad y especificidad de 60% y 88%, respectivamente. Por otra parte, el entrenado de 12 meses ANN logrado una exactitud de predicción de la muerte del 90% (95% CI 84-96), cuando se aplica a la muerte de la segunda institución, en comparación con una exactitud de 79% (71 - 87) y el 75 % (66 - 84) para los cirujanos CRC. Así, RNAs predijo resultados de CRC muerte más precisa que los métodos clinicopathological. Además, una vez formados en una institución, RNAs son capaces de predecir con precisión los resultados para los pacientes de una institución no relacionadas .

En otro estudio para predecir una sobrevida a 5 años después de tratamiento primario de carcinoma de colon en la Base de Datos Nacional del Cáncer (NCDB), el Reino Unido, 37500 casos atendidos entre los años 1985 y 1993, y no se utiliza en el modelo de desarrollo, se analizaron por un ANN Y en comparación con el modelo estándar paramétrico de Cox de regresión logística. Un FFNN con dos capas ocultas que figura 4 y 3 neuronas ocultas, respectivamente, y una capa de salida fue seleccionado. Once variables de entrada han sido seleccionados por un método de análisis de sensibilidad (incluyendo raza, sexo, edad, localización del tumor, el tamaño, comportamiento; histopatología; cirugía, quimio o radioterapia, hormonal o de otro tipo de cáncer de la terapia dirigida), y sólo las variables que resultaron significativas en Pérdida de precisión cuando se conservaron cayó en la final arquitectura de la red, el entrenamiento de la red se logra mediante el uso de una norma de segundo orden ascendencia método del gradiente conjugado. Un conjunto de validación que representan el 25% de los datos seleccionados en forma aleatoria, fue empleado para la validación. El área bajo la curva ROC fue utilizado para medir la precisión de la predicción global de la red. El ROC ANN arrojó una superficie de 87,6%. En la sensibilidad a la mortalidad de 95%, la especificidad fue del 41%. La regresión logística arrojó una zona ROC de 82%, y la sensibilidad a la mortalidad de 95% dio una especificidad de sólo 27%. Así, la ANN encontrado un fuerte patrón en la base de datos de predicción de sobrevida a 5 años, mientras que la regresión logística producido algo menos exacta, pero los buenos resultados [10]. En otro estudio realizado por el mismo grupo de investigadores destinado a la predicción de 5 años de supervivencia asociada con CRC utilizando el mismo ANN y de regresión de Cox y ROC para comparar datos, el modelo de regresión logística dio un resultado de 66% y el 78 dio ANN %, Lo que indica que la red neuronal enfoque fue más superior en comparación con el análisis de regresión para predecir la supervivencia del cáncer de colon.
Un cuarto estudio comparó la estadificación TNM RNAs a predecir 5 años la supervivencia de los pacientes con CCR, utilizando el área bajo la ROC como medida de la precisión. Variables para evaluar la atención de los pacientes (PCE) la base de datos utilizada para el análisis incluyeron: edad, raza, sexo, signos y síntomas (por ejemplo, los cambios en los hábitos intestinales, obstrucción, ictericia, sangre oculta, y otros), el diagnóstico y el alcance de las pruebas de la enfermedad (Por ejemplo, endoscopia, radiografía, el enema de bario, la colonoscopia, CT, biopsia, antígeno CEA, rayos X, pruebas de función hepática y otros), y histoipathological parámetros.

Una prueba de conjunto de 5007 casos de capacitación, y un conjunto de 3005 la validación de los casos se utilizó.
Un FFNN BP compuesto por una entrada, una oculta y una capa de salida se utilizó. El RNAs predicción de sobrevida a 5 años fue significativamente más preciso que el estadiaje TNM (ANN TNM 0,815 versus 0,737, p <0,001). Agregando comúnmente recogido variables demográficas y anatómicas a la TNM variables aumentado aún más la exactitud de la ANN (0.869). Así, el RNAs fueron significativamente más preciso que el sistema de estadificación TNM cuando ambos utilizan la TNM factores pronósticos solo, y los factores pronósticos añadido a ANN aumentado aún más el pronóstico predictivo exactitud .

http://viaclinica.com/article.php?pmc_id=1208946

las redes neuronales se han convertido en una herramienta muy beneficiosa para la salud en general, la  identificacion de factores que influyen en el desarrollo de las enfermedades,  lograr detectar enfermedades a tiempo, etc. son cosas que pueden permitir obtener resultados optimos.



 ELEMENTOS DE UNA RED NEURONAL

Los elementos individuales de cálculo que forman los modelos de sistemas neuronales artificiales, reciben el nombre de Elementos de Procesado o Neuronas Artificiales. Cada unidad realiza un trabajo muy simple: recibe impulsos de otras unidades o de estímulos externos y calcula una señal de salida que propaga a otras unidades y, además, realiza un ajuste de sus pesos. Este tipo de modelos, es inherentemente paralelo en el sentido de que varias unidades pueden realizar sus cálculos al mismo tiempo. El elemento de procesado más simple suele tener el esquema mostrado en la Fig. 1.7.

Figura 1.7 Esquema de una Neurona Artificial.
(1.1)
Donde:
  1. a: es la salida de la neurona.
  2. Fk: es la función de transferencia de la neurona.
  3. Wij: es la matriz de pesos.
  4. Pi:es el patrón de entrenamiento.
  5. bk:es el umbral de activación de la neurona.

Este esquema de elemento de procesado tiene las siguientes características:
  • Cada elemento de procesado puede tener varias entradas asociadas a propiedades diferentes.
  • La entrada de tendencia es opcional (valor constante).
  • Las entradas pueden ser: Excitadoras, inhibidoras, de ganancia, de disparo fortuito o de amortiguamiento.
  • Las entradas están ponderadas por un factor multiplicativo de peso o intensidad de conexión que resaltan de forma diferente la importancia de cada entrada.
  • Cada elemento de procesado tiene un valor de activación calculado en función del valor de entrada neto (calculado a partir de las entradas y los pesos asociados a ellas). En algunos casos, el valor de activación, depende además de la entrada neta del valor anterior de activación.
  • Una vez calculado el valor de activación, se determina un valor de salida aplicando una función de salida sobre la activación del elemento de procesado.

CONEXIÓN ENTRE UNIDADES.
En la mayor parte de los casos se asume que cada unidad recibe contribuciones aditivas de las unidades que están conectadas a ellas. La entrada total de la unidad k es la suma ponderada de las entradas que recibe más el término de offset.


(1.2)
Donde:
  1. nk: es la salida lineal de la neurona.
  2. Wij: es la matriz de pesos.
  3. Pi:es el patrón de entrenamiento.
  4. bk:es el umbral de activación de la neurona.

Cuando el peso de la contribución es positivo se considera que la entrada es excitatoria y cuando el peso es negativo que es inhibitoria.
Este tipo de expresiones que calculan la entrada total se denominan reglas de propagación y, en general, pueden tener diferentes expresiones.

FUNCIONES DE ACTIVACIÓN Y SALIDA

Además de la regla de propagación es necesario poseer expresiones para las funciones de activación (calculan la activación en función de la entrada total) y funciones de salida (calculan la salida en función de la activación).
La función de activación calcula la activación de la unidad en función de la entrada total y la activación previa, aunque en la mayor parte de los casos es simplemente una función no decreciente de la entrada total. Los tipos de función más empleados son: la función escalón, función lineal y la función sigmoidal.
La función de salida empleada usualmente es la función identidad y así la salida de la unidad de procesado es idéntica a su nivel de activación.
Las redes neuronales están formadas por un conjunto de neuronas artificiales interconectadas. Las neuronas de la red se encuentran distribuidas en diferentes capas de neuronas, de manera que las neuronas de una capa están conectadas con las neuronas de la capa siguiente, a las que pueden enviar información.
La arquitectura más usada en la actualidad de una red neuronal, se presente en la Fig. 1.8, la cual consiste en:
  1. Una primera capa de entradas, que recibe información del exterior.
  2. Una serie de capas ocultas (intermedias), encargadas de realizar el trabajo de la red.
  3. Una capa de salidas, que proporciona el resultado del trabajo de la red al exterior.

Figura 1.8 Esquema de una red neuronal antes del entrenamiento.
 Los círculos representan neuronas, mientras las flechas representan conexiones entre las neuronas.
  
El número de capas intermedias y el número de neuronas de cada capa dependerá del tipo de aplicación al que se vaya a destinar la red neuronal.

FUNCIONES DE ACTIVACIÓN Y SALIDA
Un modelo más académico que facilita el estudio de una neurona, puede visualizarse en la Fig. 1.9.


Figura 1.9 Neurona de una sola entrada.

Donde:
  1. nk: es la salida lineal de la neurona.
  2. Wij: es la matriz de pesos.
  3. Pi:es el patrón de entrenamiento.
  4. bk:es el umbral de activación de la neurona.
Las entradas a la red serán ahora presentadas en el vector p, que para el caso de una sola neurona contiene solo un elemento, w sigue representando los pesos y la nueva entrada b es una ganancia que refuerza la salida del sumador n, la cual es la salida neta de la red; la salida total está determinada por la función de transferencia , la cual puede ser una función lineal o no lineal de n, y que es escogida dependiendo de las especificaciones del problema que la neurona tenga que resolver; aunque las RNA se inspiren en modelos biológicos no existe ninguna limitación para realizar modificaciones en las funciones de salida, así que se encontrarán modelos artificiales que nada tienen que ver con las características del sistema biológico.

Función escalón (Hardlim)
La Fig. 1.10, muestra como esta función de transferencia acerca la salida de la red a cero, si el argumento de la función es menor que cero y la lleva a uno si este argumento es mayor que uno. Esta función crea neuronas que clasifican las entradas en dos categorías diferentes, característica que le permite ser empleada en la red tipo Perceptrón.
Figura 1.10 Función de Transferencia Escalón (Hardlim).

(1.3)

El ícono para la función escalón (Hardlim) reemplazará a la letra f en la expresión general, cuando se utilice la función Hardlim.
Una modificación de esta función puede verse en la Fig. 1.11, la que representa la función de transferencia Escalón Simétrica (Hardlims) que restringe el espacio de salida a valores entre 1 y –1.


Figura 1.11 Función de Transferencia de Escalón Simétrica.

(1.4)

Función de Transferencia lineal (purelin)
La salida de una función de transferencia lineal es igual a su entrada, la cual se representa en la figura 1.12.
a = n
Figura 1.12 Función de Transferencia Lineal (purelin).

(1.5)
En la gráfica del lado derecho de la figura 1.12, puede verse la característica de la salida a de la red, comparada con la entrada p, más un valor de ganancia b, neuronas que emplean esta función de transferencia son utilizadas en la red tipo Adaline.

Función de Transferencia sigmoidal (logsig)
Esta función toma los valores de entrada, los cuales pueden oscilar entre más y menos infinito, y restringe la salida a valores entre cero y uno, de acuerdo a la expresión:

(1.6)
Esta función es comúnmente usada en redes multicapa, como la Backpropagation, en parte porque la función logsig es diferenciable, como se muestra en la Fig. 1.13.
Figura 1.13 Función de Transferencia Sigmoidal. 

ESTRUCTURAS GENERALES DE LAS REDES NEURONALES
PERCEPTRÓN

En 1943, Warren McCulloc y Walter Pitts originaron el primer modelo de operación neuronal, el cual fué mejorado en sus aspectos biológicos por Donald Hebb en 1948. En 1962 Bernard Widrow propuso la regla de aprendizaje Widrow-Hoff, y Frank Rosenblatt desarrolló una prueba de convergencia, y definió el rango de problemas para los que su algoritmo aseguraba una solución. El propuso los 'Perceptrons' como herramienta computacional, mostrado en la Fig. 1.15.

Figura 1.15 Modelo del Perceptrón Simple.

BACKPROPAGATION

En la red multicapa, se interconectan varias unidades de procesamiento en capas, las neuronas de cada capa no se interconectan entre sí. Sin embargo, cada neurona de una capa proporciona una entrada a cada una de las neuronas de la siguiente capa, esto es, cada neurona transmitirá su señal de salida a cada neurona de la capa siguiente. La Fig. 1.16 muestra un ejemplo esquemático de la arquitectura de este tipo de redes neuronales.
Figura 1.16 Red Backpropagation.

HOPFIELD

La Red de Hopfield que se muestra en la Fig. 1.17, es recurrente y completamente conectada. Funciona como una memoria asociativa no lineal que puedealmacenar internamente patrones presentados de forma incompleta o con ruido. De esta forma puede ser usada como una herramienta de optimización. El estado de cada neurona puede ser actualizado un número indefinido de veces, independientemente del resto de las neuronas de la red pero en paralelo.

Figura 1.17 Red de Hopfield de 3 Unidades.


KOHONEN

Existen evidencias que demuestran que en el cerebro existen neuronas que se organizan en muchas zonas, de forma que las informaciones captadas del entorno a través de los órganos sensoriales se representan internamente en forma de capas bidimensionales. Por ejemplo, en el sistema visual se han detectado mapas del espacio visual en zonas de córtex (capa externa del cerebro). También en el sistema auditivo se detecta organización según la frecuencia a la que cada neurona alcanza la mayor respuesta (organización tono tópica).

Aunque en gran medida esta organización neuronal está predeterminada genéticamente, es probable que de ella se origine mediante el aprendizaje. Esto sugiere, por tanto, que el cerebro podría poseer la capacidad inherente de formar mapas topológicos de las informaciones recibidas del exterior. De hecho, esta teoría podría explicar su poder de operar con elementos semánticos: algunas áreas del cerebro simplemente podrían crear y ordenar neuronas especializadas o grupos con características de alto nivel y sus combinaciones. Se trataría, en definitiva, de construir mapas espaciales para atributos y características.