Unidad 3_Algoritmos no basados en gradiente

$ 5.43

Optimización bayesiana para resolver la función kernal multimodal Su nombre Curso Otros datos Introducción Optimización bayesiana La optimización bayesiana es un algoritmo común sin gradiente o no basado en gradiente. Este modelo utiliza una para explicar los datos e inferir los valores óptimos del parámetro mediante una estimación [máxima verosimilitud] o [máxima a posteriori] (Herrera Seara et al., 2022). Si es necesario, también podemos inferir una [distribución posterior] completa en lugar de una estimación puntual . Con el aumento de la complejidad de los datos, los modelos con un mayor número de parámetros suelen ser necesarios para explicar los datos razonablemente bien. Los métodos que utilizan modelos con un número fijo de parámetros se denominan métodos paramétricos (Edward, 2006). En este algoritmo de optimización bayesiana, el número de hiperparámetros depende del tamaño del conjunto de datos. Esto se utiliza en el estudio para resolver la función Kernel es una técnica multimodal con un peso se asigna a cada objetivo observado y para predecir el valor objetivo en un nuevo punto se calcula una media ponderada: Una optimización bayesiana es un [proceso aleatorio] donde a cualquier punto $mathbf{x} en mathbb{R}^d$ se le asigna una variable aleatoria y donde la distribución conjunta de un número finito de estas variables es a su vez gaussiana (Edward, 2006): En la ecuación , , y . es la función media y es común utilizar como GPs son lo suficientemente flexibles como para modelar la media arbitrariamente bien. es una función de núcleo o función de covarianza definida positiva. Así, un proceso gaussiano es una distribución sobre funciones cuya forma (suavidad, …) está definida por . Si los puntos y se consideran similares por el kernel los valores de la función en estos puntos, y , se puede esperar que sean similares también (Edward, 2006; Matsumoto et al., 2021). donde y . Con datos de entrenamiento y nuevos datos de entrada es una matriz , una matriz y una matriz . Utilizando reglas estándar para condicionar gaussianos, la distribución predictiva viene dada por. donde . Aunque la ecuación cubre el ruido en los datos de entrenamiento, sigue siendo una distribución sobre las predicciones sin ruido . Para incluir además el

Reviews

There are no reviews yet.

Only logged in customers who have purchased this product may leave a review.