Modèle de mélanges gaussiens

Étant donné que le GMM est entièrement déterminé par les paramètres de ses différents composants, un GMM ajusté peut donner une estimation des probabilités des points de données à l`échantillon et hors échantillon, connus sous le nom d`estimation de la densité. En outre, étant donné que l`échantillonnage numérique à partir d`une distribution gaussienne individuelle est possible, on peut facilement échantillonner à partir d`un GMM pour créer des jeux de données synthétiques. Ici, le mélange de 16 gaussiens ne sert pas à trouver des grappes de données séparées, mais plutôt à modéliser la distribution globale des données d`entrée. Il s`agit d`un modèle génératif de la distribution, ce qui signifie que le GMM nous donne la recette pour générer de nouvelles données aléatoires distribuées de façon similaire à notre entrée. Par exemple, voici 400 nouveaux points tirés de cette adaptation GMM à 16 composants à nos données d`origine: l`algorithme de maximisation des attentes peut être utilisé pour calculer les paramètres d`une distribution de modèle de mélange paramétrique (l`ai et θi). Il s`agit d`un algorithme itératif avec deux étapes: une étape d`attente et une étape de maximisation. Des exemples pratiques d`EM et de modélisation de mélanges sont inclus dans les démonstrations du SOCR. Un indice que les données peuvent suivre un modèle de mélange est que les données semble multimodal, c.-à-d. il y a plus d`un «pic» dans la distribution des données. Essayer d`adapter une distribution multimodale avec un modèle unimodal (un «pic») donnera généralement un mauvais ajustement, comme illustré dans l`exemple ci-dessous. Étant donné que de nombreuses distributions simples sont unimodales, une façon évidente de modéliser une distribution multimodale consisterait à supposer qu`elle est générée par plusieurs distributions unimodales.

Pour plusieurs raisons théoriques, la distribution la plus couramment utilisée dans la modélisation des données unimodales du monde réel est la distribution gaussienne. Ainsi, la modélisation des données multimodales comme un mélange de nombreuses distributions gaussiennes unimodale rend le sens intuitif. De plus, les GMMs conservent un grand nombre des avantages théoriques et computationnels des modèles gaussiens, ce qui les rend pratiques pour modéliser efficacement des jeux de données très volumineux. Bien que son travail ait réussi à identifier deux sous-populations potentiellement distinctes et à démontrer la souplesse des mélanges comme un outil de moment correspondant, la formulation exigeait la solution d`un polynôme de 9e degré (non-IC) qui, à l`époque, constituait une important défi de calcul. Le modèle de clustering k-means exploré dans la section précédente est simple et relativement facile à comprendre, mais sa simplicité conduit à des défis pratiques dans son application. En particulier, la nature non probabiliste de k-means et son utilisation de simple distance-from-cluster-Center pour assigner l`appartenance au cluster entraîne de mauvaises performances pour de nombreuses situations réelles. Dans cette section, nous allons jeter un oeil à des modèles de mélange gaussien (GMMs), qui peut être considéré comme une extension des idées derrière k-means, mais peut également être un outil puissant pour l`estimation au-delà de simple clustering. Un modèle de mélange gaussien bayésien est généralement étendu pour s`adapter à un vecteur de paramètres inconnus (signalés en gras) ou à des distributions normales multivariées. Dans une distribution multivariée (c.-à-d. une modélisation d`un vecteur x {displaystyle {boldsymbol {x}}} avec N variables aléatoires) on peut modéliser un vecteur de paramètres (comme plusieurs observations d`un signal ou de patchs dans une image) à l`aide d`un modèle de mélange gaussien avant distribution sur le vecteur des estimations données par clustering à l`aide d`un modèle de mélange gaussien.

Chaque couleur représente un cluster différent selon le modèle. [3] un mélange gaussien de trois distributions normales. [1] Scikit-Learn implémente différentes classes pour estimer les modèles de mélange gaussien, qui correspondent à différentes stratégies d`estimation, détaillées ci-dessous.

Please follow and like us:
0