Vidéo 8 Transformer Chap 3
Автор: JayXploreAI
Загружено: 2026-01-15
Просмотров: 13
Описание: Dans la vidéo précédente nous avons parlé de l’opération d’imbrication des mots d’un prompt.L'étape suivante va enrichir ces traits par un chiffrage du contexte de la phrase… C'est l'étape d'attention qui est le cœur du transformer.C'est au mérite reconnu des chercheurs chez Google d'avoir créé cette fonctionnalité en intégrant 50 années de recherches sur le phénomène de l'attention chez l'humain. Il s’agit d’un processus assez complexe pour lequel je vais, comme pas mal de vulgarisateurs penchés sur le sujet, utiliser une analogie, par exemple le rapport entre les adjectifs et les substantifs, afin de vous faire comprendre l'idée de base. Il y a, dans une phrase, des relations sémantiques entre les mots. Ainsi, quand on dit le vieux roi, l'adjectif vieux limite le sens de roi. Ce n'est plus n'importe quel roi, il a pris un sens plus restreint. Et l'article le contraint également le sens de roi, en ce sens qu'il n'y en a qu'un. Et, ce qu'il faut bien noter, ces contraintes sont strictement confinées à la phrase où elles apparaissent.Dans une autre phrase apparaîtra un roi jeune, voire plusieurs rois.Restons dans l'exemple des noms modifiés par des adjectifs. Et réduisons le processus d'attention à une seule passe, alors que dans la réalité il y en a une centaine qui réalisent des enrichissements progressifs.Il est important de comprendre que ces enrichissements se font dans une fenêtre de contexte, liée à la session d'utilisation, et ne modifient en rien le vocabulaire de base du LLM. Revenons à notre phrase partielle : "Lors du bal princier le vieux roi s'était assis sur [quoi?]". De façon simplifiée, le réseau neuronal qu'on appelle tête d'attention pose une question à chaque mot (autre question à chaque mot : "as-tu un effet sur un autre mot de la phrase ?" - cela s'appelle une key, soit une clé. La réponse à ces deux questions est représentée par un nombre, attaché à ce couple de mots. Tout le mystère réside dans la création de ces questions. En réalité, elles résultent d'un apprentissage initial pendant lequel le processus neuronal a appris pour chaque mot du vocabulaire les paramètres de query et les paramètres de key.Dans notre exemple, il ne s'agit que des adjectifs, mais d'autres ensembles de querys et keys sont appris pour des influenceurs différents, par exemple les adverbes qui influent sur les verbes. Dans GPT3 une centaine de ces influences sont considérées. Le processus passe ensuite la liste de traits de chaque mot de la phrase dans un ensemble de réseaux neuronaux qui utilisent ces querys et keys.Cela fournit un nombre, que l'on peut considérer, dans notre exemple, comme l'influence des adjectifs sur les substantifs qui y sont associés, donc, toujours dans l’exemple, de vieux sur roi. Ces nombres servent à enrichir progressivement la liste de traits de chaque mot de la phrase dans un processus multipasses (96 passes dans GPT3). Pour notre roi, cela correspond à l'impact chiffré que vieux a sur lui, de même que celui de l'article le.Et ainsi enrichis de plus en plus de contexte, la liste de traits de chaque mot continue son itération à travers le transformer…À la sortie, nous disposons pour chaque mot d’une liste de traits largement enrichis de contexte, … mais ce n'est pas suffisant. Il y manque une connaissance plus globale. Une connaissance qui, en quelque sorte, contient le mot suivant attendu. https://www.amazon.fr/dp/B0FZC75NW2 #artificialintelligence #intelligenceartificielle #gpt #conscience
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: