Attention

AI to predict a masked word in a text sequence using Google BERT Masked Language Model from Hugging Face Transformers

AI to predict a masked word in a text sequence using Google Bidirectional Encoder Representations from Transformers (BERT) Masked Language Model from Hugging Face and generate diagrams visualizing attention scores for each of the 144 self-attention heads for a given sentence.
Built with Python, TensorFlow, Transformers (Hugging Face), Pillow (PIL), BERT, and more
Used TensorFlow to get top k predicted tokens from vocabulary logits for mask token from the input sequence

These diagrams can give us some insight into what BERT has learned to pay attention to when trying to make sense of language. Below is the attention diagram for Layer 3, Head 10 when processing the sentence “Then I picked up a [MASK] from the table.”

Layer 3, Head 10

Lighter colors represent higher attention weight and darker colors represent lower attention weight. In this case, this attention head appears to have learned a very clear pattern: each word is paying attention to the word that immediately follows it. The word “then”, for example, is represented by the second row of the diagram, and in that row the brightest cell is the cell corresponding to the “i” column, suggesting that the word “then” is attending strongly to the word “i”. The same holds true for the other tokens in the sentence.

I was curious to know if BERT pays attention to the role of adverbs. I gave the model a sentence like “The turtle moved slowly across the [MASK].” and then looked at the resulting attention heads to see if the language model seems to notice that “slowly” is an adverb modifying the word “moved”. Looking at the resulting attention diagrams, one that catched my eye was Layer 4, Head 11.

Layer 4, Head 11

This attention head is definitely noisier: it’s not immediately obvious exactly what this attention head is doing. But notice that, for the adverb “slowly”, it attends most to the verb it modifies: “moved”. The same is true if we swap the order of verb and adverb.

And it even appears to be true for a sentence where the adverb and the verb it modifies aren’t directly next to each other.

Layer 8, Head 5

This head shows a diagonal pattern where tokens are paying attention to the tokens that precede them in the input sequence.

Example Sentences:

I threw a small rock and it fell in the [MASK].

I was walking with my dog [MASK] it started barking.

Layer 9, Head 11

This head focuses primarily on the SEP token, with the pronoun "it" paying attention to the object it is referring to , i.e. "rock" in the 1st sentence and "dog" in the 2nd sentence.

Example Sentences:

I threw a small rock and it fell in the [MASK].

I was walking with my dog [MASK] it started barking.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
assets		assets
.DS_Store		.DS_Store
.gitattributes		.gitattributes
Attention_Layer10_Head1.png		Attention_Layer10_Head1.png
Attention_Layer10_Head10.png		Attention_Layer10_Head10.png
Attention_Layer10_Head11.png		Attention_Layer10_Head11.png
Attention_Layer10_Head12.png		Attention_Layer10_Head12.png
Attention_Layer10_Head2.png		Attention_Layer10_Head2.png
Attention_Layer10_Head3.png		Attention_Layer10_Head3.png
Attention_Layer10_Head4.png		Attention_Layer10_Head4.png
Attention_Layer10_Head5.png		Attention_Layer10_Head5.png
Attention_Layer10_Head6.png		Attention_Layer10_Head6.png
Attention_Layer10_Head7.png		Attention_Layer10_Head7.png
Attention_Layer10_Head8.png		Attention_Layer10_Head8.png
Attention_Layer10_Head9.png		Attention_Layer10_Head9.png
Attention_Layer11_Head1.png		Attention_Layer11_Head1.png
Attention_Layer11_Head10.png		Attention_Layer11_Head10.png
Attention_Layer11_Head11.png		Attention_Layer11_Head11.png
Attention_Layer11_Head12.png		Attention_Layer11_Head12.png
Attention_Layer11_Head2.png		Attention_Layer11_Head2.png
Attention_Layer11_Head3.png		Attention_Layer11_Head3.png
Attention_Layer11_Head4.png		Attention_Layer11_Head4.png
Attention_Layer11_Head5.png		Attention_Layer11_Head5.png
Attention_Layer11_Head6.png		Attention_Layer11_Head6.png
Attention_Layer11_Head7.png		Attention_Layer11_Head7.png
Attention_Layer11_Head8.png		Attention_Layer11_Head8.png
Attention_Layer11_Head9.png		Attention_Layer11_Head9.png
Attention_Layer12_Head1.png		Attention_Layer12_Head1.png
Attention_Layer12_Head10.png		Attention_Layer12_Head10.png
Attention_Layer12_Head11.png		Attention_Layer12_Head11.png
Attention_Layer12_Head12.png		Attention_Layer12_Head12.png
Attention_Layer12_Head2.png		Attention_Layer12_Head2.png
Attention_Layer12_Head3.png		Attention_Layer12_Head3.png
Attention_Layer12_Head4.png		Attention_Layer12_Head4.png
Attention_Layer12_Head5.png		Attention_Layer12_Head5.png
Attention_Layer12_Head6.png		Attention_Layer12_Head6.png
Attention_Layer12_Head7.png		Attention_Layer12_Head7.png
Attention_Layer12_Head8.png		Attention_Layer12_Head8.png
Attention_Layer12_Head9.png		Attention_Layer12_Head9.png
Attention_Layer1_Head1.png		Attention_Layer1_Head1.png
Attention_Layer1_Head10.png		Attention_Layer1_Head10.png
Attention_Layer1_Head11.png		Attention_Layer1_Head11.png
Attention_Layer1_Head12.png		Attention_Layer1_Head12.png
Attention_Layer1_Head2.png		Attention_Layer1_Head2.png
Attention_Layer1_Head3.png		Attention_Layer1_Head3.png
Attention_Layer1_Head4.png		Attention_Layer1_Head4.png
Attention_Layer1_Head5.png		Attention_Layer1_Head5.png
Attention_Layer1_Head6.png		Attention_Layer1_Head6.png
Attention_Layer1_Head7.png		Attention_Layer1_Head7.png
Attention_Layer1_Head8.png		Attention_Layer1_Head8.png
Attention_Layer1_Head9.png		Attention_Layer1_Head9.png
Attention_Layer2_Head1.png		Attention_Layer2_Head1.png
Attention_Layer2_Head10.png		Attention_Layer2_Head10.png
Attention_Layer2_Head11.png		Attention_Layer2_Head11.png
Attention_Layer2_Head12.png		Attention_Layer2_Head12.png
Attention_Layer2_Head2.png		Attention_Layer2_Head2.png
Attention_Layer2_Head3.png		Attention_Layer2_Head3.png
Attention_Layer2_Head4.png		Attention_Layer2_Head4.png
Attention_Layer2_Head5.png		Attention_Layer2_Head5.png
Attention_Layer2_Head6.png		Attention_Layer2_Head6.png
Attention_Layer2_Head7.png		Attention_Layer2_Head7.png
Attention_Layer2_Head8.png		Attention_Layer2_Head8.png
Attention_Layer2_Head9.png		Attention_Layer2_Head9.png
Attention_Layer3_Head1.png		Attention_Layer3_Head1.png
Attention_Layer3_Head10.png		Attention_Layer3_Head10.png
Attention_Layer3_Head11.png		Attention_Layer3_Head11.png
Attention_Layer3_Head12.png		Attention_Layer3_Head12.png
Attention_Layer3_Head2.png		Attention_Layer3_Head2.png
Attention_Layer3_Head3.png		Attention_Layer3_Head3.png
Attention_Layer3_Head4.png		Attention_Layer3_Head4.png
Attention_Layer3_Head5.png		Attention_Layer3_Head5.png
Attention_Layer3_Head6.png		Attention_Layer3_Head6.png
Attention_Layer3_Head7.png		Attention_Layer3_Head7.png
Attention_Layer3_Head8.png		Attention_Layer3_Head8.png
Attention_Layer3_Head9.png		Attention_Layer3_Head9.png
Attention_Layer4_Head1.png		Attention_Layer4_Head1.png
Attention_Layer4_Head10.png		Attention_Layer4_Head10.png
Attention_Layer4_Head11.png		Attention_Layer4_Head11.png
Attention_Layer4_Head12.png		Attention_Layer4_Head12.png
Attention_Layer4_Head2.png		Attention_Layer4_Head2.png
Attention_Layer4_Head3.png		Attention_Layer4_Head3.png
Attention_Layer4_Head4.png		Attention_Layer4_Head4.png
Attention_Layer4_Head5.png		Attention_Layer4_Head5.png
Attention_Layer4_Head6.png		Attention_Layer4_Head6.png
Attention_Layer4_Head7.png		Attention_Layer4_Head7.png
Attention_Layer4_Head8.png		Attention_Layer4_Head8.png
Attention_Layer4_Head9.png		Attention_Layer4_Head9.png
Attention_Layer5_Head1.png		Attention_Layer5_Head1.png
Attention_Layer5_Head10.png		Attention_Layer5_Head10.png
Attention_Layer5_Head11.png		Attention_Layer5_Head11.png
Attention_Layer5_Head12.png		Attention_Layer5_Head12.png
Attention_Layer5_Head2.png		Attention_Layer5_Head2.png
Attention_Layer5_Head3.png		Attention_Layer5_Head3.png
Attention_Layer5_Head4.png		Attention_Layer5_Head4.png
Attention_Layer5_Head5.png		Attention_Layer5_Head5.png
Attention_Layer5_Head6.png		Attention_Layer5_Head6.png
Attention_Layer5_Head7.png		Attention_Layer5_Head7.png
Attention_Layer5_Head8.png		Attention_Layer5_Head8.png
Attention_Layer5_Head9.png		Attention_Layer5_Head9.png
Attention_Layer6_Head1.png		Attention_Layer6_Head1.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Attention

Layer 3, Head 10

Layer 4, Head 11

Layer 8, Head 5

Layer 9, Head 11

About

Uh oh!

Releases

Packages

Languages

madhav1k/Attention

Folders and files

Latest commit

History

Repository files navigation

Attention

Layer 3, Head 10

Layer 4, Head 11

Layer 8, Head 5

Layer 9, Head 11

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages