Google já utiliza Unicode 5.1
O Google já está suportando Unicode 5.1 , menos de um mês após seu lançamento. Agora já é disponível na busca, para que pessoas que falem linguas como Malaio possam procurar palavras contendo os novos caracteres no Unicode 5.1.
Páginas Web podem utilizar uma variedade codificações de caracteres diferentes, como ASCII, Latin-1, ou Windows 1252, ou Unicode . A maioria das codificações podem somente representar algumas linguagens, mas o Unicode manipula qualquer lingua do Chinês ao Françês até Árabe. O Google já utiliza a muito tempo o Unicode como formato interno para todo o texto de busca: qualquer outra codificação é primeiro convertida para Unicode para processamento. Então regularmente o Google atualiza para versões novas do Unicode para garantir sua qualidade.
Almento em páginas nativas com Unicode
Em Dezembro passado acontenceu um marco interessante na web. Pela primeira vez, o Unicode foi tido como a codificação mais frequente, encontrada em páginas web, ultrapassando o número de páginas com codificação ASCII e Western European. O que é mais impressionante do que simplemente ultrapassá-los é a velocidade com que isso ocorreu, de uma olhada na linha azul no gráfico abaixo.
Você pode ver um declínio de páginas com codificação ASCII. Mais recentemente, houve uma redução significante em codificações que possuiam caracteres Western European. E é possivel observar declinios similares em outras codificações. Por outro lado, o Unicode, tem mostrado um grande aumento no seu uso.
Esse gráfico é baseado na indexação de páginas do Google, e pode variar do encontrado por outras engines de busca. No entanto However, as tendências são bastante claras, e ao aumento continuado da utilização de Unicode torna ainda mais fácil de fazer o tratamento para os vários idiomas.
Fonte: Official Google Blog

