segunda-feira, 5 de maio de 2008

Evoluindo para o Unicode 5.1

Moving to Unicode 5.1

Publicado por Mark Davis, Arquiteto Internacional Sênior de Software

Google acaba de oferecer suporte ao Unicode 5.1, menos de um mês após seu lançamento. Está disponível agora nas pesquisas, de modo que pessoas que falam línguas como o Malaio podem agora pesquisar palavras contendo os novos caracteres em Unicode 5.1.
Páginas Web podem usar uma variedade de codificações de caracteres, como o ASCII, Latin-1, Windows 1252 ou Unicode. A maioria das codificações representam apenas algumas línguas, mas o Unicode consegue manuipular qualquer coisa, do Chinês ao Francês passando pelo Árabe. Nós usamos o Unicode há muito tempo formato interno para todas as buscas que realizamos: qualquer outra codificação é primeiro convertida para Unicode antes de ser processada. Assim, nós nos atualizamos regularmente para cada nova versão do Unicode (e padrões relevantes relacionados, como o CLDR e o BCP 47) para nos certificarmos de estamos acompanhando a evolução. O Unicode tem participação-chave em nossa missão.

Aumento no número de Páginas Web com Unicode nativo

Já no último dezembro, houve um interessante marco na web. Pela primeira vez, descobrimos que o Unicode era a codificação mais freqüente nas páginas web, superando tanto o ASCII quanto o Europeu Ocidental — e, por coincidência, em menos de 10 dias de diferença! O que é mais impressionante do que a própria superação é a velocidade com que isso aconteceu, veja só a linha azul no gráfico abaixo:

[Imagem] Crescimento do Unicode na Web - 2001 a 2008

Você pode ver um declínio de longo prazo na quantidade de páginas codificadas em ASCII (letras não acentuadas de A a Z). Mais recentemente, houve uma queda significativa no uso de codificações que cobriam apenas letras da Europa Ocidental (ASCII e mais algumas letras acentuadas como Ä, Ç, e Ø). Nós estamos vendo um declínio semelhante em outras codificações específicas para certos idiomas. O Unicode, por seu lado, mostra um aumento agudo em seu uso.

Esta estatística é baseada e nossa indexação de páginas web e, portanto, pode variar em relação aos achados de outros buscadores. Entretanto, as tendências são bastante claras e o aumento contínuo do Unicode vem facilitando cada vez mais o processamento dos muitos idiomas que cobrimos.

Nenhum comentário: