Antes de iniciar minha próxima leva de posts, vamos definir um pouco o conceito de content meaning e web semantic, várias interpretações do que esse tópico aborda ja encontra-se espalhando na internet como a Web 3.0 esse povo ama neologismos.

A Web Semântica é uma Web composta de Dados. Existe uma grande quantidade de dados que usados diariamente e que não são parte da Web. Eu, por exemplo, posso ver minhas movimentações financeiras na Web, minhas fotografias, e meus compromissos em uma agenda. Mas posso ver minhas fotos dentro do calendário pra saber o que eu estava fazendo quando tirei elas? Posso ver minhas movimentações financeiras no mesmo calendário? Porque não? Porque nós não temos uma Web de Dados. Os dados são, na verdade, controlados pelas diferentes aplicações, e cada uma guarda os dados para si mesma. A proposta da Web Semântica é estender os princípios da Web dos documentos para os Dados. Os Dados poderem ser acessados usando a arquitetura Web; Dados poderem estar relacionados uns com os outros da mesma forma que os documentos já são. Isso também significa criar uma plataforma comum que permita que os Dados sejam compartilhados e reutilizados através das fronteiras das aplicações, empresas e comunidades, podendo ser processados automaticamente tanto por ferramentas quanto manualmente, incluso revelando novos relacionamentos possíveis entre porções de Dados. [http://www.w3.org/2001/sw/SW-FAQ]

Depois de quase um ano fazendo download de dumps da wikipedia, processando toneladas de termos, guardando grafos que mal cabiam no meu HD antigo, cheguei a um mini-produto muito interessante, na verdade, tentei criar um dicionário de termos relacionados em português [o famoso thesauros]. Depois de quase 6 meses me matando com a incapacidade de linkar as coisas com a qual os tradutores brasileiros são amaldiçoados, depois de várias provas de conceito que falharam, cheguei a um grafo de 2 Gb rodando no couchDB que me dava resultados interessantes. Restringindo o domínio de retorno da função consegui uma noite relacionar a [ Xuxa [ Globo : 4, Sasha : 2, Crianças : 8, Apresentador : 3] ] como um grafo que relaciona os termos próximos ou que tinham alguma relação de significado com aquilo. A idéia do thesauros foi por água a baixo, mas consegui um extrator de entidades e tanto para a Wikipédia =) [uma hora eu libero essa base]

Movimentos na empresa que trabalho sugeriam a criação de um time que fosse pesquisar e implementar os conceitos da web semântica em um dos maiores portais de conteúdo da internet brasileira. Uma oportunidade dessas não passaria desapercebida por mim, e agradecendo a confiança da globo.com fui designado para esse time. O qual posso afirmar com certeza ser um dos melhores times da empresa. E com prazer citarei algumas coisas muito interessantes nos próximos posts que farei sobre esse assunto.

ps: como vocês podem ver já temos ate um logo :P