Tagged: semantica RSS Toggle Comment Threads | Keyboard Shortcuts

  • fmeyer 7:09 pm on April 6, 2009 Permalink | Reply
    Tags: busca, , mapreduce, pesquisa, semantica, wikipedia,   

    Antes de iniciar minha próxima leva de posts, vamos definir um pouco o conceito de content meaning e web semantic, várias interpretações do que esse tópico aborda ja encontra-se espalhando na internet como a Web 3.0 esse povo ama neologismos.

    A Web Semântica é uma Web composta de Dados. Existe uma grande quantidade de dados que usados diariamente e que não são parte da Web. Eu, por exemplo, posso ver minhas movimentações financeiras na Web, minhas fotografias, e meus compromissos em uma agenda. Mas posso ver minhas fotos dentro do calendário pra saber o que eu estava fazendo quando tirei elas? Posso ver minhas movimentações financeiras no mesmo calendário? Porque não? Porque nós não temos uma Web de Dados. Os dados são, na verdade, controlados pelas diferentes aplicações, e cada uma guarda os dados para si mesma. A proposta da Web Semântica é estender os princípios da Web dos documentos para os Dados. Os Dados poderem ser acessados usando a arquitetura Web; Dados poderem estar relacionados uns com os outros da mesma forma que os documentos já são. Isso também significa criar uma plataforma comum que permita que os Dados sejam compartilhados e reutilizados através das fronteiras das aplicações, empresas e comunidades, podendo ser processados automaticamente tanto por ferramentas quanto manualmente, incluso revelando novos relacionamentos possíveis entre porções de Dados. [http://www.w3.org/2001/sw/SW-FAQ]

    Depois de quase um ano fazendo download de dumps da wikipedia, processando toneladas de termos, guardando grafos que mal cabiam no meu HD antigo, cheguei a um mini-produto muito interessante, na verdade, tentei criar um dicionário de termos relacionados em português [o famoso thesauros]. Depois de quase 6 meses me matando com a incapacidade de linkar as coisas com a qual os tradutores brasileiros são amaldiçoados, depois de várias provas de conceito que falharam, cheguei a um grafo de 2 Gb rodando no couchDB que me dava resultados interessantes. Restringindo o domínio de retorno da função consegui uma noite relacionar a [ Xuxa [ Globo : 4, Sasha : 2, Crianças : 8, Apresentador : 3] ] como um grafo que relaciona os termos próximos ou que tinham alguma relação de significado com aquilo. A idéia do thesauros foi por água a baixo, mas consegui um extrator de entidades e tanto para a Wikipédia =) [uma hora eu libero essa base]

    Movimentos na empresa que trabalho sugeriam a criação de um time que fosse pesquisar e implementar os conceitos da web semântica em um dos maiores portais de conteúdo da internet brasileira. Uma oportunidade dessas não passaria desapercebida por mim, e agradecendo a confiança da globo.com fui designado para esse time. O qual posso afirmar com certeza ser um dos melhores times da empresa. E com prazer citarei algumas coisas muito interessantes nos próximos posts que farei sobre esse assunto.

    ps: como vocês podem ver já temos ate um logo :P

     
    • Thiago Dini 7:40 am on April 16, 2009 Permalink | Reply

      Muito bom o Blog, legal da parte de vocês dar uma boa importância a semântica, pois ela é essencial para ajudar na hora de uma pessoa ler, seja ela deficiente ou para nós próprios lermos o código com mais facilidade!

      Abraços!

    • Romulo Freitas 11:42 am on April 17, 2009 Permalink | Reply

      Legal. No proprio wordpress dá pra notar a importancia disso: a ferramenta que indica posts relacionados no final do post (a qual voce tambem usa). Em alguns blogs com muito conteúdo é bem legal reparar na produtividade realista da ferramenta. Só nao ganha da realidade do google que sabe até que “atriz gorda” relaciona-se com preta gil e que “gay” relaciona-se com gremio. hehehe

  • fmeyer 7:05 pm on April 6, 2009 Permalink | Reply
    Tags: AI, google, pagerank, redes neurais, semantica   

    Transitioning from a web of links and a sequence of words to a web of content, meaning and knowledge is probably the next great moving that we are going to see on the next two or maybe three years.

    I was chatting with a friend, how can we bring knowledge to the web, how can we use the web to make a really efficient human driven search engine, last week a few former Googlers made some noise about a totally new SE named cuil, I tried some queries on that page, but it does work almost like google, you must be pretty much binary to retrieve some interesting information, in another words, nothing has changed since 90’s on this area. This problem is around researcher’s minds for a long time, trust, influence, authority when applied to the web are essentially people based issues.

    The propose is the content being an asset with information about what it really means running against the link/words algorithms with no explicit meaning and a simple assumption “yes … we know you’re a good reference because you have a lot of links”.

    Make yourself a question, how to ask something? How do I ask for information?

    You ask your close friend: “Sunday night guitar red cap TV?” when you really want to know about the Sunday night TV show where a girl with a funny red cap playing a guitar. Things does change when you bring meaning to it, thats what a human being does.

    Indeed, Google is still leading this running, with several fields under extreme research, articles about Data Mining, Collective Intelligence and AI being published denotes the new approach.

    Yes … things are about to change ;)

     
c
compose new post
j
next post/next comment
k
previous post/previous comment
r
reply
e
edit
o
show/hide comments
t
go to top
l
go to login
h
show/hide help
shift + esc
cancel
Follow

Get every new post delivered to your Inbox.