Olá, pessoal! Neste episódio, Mauro Pichiliani (Twitter | Blog), Wagner Crivelini (@wcrivelini) e convidado Bruno Guide (bruno.fguide@gmail.com) abrem o livro de gramática para falar sobre NLP (Natural Languagem Processing). Neste episódio você vai relembrar as aulas de português do ensino fundamental, entender o que faz um linguista, porquê é tão difícil entender o que os outros falam e não se esqueça de amaldiçoar os acentos!!
Caneta DatabaseCast ‘Datas SQL’!
Livro do banco de dados NoSQL MongoDB escrito pelo Mauro Pichiliani!
Compre aqui a versão digital (EPUB) na Amazon. No Clube de Autores temos também a versão digital e impressa.
Links comentados no episódio:
- Blog post sobre análise de discursos de deputados
- Livro Armas, Germes e Aço (Guns, Germs, and Steel: The Fates of Human Societies ) de Jared Diamond
- Watson Assistant
- Microsoft Luis
- Biblioteca NLTK do Python
- Lematizador Verbal da universidade de Lisboa
- Lematizador TreeTagger
- Blog do Bruno Guide
- Pagina do Peter Norvig
- Livro Natural Languagem Processing with Python
Podcast: Play in new window | Download
Novamente o Databasecast se supera com um convidado da mais alta qualidade, o Bruno Guide esbanjou conhecimento e simpatia, certamente uma das melhores entrevistas. E confesso que o assunto sou um completo ignorante, mas fiquei na dúvida se um banco de dados NoSQL era o mais adequado para uso nessa situação, mas de resto foi perfeitamente claro, num assunto que achei que seria chato e entendiante, felizmente me enganei.
As dicas oferecidas foram preciosas, sobre técnicas, ferramentas e referências e o “cases” citados de novo é um capítulo a parte.
Ousando um pouco mais, gostaria de sugerir que trouxessem alguém que pudesse falar mais sobre o Python, e outro que falasse sobre regex gostaria de sugerir o Aurelio Marinho Jargas (@oreio, http://aurelio.net/) como um possível entrevistado.
Novamente parabéns!
Olá a todos! Tenho muito carinho pela área do NLP. Foi minha primeira área de pesquisa acadêmica, por onde comecei a fazer mestrado e realizar experimentos científicos. Acabei por mudar para big data, mas nunca abandonei totalmente o NLP.
Gostaria de deixar minha contribuição citando outros temas de pesquisa do NLP. Tradicionalmente, o NLP está bastante direcionado a análise de redes sociais e internet em geral. Mas há muita pesquisa em áreas específicas, como a jurídica (law techs e legal techs) e de medicina, com muita gente fazendo dinheiro. Infelizmente, são bem poucas no Brasil, mas estamos começando, bem devagar.
Como trabalho em um tribunal, minha principal linha de pesquisa era sobre (claro) Direito e Legislação. Pesquisei e criei várias ferramentas de processamento de textos jurídicos e vivenciei essas dificuldades e desafios. O lado positivo é que tive de aprender detalhes muito específicos das bibliotecas, principalmente do Lucene. Por exemplo, a distância e até a ordem entre as palavras influencia no sentido do documento. E os stop words, pasmem, são os nomes das pessoas, porque esses nomes não importam durante a análise do conteúdo do documento. Isso sem falar na questão semântica, porque uma frase pode ter diversos sentidos, dependendo do contexto e até a área do Direito… Assim, além das complexidades da linguística, temos as dificuldades do Direito, das leis e até da jurisprudência, que é dinâmica, ou seja, a jurisprudência muda ao longo do tempo. Fascinante.
Não cheguei a concluir o mestrado, mas escrevi tanto que acabei aproveitando o texto em um livro, que está em fase final de revisão. Esse é outro ponto complicado, porque simplesmente não tem material em português sobre NLP. Ouvi esse episódio e fiquei bastante feliz de conhecer mais um pesquisador da área aqui no país. Juntando todo mundo acho que dá para encher um Fusca.
Grande abraço e continuem o incrível trabalho!
Olá, pessoal do databasecast!
Que episódio fantástico, fiquei impressionado com o uso da tecnologia em uma área no qual tenho grande desconhecimento, fiquei muito impressionado com o nível de complexidade que se tem na NLP e o mundo de possibilidades, adorei o episódio, estou ansioso para o próximo 🙂 .
Grande abraço a todos.