9. Bigramas

No artigo de hoje vamos ter uma abordagem um pouco diferente para analisar textos. Esta abordagem consiste em considerar que palavras em conjunto podem trazer mais contexto do que palavras em separado. Esta metodologia é chamada de n-gramas e consiste em considerar a sequência das palavras em uma frase. Um exemplo: n-gramas é uma metodologia de mineração de textos Nesta afirmação, considerando bigramas, temos a seguinte combinação:

8. twitteR

No artigo de hoje, vamos conhecer a biblioteca twitteR e como minerar textos diretamente do Twitter. Para isso, você vai precisar cadastrar uma aplicação API no site do Twitter, para pegar credenciais e acessar a API do twitter de forma autenticada. Se você nunca criou uma aplicação no Twitter antes, clique neste link para ter informações básicas de como prosseguir antes deste tutorial. As etapas são simples: Criar uma conta de Developer no http://dev.

7. Similaridade

Neste artigo, vamos ver como identificar o grau de similaridade (ou correlação) entre conjuntos de texto.s Isso pode nos ajudar a entender como palavras podem identificar conteúdos semelhantes e quantificar este grau de similaridade. Base de Textos Vamos iniciar com uma série de comandos já falados em artigos anteriores onde usamos o pacote rvest para minerar conteúdos de websites. Nossa fonte, para este artigo, é o site do UOL Esporte com 3 artigos sobre futebol e 3 artigos sobre voleibol.

6. tf-idf

Neste artigo você irá conhecer uma metodologia chamada tf-idf que serve para selecionar as palavras mais importantes de um texto baseado em sua frequência. No entanto, esta metodologia leva em consideração que palavras muito frequentes em diversos documentos diferentes não trazem tanta informação relevante para o contexto (como as stopwords, por exemplo) e, para tanto, considera diferentes pesos para elas. Segundo este artigo da Wikipedia: O valor tf–idf de uma palavra aumenta proporcionalmente à medida que aumenta o número de ocorrências dela em um documento, no entanto, esse valor é equilibrado pela frequência da palavra no corpus.

5. Pacote rvest

Neste artigo você aprenderá a utilizar o básico do pacote rvest. Este pacote, entre muitas coisas, permite fazer web-scrapping/web-mining, ou seja, extrair informações de html que podemos baixar de websites utilizando diretamente o R. Este artigo pressupõe que você tenha um conhecimento básico de HTML, que é bem simples e pode ser aprendido em pouco tempo. O pacote rvest tem muitas funcionalidades para web-scrapping, mas irei focar apenas no que é mais relevante para mineração de textos.

1. Primeiros passos

Olá! Seja bem vindo ao pt_BR. A intenção deste site (ou seria um blog?) é trazer conteúdo de qualidade sobre mineração de textos em R em língua portuguesa. Por muito tempo tenho me interessado e trabalhado com mineração de textos mas nunca encontrei bons materiais em português. Isso é um pouco crítico pois muitos procedimentos utilizados em mineração de textos necessitam de dicionários ou processamentos que se aplicam à língua portuguesa.

2. Pacote tidytext

O pacote tidytext foi desenvolvido em 2016 como uma maneira mais simples de trabalhar com análise de textos. Ele usa os mesmos princípios de tidy data, ou seja, trata textos como data frames de palavras individuais, que permite visualizar, manipular e resumir dados de texto de forma mais fácil. No artigo de hoje você verá como fazer manipulações básicas de texto e entender melhor como a análise de textos pode ser simples e poderosa no R.

3. Pré-processamento

Neste artigo você verá algumas técnicas de pré-processamento de textos que você pode utilizar antes de fazer qualquer análise de textos. Estas técnicas são importantes para aumentar o significado que algumas palavras podem trazer para os resultados de suas análises. Aqui vão alguns exemplos: Em português, as palavras comumente podem ter erros de acentuação. Portanto, uma das técnicas é a troca de letras com acentuação para letras sem acentuação.

4. Pacote tidyRSS

Neste artigo você irá aprender como acessar dados de texto usando RSS. De acordo com a Wikipedia: Really Simple Syndication (RSS) é um formato de distribuição de conteúdo em tempo real pela internet, no qual um subconjunto de “dialetos” XML, que servem para agregar conteúdo, podem ser acessados mediante programas ou sites agregadores. É usado principalmente em sites de notícias e blogs. Utilizando RSS você poderá baixar artigos e notícias dos principais portais da internet brasileira sem previsar fazer web-scrapping, ou seja, baixar o site e selecionar o conteúdo que importa dentro das tags HTML.