Mineração de Dados

Ferramentas de Mineração de Dados Leitura01 Leitura02 Leitura03 Leitura04 Leitura05 Leitura06

 
Linguagem: Python WinPython
 

Orange Voltada para análise e visualização de dados de código aberto. Nela é possível extrair dados via programação visual ou scripts Python, explorar estatísticas, realizar box plots ou scatter plots e aprofundar dados com árvores de decisão, agrupamento hierárquico, heatmaps e projeções lineares. Sua interface é bem bacana e  permite que os usuários se concentrem na análise exploratória de dados, em vez de codificação. Também possui componentes para Machine Learning e complementos de mineração de dados de fontes externas para execução de processamento de linguagem natural, mineração de texto, bioinformática, análise de rede e mineração de regras de associação. Tutorial Docs Guia

KNIME Projetada para ajudar na  manipulação, análise e modelagem de dados por meio de programação. Oferece mais de mil módulos e centenas de exemplos prontos para uso, além de uma variedade imensa de ferramentas integradas para ajudar na descoberta de possíveis insights ocultos em seus dados. Também é uma ótima aliada em análises preditivas, realizadas por meio do machine learn ou aprendizado de máquina. Permite além de escrever códigos, arrastar e soltar os pontos de conexão entre as atividades. Também oferece suporte à combinação de dados entre arquivos de texto simples, bancos de dados, documentos, imagens, redes e dados baseados no Hadoop em um único fluxo de trabalho visual.

RStudio Essa linguagem de programação é frequentemente utilizada para pesquisa em metodologias estatística. Ela auxilia na manipulação de dados, cálculo e exibição gráfica. Suas principais características estatísticas incluem modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais, classificação e agrupamento. Qual a melhor IDE R? https://www.r-project.org/ Linguagem de Programação R: Introdução ao R para Programadores de C#

Tableau É um aplicativo de análise e visualização de informações que permite publicar dados interativos na web. A boa notícia é que ele tem  versão gratuita, a má, é que ela é limitada a 1 GB de armazenamento e 1 milhão de linhas de dados. Ela é uma ferramenta bastante simples e intuitiva, o que a tornou muito popular. Dentre suas funcionalidades estão extrair dados do Planilhas Google, do Microsoft Excel, arquivos CSV, arquivos JSON, estatísticos, espaciais, conectores de dados da Web e OData. Dentro dela, é possível criar gráficos interativos, gráficos comuns e mapas para serem compartilhados em mídias sociais ou incorporados em sites para domínio público. Está disponível para Windows e MacOS.

Jupyter Aplicação cliente-servidor que permite a edição e execução de notebooks via browser. Notebooks são documentos que contém código e elementos visuais como imagens, links, equações. A principal vantagema utilização de notebooks é para a descrição de análises e seus resultados de forma dinâmica e interativa.

NumPy Biblioteca Python para computação científica. Implementa arrays multidimensionais e permite a fácil execução de operações matemáticas e lógicas como ordenação, seleção, transformações, operações estatísticas básicas etc.

Matplotlib Biblioteca Python 2D para a visualização e plotagem de gráficos. Pode ser utilizada para gerar diversos tipos de gráficos como histogramas, gráficos de barras, gráficos de pizza tudo de forma fácil e rápida.

Pandas Esta biblioteca talvez seja a mais utilizada para análise de dados. Ela fornece ferramentas para manipulação de estruturas de dados de forma extremamente simples. Operações complexas que trabalham com matrizes e vetores podem ser facilmente realizadas com uma ótima performance.

Scikit-Learn Biblioteca Python para trabalhar com Machine Learn (Aprendizado de Máquina). Contém diversos algoritmos implementados, métodos de análise e processamento de dados, métricas de avaliação etc. Essa é uma biblioteca extremamente útil para o cientista de dados.

NLTK é uma plataforma líder para a construção de programas Python para trabalhar com dados de linguagem humana. Ele fornece interfaces fáceis de usar para mais de 50 corpora e recursos lexicais como o WordNet, juntamente com um conjunto de bibliotecas de processamento de texto para classificação, tokenização, stemming, tagging, análise e raciocínio semântico

Scrapy Biblioteca Python para a raspagem ou coleta de dados a partir da Web. É possível coletar dados de sites, redes sociais, fóruns e diversos outros canais utilizando uma linguagem simples e objetiva. Extremamente útil para a geração de bases de dados. WinScrapy

Anaconda é uma plataforma open source para Data Science. Esta plataforma contém centenas de pacotes embutidos, é só instalar e pronto. As principais bibliotecas Python e R para Data Science já estão disponíveis nessa plataforma. Além disso, caso precise instalar alguma biblioteca, use o conda, o gerenciador de pacotes da Anaconda. Cloud Documentation

Conda As principais bibliotecas Python e R para Data Science já estão disponíveis nessa plataforma. Além disso, caso precise instalar alguma biblioteca, use o conda, o gerenciador de pacotes da Anaconda.

Trifacta Wrangler Projetado para ajudar a limpar e preparar dados confusos de diversas fontes. Funciona assim: depois de importadas as informações, aplicativo os reúne, organiza e estrutura automaticamente. Simples, não é mesmo? Além de te dar uma mãozinha com a organização, ele apresenta em sua estrutura o machine learning, que ajuda a preparar as informações para realizar análises mais detalhadas, sugerindo transformações e agregações comuns. Essa ferramenta consegue importar dados do Microsoft Excel, arquivos JSON e arquivos CSV brutos. Também faz o perfil dos dados para indicar a porcentagem de linhas com valores ausentes, incompatíveis ou inconsistentes e categoriza os dados por tipo. Bem bacana, não é? Só tem um porém, o Trifacta Wrangler está limitado a 100 MB de dados. Tirando esse detalhe, tudo certo. Ah, e ele também só funciona em Windows ou MacOS.

PyMongo é uma biblioteca de acesso ao banco de dados MongoDB. Sua implementação facilita a interação com o SGBD, permitindo emitir instruções ao banco de dados através de código python.

RapidMiner é uma plataforma para trabalhar com Data Science de forma rápida, simples e visual. As ferramentas oferecidas fornecem uma interface gráfica rica com objetos e processos que simplificam as diversas tarefas necessárias para trabalhar mineração de dados. Através do RapidMiner Studio é possível criar workflows extremamente intuitivos com objetos que executam todas as tarefas do processo de mineração de dados, como, leitura e carregamento dos dados, limpeza e transformação, filtragem, modelagem, aplicação de algoritmos de Machine Learning e visualização dos resultados. O diferencial do RapidMiner é a facilidade e velocidade para criar modelos preditivos já que não é necessário o trabalho de codificação e transformação dos dados.  Dessa forma o processo de validação e ajuste do modelo se torna simples. Os três produtos oferecidos são o RapidMiner Studio, RapidMiner Server e RapidMiner Radoop. RapidMiner Studio: Utilizado para desenhar os Workflows que mapeiam todo o processo de mineração de dados desde o carregamento dos dados até a visualização dos resultados. RapidMiner Server: Utilizado para gerenciar seus modelos, compartilhar com outros usuários. RapidMiner Radoop: Utilizado para compilar e executar workflows armazenados no Hadoop. A plataforma oferece um tipo de licenciamento gratuito que permite a utilização do Rapidminer Studio com uma base de dados de até 10 mil registros.

Weka é um projeto open source que significa Waikato Environment for Knowledge Analysis – Ambiente para Análise de Conhecimento Waikato. Foi criado como um projeto de Machine Learning pela universidade de Waikato na Nova Zelândia. O projeto tem o objetivo de disseminar técnicas de Machine Learning através da disponibilização do software para utilização de pesquisadores, alunos e para resolver problemas reais da indústria além de contribuir com a ciência pela mundo. O grande diferencial do Weka além de todo o seu arsenal de métodos e algoritmos é a sua interface gráfica (GUI – Graphical User Interface) que torna as tarefas de mineração de dados extremamente fáceis e rápidas. Através da interface é possível consultar dados em sistemas de bancos de dados, executar métodos de processamento de dados, executar e configurar parâmetros dos algoritmos e visualizar os resultados através de gráficos. Tudo isso sem precisar escrever comandos ou programar. O weka tem funcionalidades para manipulação de bases de dados (pre-processamento), interface para visualização de dados, e ainda disponível diversos algoritmos de machine learning e Data Mining. Isso facilita muito a vida dos seus usuários que não tem que dominar diversas ferramentas para fazer seu trabalho Para quem gosta de escrever comandos ou programar scripts o Weka fornece também acesso a sua vasta coleção de técnicas e algoritmos via API. Tutorial ManualEn ManualPt

NeuroSolutions software de redes neurais que é uma forma de inteligência artificial que imita o processo de aprendizado do cérebro a fim de extrair padrões da tecnologia de dados históricos para trabalhar para você. A família de produtos NeuroSolutions é um software de rede neural de ponta para mineração de dados para criar modelos altamente precisos e preditivos usando técnicas avançadas de pré-processamento, pesquisa inteligente de topologia de rede neural automatizada por meio de computação distribuída de ponta. Tutorial