
A fim de extrairmos informações de Web Sites, todos nós usamos o Web Browser, correto?
Mas não podemos nos enganar: este NÃO é o único modo (nem o mais eficiente) de acessar informação da internet.
Além dele, existe uma enorme variedade de possibilidades disponíveis. Web Scraper é um dessas possibilidades!
Através do Scraping podemos acessar a informação da internet [diretamente] usando alguns programas e bibliotecas pré-escritas.
Simples!
O conceito de Web Scraping tem se tornado mais famoso recentemente por conta das novas Startups; Estas, uma vez que elas não tem de fazer o trabalho duro para conseguir dados, preferem usar os dados raspados de outros websites similares e então modificar conforme a sua necessidade.
Considere-se ainda que um número considerável de Bancos de Dados e Ferramentas Web não suportam Web-Services e que os Web-Services existentes não cobrem todas as possibilidades de demanda de dados do usuário.
Como uma consequência, Web Data Scraping, uma das técnicas mais velhas para extrair conteúdo Web, figura-se ainda está em posição de oferecer um serviço válido e valioso para um amplo espectro de aplicações bioinformáticas, desde simples robôs de extração até meta-servidores online.
Através deste treinamento, será possível aprender a fazer Coleta Automática de Dados que não estão disponíveis de forma normalizada ou que não estão consolidados.
Ou seja: será possível criar robôs (crawlers ou scrappers) e assim automatizá-los para capturarem dados sem a intervenção de um operador.
Objetivo
– Capacitar o participante a Iniciar a construção de robôs de captura de dados em sites web.
Carga Horária
8 horas
Público Alvo
– Desenvolvedores que precisem coletar frequentemente ou tenham interesse em iniciar a coleta de grande quantidade de dados espalhados entre diversas páginas e sites
Pré Requisitos (conhecimentos prévios do participante para que possa fazer melhor proveito da atividade)
Conhecimentos de lógica de programação e de pelo menos uma linguagem de programação de alto nível. O curso se focará em funcionalidades específicas de duas linguagens, então não se aprofundará em todas as funcionalidades delas.
Pré Requisitos (setup da máquina do participante):
Compilador Java (JDK) 1.6 ou superior; Eclipse IDE for Java EE Developers Luna; JBehave Eclipse; Plugin 1.0.0.20140605-0717; Integração com projetos Maven; Navegador Google Chrome 33 ou superior; XAMPP 7.2.3 ( informações mais específicas serão fornecidas oportunamente)
Assista trecho introdutório
Após o término desta atividade:
Iniciar a construção de robôs de captura de dados em sites web, e terá reduzida significativamente sua curva de aprendizado acerca deste assunto.

FLAVIO LISBOA
É mestre em Tecnologia e Sociedade pela Universidade Tecnológica Federal do Paraná. É bacharel em Ciência da Computação com especialização em Programação Orientada a Objetos e Tecnologia Java. Possui as certificações Zend PHP Certified Engineer, Zend Framework Certified Engineer e Zend Framework 2 Certified Architect. É autor de 7 livros sobre programação PHP com uso de frameworks. Trabalha como analista no Serviço Federal de Processamento de Dados e é professor de pós-graduação na Unicesumar e Faculdades Alfa, entre outras competências.
TÓPICOS
Módulo I – Captura do código-fonte das páginas
Introdução ao DOM
Extensão DOM do PHP
Captura de conteúdo de páginas
Tratamento e armazenamento de dados
Módulo II – Captura da visão do usuário
JBehave
Selenium
Criação de Page Objects
Tratamento e armazenamento de dados
Depoimentos
“Curso maravilhoso! O Flavio tem boa didática para ensinar e passa o conteúdo de forma clara e objetiva.”
Celso David Lopes dos Santos
“Foi bastante produtivo, aprendi novas técnicas.
Tenho feito raspagem de forma braçal (cURL).”
Francisco das Chagas Dorgam Filho
Inscreva-se. Capacite-se.
De 249,00 por R$ 99,00
INCLUSO
Além do conhecimento que será adquirido:
– Certificado de participação e Material Didático Digitalizados,
– Plantão de dúvidas online (em tempo real),
– Suporte por slack, email, grupo no whatsapp e Hangout (ao vivo) ,
– Acesso à gravação por tempo vitalício