Ir al contenido principal

Entradas

Mostrando las entradas etiquetadas como BIgData

Softwares de Scraping vs la Solución News API de TrawlingWeb

En el dinámico entorno digital de hoy, la captura y análisis de datos de noticias es una herramienta crucial para empresas de todos los sectores. Nos encontramos ante dos opciones predominantes: el uso de software de scraping y las soluciones avanzadas como la News API de Trawlingweb. Este artículo explora las diferencias clave entre estas metodologías, destacando cómo Trawlingweb optimiza y facilita este proceso esencial. Software de Scraping: Una Solución "Hágalo Usted Mismo" con Desafíos Significativos El scraping de noticias, que implica programar bots para extraer información de sitios web de noticias, puede ser personalizado pero presenta varios desafíos: Desarrollo y Mantenimiento Técnico : Requiere habilidades técnicas avanzadas para desarrollar y mantener scrapers, un desafío considerable para empresas sin un equipo de TI robusto. Gestión de Cambios en Sitios Web : Las constantes actualizaciones en los sitios web pueden romper los scrapers, exigiendo actualizaciones

Fake News III: Integrando los Enfoques de Wardle y Higgins con la Innovadora Técnica del 'Impostor' de Trawlingweb en la Detección de Fake News

Como experto en inteligencia artificial y big data, he dedicado gran parte de mi carrera profesional a enfrentar uno de los retos más complejos de nuestra era digital: las fake news. Este fenómeno, que va más allá de la mera desinformación, amenaza la integridad de nuestro entorno informativo y, por ende, la toma de decisiones en todos los ámbitos de la sociedad. En este contexto, mi trabajo en Trawlingweb ha sido fundamental. Aquí, he liderado iniciativas de investigación y desarrollo que han dado forma a herramientas avanzadas para la detección y análisis de noticias falsas. Estas soluciones, que combinan lo último en IA, big data y web scraping, no solo representan un avance técnico significativo, sino que también proporcionan a nuestros clientes un medio fiable para navegar en un océano de información a menudo turbulento. Este artículo se propone profundizar en cómo, a través de mi liderazgo y experiencia en Trawlingweb, hemos abordado las diversas facetas de las fake news, marcand

Contenidos Informativos para Empresas de Monitoreo y Social Listening: Vencer o morir

En una notable transformación del panorama digital, los contenidos informativos han experimentado un impresionante crecimiento del 4750% desde 2010. Este notable aumento no solo refleja la proliferación de la información, sino también la aparición de plataformas de contenido de alta calidad como Medium, Reddit y WordPress. Los medios tradicionales, enfrentados inicialmente al desafío de la era de internet, se han adaptado con éxito a las nuevas demandas informativas. Han logrado ofrecer contenidos concisos y relevantes, aumentando tanto la cantidad como la calidad. Además, la emergencia de plataformas de blogs con modelos de suscripción ha fomentado la aparición de nuevos creadores de contenidos, enriqueciendo el panorama con sus perspectivas únicas. Con la llegada de la inteligencia artificial generativa, se anticipa un impulso aún mayor en este ámbito, consolidando la relevancia de los contenidos informativos en el ecosistema digital. Contenidos Informativos VS Redes Sociales: Impac

Big Data y la inevitable transición al NoSQL

10 millones de fuentes consultadas, más de 500 millones de noticias y tweets procesados y un total 12 gigabytes de información almacenada y analizada con rapidez.   Este es el volumen de información diaria con que trabajamos des de anpro21. Unas cifras que lejos de ser estáticas aumentan día a día de manera exponencial. Cada semana se introducen 15.000 fuentes nuevas como blogs o webs temáticas y en un año   se ha pasado de procesar 500 mil fuentes a los 10 millones actuales. Ante esta ingente cantidad de datos, Big Data se vuelve una necesidad imperiosa además de una oportunidad demasiado valiosa como para dejarla escapar. Los datos han venido para quedarse y en anpro21 lo tenemos claro. El software de monitoreo y análisis de la reputación de anpro21, Brand Rain, trabaja con tecnologías de Big Data des de hace unos años. Esto permite gestionar grandes volúmenes de información, de estructura variable a una velocidad vertiginosa. Para ello cuentan con tecnologías open-source como Hadoop

Google cubre el 0,004% de Internet. anpro21 cubre con sus arañas la Internet de España

Desde anpro21 siempre que nos preguntan que universo d internet cubrimos hacemos referencia como introducción a nuestra respuestas que Google tampoco lo puede seguir todo. En esta ocasión y gracias datos del mismísimo CEO de Google, Eric Schmidt , podemos poner cifras sobre la mesa. El caso es que el CEO de Google calcula que su empresa indexa tan solo el 0,004% de todos los contenidos de internet. Para indexar contenidos, Google se basa, principalmente, en la recomendación de enlaces y mapas de sitios, pero sólo una pequeña parte de la web cumple esas condiciones. En nuestro caso, nos basamos en criterios muy parecidos, pero nuestro objetivo es cubrir el máximo de webs de habla hispana, catalana, gallega y euskera. Como somos muy conscientes de que hoy por hoy no se puede cubrir todo el universo de internet que interesa estratégicamente a nuestros clientes, queremos recordar que en nuestro caso siempre hemos dado la posibilidad de que nuestros clientes decidan desde la misma herramie