El reinado del Big Data

Por Sergio Octavio Contreras / 23 junio, 2017

El concepto de big data o macrodatos se utiliza para definir a un conjunto de datos que la nueva tecnología obtiene -con permiso o sin él- de los usuarios de aparatos, aplicaciones, navegadores, interacciones virtuales, etcétera. Tales datos son tan enormes que los sistemas tecnológicos habituales no tienen la capacidad para su tratamiento e interpretación.

El campo del big data ha cobrado relevante interés para empresas de tecnología, industrias trasnacionales, gobiernos, compañías de espionaje y todo un cúmulo de organizaciones con cierto poder. Es por esto que algunas empresas como Amazon son capaces de pronosticar los productos que comprarán sus clientes debido a la información que tienen sobre sus comportamientos.

Vivimos en el mundo de la exuberancia informativa humana. De acuerdo al estudio Big Data en Números, realizado por el gabinete de investigación Online Business School en 60 segundos son descargadas 47 mil aplicaciones, se envían 204 millones de correos electrónicos, se producen 100 mil tuits y se colocan en YouTube 1.3 millones de videos.

En el campo del big data la tecnología es programada mediante algoritmos para ejecutar de órdenes: identificar y recolectar información. Dicha programación permite ordenar los metadatos en forma administrativa, descriptiva, técnica, de uso y conservación (Baca, 1999). Según el informe Hacia una Economía de los Datos Próspera de la Unión Europea, cada minuto se genera tanta información como para almacenarla en 360 mil discos DVD. Para la empresa IBM, cada día se producen en el mundo entre 2.5 y 3 trillones de bytes de datos que circulan en Internet, por medio de fibra óptica, que son guardados en la “nube” (cloud computing), en las memorias internas de dispositivos móviles, etcétera. Tales datos son generados por los usuarios y los artefactos cuando envían correos electrónicos, publican información en las redes sociales, compran en línea, siguen a un perfil en Twitter, dan “me gusta” en Facebook, etcétera. De acuerdo a la empresa TRC en su reporte Conceptos Básicos de Big Data, la información tiene cuatro tipos de fuentes:

1) La que es generada por las personas a través de mensajes de texto, videos, notas de voz, etcétera; 2) la que es producida mediante la transacción, como serían los registros de facturación o las llamadas telefónicas; 3) la que surge de las redes sociales y de la propia web, por el envío de correos electrónicos, el uso de blogs, etcétera; 4) la creada entre las máquinas o comunicación machine to machine (M2M), donde las tecnologías comparten datos con otros dispositivos, como son los medidores de temperatura, de altura, presión o química y 5) por último la biométrica, que abarca los datos biométricos usados en el mundo de la seguridad.

El concepto de big data está de moda en distintos espacios públicos. Los desarrolladores de tecnología realizan mejoras a los instrumentos y programas para la recolección de datos y diseñan más eficientes sistemas de interpretación con base en una especie de filosofía de la acumulación. La cultural por los metadatos alteró la forma en que se analizaba la información tradicional, usando métodos estadísticos y computacionales (Li, Jiang, Yang y Cuzzocrea, 2015). Existen en el campo de los metadatos algunas iniciativas que pueden ser utilizadas por cualquier usuario como Our Mobile Planet que concentra y analiza datos de teléfonos inteligentes en todo el mundo o Google Trends que aporta información sobre las actividades en línea de los cibernautas.

Pero esta popularidad no solo es del interés del campo tecnológico, sino también de la ética. El big data se está convirtiendo en un dilema por el hecho de que la información recolectada proviene en su mayoría de prácticas privadas, de decisiones individuales, de acciones íntimas. El mercado empuja la recolección de metadatos con fines económicos y políticos. Es así como aplicaciones y artefactos “conocen” información generada por las personas. ¿A quién pertenecen los metadatos? ¿Al usuario, a las compañías y desarrolladores de aplicaciones u otros sectores interesados en conocer tal información como el poder político? Cuando un nuevo usuario de Facebook abre un perfil y acepta las condiciones de uso –que incluye permitir a la compañía utilizar sus metadatos– el cibernauta transfiere los derechos de su privacidad el mundo empresarial.

A nivel global, organismos internacionales y gobiernos locales están impulsando iniciativas para crear políticas públicas y dirimir los conflictos éticos que puedan presentarse. Países como Estados Unidos, Gran Bretaña, Francia, Canadá o Japón, impulsan proyectos para que los datos recolectados por fabricantes de producto tengan propósitos lícitos, se proteja la privacidad de las personas y sean óptimos, pues la producción de nuevas mercancías dependerán cada vez más de los datos recolectados. El sistema económico global parece dirigirse a una economía regida por los datos.

En este sentido, Internet de las Cosas, la cultura de los “datos abiertos” generados por instituciones públicas, la llamada “economía del conocimiento”, el marketing y la publicidad, las estrategias de seguridad pública y privada, los sistemas financieros o la programación de los nuevos medios estarán orientados en parte por el análisis y la interpretación de metadatos.

Para los visionarios del big data, no solo la economía resultaría beneficiada. De acuerdo al informe Big Data: the nex frontier for innovation, competition and productivity, del instituto McKinsey Global (MGI), la industria de los metadatos podría reducir el costo de entre un 15 y 20% de los gastos que realizan las 23 economías más grandes del mundo. Para el MGI, si los gobiernos emplearan sistemas de big data podrían ser más eficientes, aumentarían su productividad y sus economías serían más competitivas.

Es así como dependencias policiacas como el FBI o la CIA llevan a cabo programas de recolección de metadatos para prevenir ataques terroristas o detener a delincuentes. Se trata de una política pública que instrumentalmente puede dar resultados al Estado. El paradigma de los gobiernos de opinión cambiará drásticamente ante este panorama, pues las decisiones políticas podrían depender de los datos y no tanto de la opinión pública.

Maquinas inteligentes

La tecnología que es creada y programada por humanos. Las acciones de robots en el almacenamiento e interpretación de datos que cada segundo se generan en el planeta, ejecutan determinadas acciones. Desde esta perspectiva las máquinas obedecen órdenes establecidas mediante algoritmos. Por lo tanto, el big data se refiere a cosas que se pueden hacer a gran escala, pero no a una escala inferior, para extraer percepciones o crear nuevas formas de valor de tal manera que transformen los mercados, las organizaciones, las relaciones entre los ciudadanos y los gobiernos, etcétera (Mayer-Schönberger y Cukier, 2013). Algunos optimistas ven en esta innovación una mayor precisión en la información obtenida que aquella que es recolectada por otros medios, como por ejemplo encuestas, focus group o censos. Dentro de este optimismo, se considera que las máquinas no discriminarán la información, no la politizan, pues se limitarán a mostrar lo que encontraron tal y como es, por lo tanto habrá menos márgenes de error cuando de tal información deban tomarse decisiones sobre la creación de nuevos productos, para la apertura de mercados, el lanzamiento de una campaña publicitaria, seleccionar a un candidato, y la atención a demandas sociales, etcétera. Una gran cantidad de empresas e instituciones están colocando toda la carne al asador en el big data.

Prácticas de los usuarios de las nuevas tecnologías podrían pasar como actividades que no representan problemas de seguridad o de invasión a la vida privada. Una serie de experimentos realizados por la comunidad hacker demostró que al utilizar la tecnología los usuarios van dejando una serie de evidencias sobre sus hábitos, preferencias y costumbres que pueden ser utilizados por terceros para diversos fines. Por ejemplo, de una simple fotografía es posible obtener entre otros datos la marca y el modelo del artefacto con el cual se realizó la captura, la fecha y hora de exposición, la versión del sistema operativo, el nombre del autor, la resolución y el tamaño de la imagen. Y cuando se toma una fotografía y se tiene activada la ubicación a través del Sistema de Posicionamiento Global (GPS) es posible localizar el lugar donde se realizó la exposición. La imagen almacena los datos de longitud y altitud, por lo que basta con buscar tales coordenadas en Google Maps para conocer el lugar exacto donde se realizó la fotografía. En Internet hay varias aplicaciones para ello. Entre los más conocidos están Matapicz, Jeffrey’s Exif Viewer, Exif Viewer, Exif Data y Online Photo Exif. Tal vez como en ninguna anterior época, podríamos afirmar que en la cultura big data el conocimiento es poder.

De acuerdo al reporte Netflix´s Use of Big Data: Lessons for Brand Marketers publicado por AdExchanger, la compañía Netflix utiliza nuevas estrategias al respecto. La primera estrategia surgió cuando la compañía aún no brindaba servicio de videos en streaming y solo ofrecía el alquiler de DVD por correo. La empresa desarrolló un algoritmo que sugería a sus clientes las películas a consumir. El algoritmo mostraba las sugerencias a partir de las selecciones que el usuario había realizado con anterioridad. Cuando Netflix comenzó a ofrecer el servicio de video en línea, el algoritmo de recomendación se perfeccionó. La empresa descubrió que los usuarios pasaban cierto tiempo navegando antes de seleccionar que iban a ver. Este tiempo extendía la vida de los clientes y representaba para las estrategias de retención un ahorro de un billón de dólares anuales. Además la compañía tiene información sobre cada usuario que le permite aprovechar los datos en una medida que la televisión tradicional y la de cable no pueden hacerlo.

Por ejemplo, Netflix pagó por adelantado 100 millones de dólares por los 26 episodios de “House of Cards”, porque tenía los datos suficientes para asegurar una pérdida mínima por la producción y por su promoción. Sabía que la sería dejaría ganancias. Cuando llegó el momento de su promoción pudo variar los tipos de publicidad dependiendo de los consumidores. Las personas que gustaban de los personajes como Thelma & Louise recibieron una versión femenina de la serie, en tanto quienes habían visto películas de Kevin Spacey, vieron en sus pantallas y correos mensajes cuyo centro fue Frank Underwood. A partir de un estudio que demostró que el cerebro humano puede procesar una imagen en tan solo 13 milisegundos, Netflix rediseñó las imágenes en miniatura: el usuario puede elegir entre tres opciones en un periodo de 90 segundos, antes de abandonar el sitio.

Otro caso es Facebook. A través de la instalación de la extensión Data Selfie en Google Chrome es posible visibilizar los metadatos que esta compañía recolecta. Por ejemplo, la empresa de Zuckerberg conoce de sus usuarios las páginas que siguen, a quiénes les dan like, la lista de amigos y con quienes existe una mayor relación, los cibernautas bloqueados, el tiempo que permanece el usuario conectado, las horas donde hay más conexión, el tipo de aparato para llevar a cabo la conexión, las ubicaciones desde donde se publica la información, las orientaciones políticas y hábitos alimenticios entre otros datos. La red social también conoce las búsquedas que se realizan aún y cuando sea borrado el historial, los videos que son vistos a pesar de que no les den “me gusta”, lo que se escribe en la pantalla incluso si es borrado o editado, el reconocimiento facial de 30 puntos de cada rostro que abarca rasgos de la boca, la distancia entre los ojos, el tipo de nariz, las mejillas, etcétera.

De acuerdo con una investigación publicada en agosto de 2016 por The Washington Post, son 98 los datos que los robots de Facebook recolectan de los usuarios, por ejemplo el número telefónico, el tipo, tamaño, valor y metros cuadrados de la vivienda, aniversarios de cumpleaños, si la persona vive cerca o lejos de su familia, si mantiene relaciones amorosas a distancia, si está recién casada, si se acaba de mudar, el tipo de sistema operativo que utiliza, si tiene pensado comprar un automóvil, el estilo y marca de coche que conduce, el tipo de trabajo que desempeña, si utiliza tarjetas de crédito, si escucha la radio, los programas de televisión preferidos, la marca del dispositivo móvil, el navegador utilizado, el tipo de ropa que usa, si viaja con frecuencia, si se desplaza para ir a trabajar, el tipo y lugares para vacacionar, si tiene mascotas, si tiene hijos, su estado civil, etcétera. Existen herramientas como Sentiment Analysis mediante la cual es posible analizar el estado emocional de los usuarios de Facebook.

Otras aplicaciones como Whats App también están diseñadas para obtener datos de los usuarios como el número telefónico, lista de contactos, la fotografía del usuario, la información sobre servicios y pagos, entre otros datos.

WhatsApp guarda en forma temporal información que transita por la mensajería como videos y archivos, así como ubicaciones cuando éstas se hayan compartido. Si se utiliza un navegador a través del móvil la aplicación también almacena el historial de búsquedas. En el caso de Twitter, el año pasado la compañía reconoció que parte de los metadatos que recolecta los almacena hasta por 18 meses para distintos fines comerciales. La red social tiene acceso a la lista de amigos, los números de teléfono de los contactos, direcciones de correo electrónico y ubicaciones. Un tuit de 140 caracteres contiene más información de la que los usuarios podrían imaginar. A través de un mail los usuarios pueden solicitar a Twitter copia de su información personal que es almacenada por la compañía.

Una de las empresas que más metadatos obtiene de los usuarios es Google. Con distintas herramientas es posible conocer las actividades que realizan los internautas en las aplicaciones de Google. Por ejemplo mediante el sitio https://myactivity.google.com los usuarios ingresan a su cuenta de Gmail y podrán tener acceso a su práctica en la web, conocer el uso de aplicaciones más frecuentes, así como las actividades de audio, información sobre el dispositivo desde el cual se conectaron a su cuenta, el historial de reproducciones y de búsqueda de YouTube, entre otra información. Google almacena datos sobre la lista de contactos de los teléfonos móviles, el modelo y marca del aparato, el operador de servicio contratado, además recolecta todas las veces que el usuario emplea su voz en las búsquedas.

La compañía también tiene la capacidad de conocer los lugares donde se encuentra el móvil o la tableta siempre y cuando se haya dado autorización a la aplicación de acceder a la ubicación. En este caso, Google sabrá con exactitud los lugares y el tiempo que pasó el usuario en dicho lugar.

Además la empresa de tecnología también guarda información sobre publicaciones y comentarios de los usuarios de Blogger, la lista de contactos en la red social Google , las conversaciones a través de Hangout, los archivos almacenados en Google Drive, todos los documentos que se crearon y guardaron en Google Docs, las fechas y actividades registradas en el calendario, los correos –incluyendo sus archivos– de Gmail, todas las imágenes de Google Foto, las notas de Google Keep y las compras que se hayan realizado así como las descargas de aplicaciones a través de Play Store. En cuanto a opciones de privacidad, desde el panel de control es posible solicitar a la empresa que ciertos datos no sean rastrados o bien, eliminar información como las ubicaciones. Mediante la aplicación https://takeout.google.com es posible solicitar al consorcio una copia en diferentes formatos de los datos que recolecta del cibernauta.

Sin embargo la industria del big data, enfrenta obstáculos: regulaciones políticas, competencia desleal, deficiencia en la recolección de datos, decisiones erróneas a partir de información imprecisa, etcétera. De acuerdo a la agenda Direct Marketing Association (DMA) en su último informe titulado Customer Acquisition Barometer se afirma que casi el 50% de los usuarios desconfían sobre las empresas que les solicitan información personal. En otro estudio efectuado por la empresa de seguridad en software Analytics Software and Soluciones (www.sas.com) se comprobó que en Europa existe aún mayor desconfianza: el 60% de los consumidores de productos en línea confesó no confiar en los organismos –públicos o privados– que registran sus actividades a través del uso de sus servicios y el 30% aseguró que esto se debe a que estos sectores no son transparentes en sus políticas.

Una gran cantidad de empresas han invertido no solo en sus recursos técnicos sino también en recursos humanos. Tal es el caso de empresas como Adobe, AOL, Bloomberg, Deloitte, FedEx, General Electric, Goldcorp, Hewlett-Packard, Microsoft, Pfizer, Transcom o Xerox, entre otras (Isson y Harriot, 2016). El año pasado la consultora de tecnología PwC (www.pwc.com) dio a conocer que solo el 50% de las empresas tienen capacidad para la digitalización de la información y tan solo el 14% tienen dentro de su organigrama alguna área dedicada a la recaudación de datos. En una consulta a dos mil compañías de 26 países en el mundo, PwC encontró que uno de los problemas que enfrenta la economía de los metadatos es la preparación de su personal y el desarrollo tecnológico interno para poder tomar decisiones a partir de un cúmulo enorme de datos que varían constantemente. Las empresas esperan invertir en 2020 un 5% de sus ingresos, es decir, más de 900 mil millones de dólares para fortalecer la capacidad de recolectar y analizar la información. El 83% de las compañías consideró que la cultura del big data les proporcionará beneficios económicos a corto y mediano plazo. Para la industria 4.0 conocer el comportamiento humano será una prioridad de la economía del futuro.

Referencias

Baca, M. (1999). Introducción a los metadatos: vías a la información digital. Estados Unidos: The J. Paul Getty Trust.

Isson, J. y Harriot, J. (2016). People analytics in the era of big data. Estados Unidos: Willey.

Li, K., Jiang, H., Yang, L. y Cuzzocrea, A. (2015). Big data: algorithms, analytics, and applications. New York: CRC Press.

Mayer-Schönberger, V. y Cukier, K. (2013). Big Data. La revolución de los datos masivos. Madrid: Turner Publicaciones.

Autor

Sergio Octavio Contreras
Doctor en Ciencia Política. Comunicólogo y master en sociedad de la información por la @UOCuniversitat. Profesor universitario. Consultor y conferencista en redes sociodigitales. Twitter: @Ciberpensador
View all posts