Seis interrogantes sobre el tratamiento de la gran cantidad de datos
Escrito por Pablo Rebelo. Publicado en E-business
La tecnología no es ni buena ni mala, ni es neutral ... la interacción de la tecnología con la
la ecología social es tal que los avances técnicos con frecuencia tienen consecuencias humanas a nivel ambiental, social, y van mucho más allá de los efectos inmediatos de dispositivos técnicos y las prácticas mismas.
Melvin Kranzberg (1986, p. 545)
Tenemos que abrir un diálogo (donde no hay un discurso eficaz ahora) sobre variables temporales y espaciales, materiales que nos pueden representar en nuestra bases de datos, con el fin de diseñar una máxima flexibilidad y permitiendo que sea posible una polifonía emergente. Los datos sin control son a veces una contradicción y una mala idea, los datos deben ser tratados con cuidado.
Geoffrey Bowker (2005, p. 183-184)
La era de los grandes datos ya ha comenzado. Los científicos en computación, físicos, economistas, matemáticos, los científicos políticos, informáticos biológicos, sociólogos y muchos otros están clamando por el acceso a las cantidades masivas de información producida por, y sobre personas, cosas, y sus interacciones. Diversos grupos discuten sobre los beneficios potenciales y los costos de análisis de información de Twitter, Google, Verizon, Facebook, Wikipedia, y cada espacio donde grandes grupos de personas dejan huellas digitales y depósitos de datos. Surgen preguntas importantes. ¿Ayudarán los análisis a gran escala del ADN a la curación enfermedades?
¿O se va a comenzar una nueva ola de la desigualdad médica? ¿ Los análisis de datos ayudaría a aportar más información y más eficaz a las personas? ¿Se va a transformar la manera en que los humanos se comunican, la cultura, o se reducirá las opciones de investigación y se alterará lo que se investiga? ¿Algunas o todas las anteriores?
Los datos masivos son mal procesados en muchos sentidos. Como Lev Manovich (2011) observa, han sido usados
en las ciencias para referirse a conjuntos de datos lo suficientemente grandes como para requerir supercomputadoras, aunque ahora enormes conjuntos de datos pueden ser analizados en computadoras de escritorio con el software estándar.
No hay duda de que las cantidades de los datos disponibles son realmente grandes, pero es no es la característica más relevante de este ecosistema de datos. La fgan cantidad de datos no es problema, sino su relación con otros datos.
Su valor proviene de los patrones que se pueden obtener al hacer las conexiones entre piezas de información, acerca de una individual, acerca de los individuos en relación con otros, sobre grupos de personas, o simplemente de la estructura de la propia información.
Por otra parte, para los grandes datos es importante que se refiera a un fenómeno de análisis en la academia y la industria. Gran cantidad de datos inducen a algunos investigadores a creer que ellos pueden ver todo desde un punto de vista de muy lejano. Es el tipo de datos que fomenta la práctica del apofenia: ver patrones donde no existen en realidad, simplemente porque las cantidades masivas de datos pueden ofrecer conexiones que irradian en todas direcciones. Debido a esto, es crucial empezar a hacer preguntas acerca de los datos de análisis, los marcos metodológicos y que subyace a los sesgos implícitos en el fenómeno de datos grandes.
Mientras que las bases de datos han llevado a la agregación de datos de más de un siglo, las grandes cantidades de datos ya no es sólo del dominio de los técnicos y los científicos. Las nuevas tecnologías han hecho posible que una amplia gama de personas - incluyendo las humanidades y las ciencias sociales, académicos, comerciantes, organizaciones no gubernamentales, instituciones educativas e individuos motivados- produzcan, compartartan, interactuen y organicen los datos.
Los conjuntos de datos masivos están siendo agregados y son de fácil acceso. Los datos son el aire cada vez más digital: el oxígeno que respiramos y el dióxido de carbono que exhalamos. Lo puede ser una fuente tanto de sustento como de contaminación.
La manera como manejamos el surgimiento de una época de grandes datos es fundamental: mientras se está llevando a cabo en un ambiente de incertidumbre y el cambio rápido, las decisiones actuales tendrán un considerable impacto en el futuro. Con la mayor automatización de la recogida y análisis de datos –así como los algoritmos que se pueden extraer e informarnos de los patrones masivos en el comportamiento humano – todo esto es necesario para hacer con que los sistemas estén impulsando estas prácticas, y que se haga la regulación de ellos. En el “Código”, Lawrence Lessig (1999) se sostiene que los sistemas están regulados por cuatro fuerzas:
el mercado, la ley, las normas sociales, y la arquitectura - o, en el caso de la tecnología, el código de programación.
Cuando se trata de muchos datos, estas cuatro fuerzas juegan en conjunto, o están también en conflicto. El mercado ve una oportunidad de manejar muchos datos: los vendedores que lo utilizan para dirigir la publicidad, los seguros, los proveedores quieren optimizar sus ofertas, y los banqueros de Wall Street lo utilizan para leer mejor sobre el temperamento del mercado. La legislación ya ha sido propuesta para frenar la recolección y retención de datos, por lo general debido a preocupaciones sobre la privacidad (por ejemplo, la Ley de 2011 online en los Estados Unidos). Las características como la personalización permiten acceso rápido a la información más relevante, pero presentan difíciles cuestiones éticas y fragmentos de la opinión pública de manera problemática (Pariser 2011).
Existen algunos estudios significativos y profundos en la actualidad, se basan en gran metodologías de datos, en particular los estudios de las prácticas en páginas de redes sociales como Facebook y Twitter. Sin embargo, es imperativo que comencemos a hacernos preguntas críticas acerca de lo que significan todos estos datos, quién tiene acceso a ellos, cómo se utilizan y para qué fines. Con los datos vienen grandes responsabilidades. En este ensayo, estamos ofreciendo seis provocaciones sobre los temas de grandes datos. Los investigadores sociales y culturales tienen un interés en la cultura computacional de grades datos, precisamente porque muchas de sus preguntas centrales son fundamentales para nuestras disciplinas. Por lo tanto, creemos que es el momento para
empezar a interrogar críticamente este fenómeno, sus supuestos y sus prejuicios.
1. La automatización de búsqueda de datos cambia la definición del conocimiento
Al igual que Ford cambió la forma en que hizo los coches, datos masivos se han convertido en un sistema de conocimiento que ya está cambiando los objetos de conocimiento, mientras que también tiene el poder de informar cómo entendemos las redes humanas y de la comunidad. "Cambia los instrumentos, y se va a cambiar toda la teoría sobre la estructura social que va con ellos ".
2. Los argumentos hacia la objetividad y la precisión son engañosos
Datos masivos ofrecen a las disciplinas humanísticas una nueva forma de invocar la condición cuantitativa, la ciencia y el método objetivo. Trabajar con datos grandes sigue siendo subjetivo, y lo que se cuantifica no tiene necesariamente una demanda más cerca de la verdad objetiva - especialmente al considerar los mensajes sociales
los medios de comunicación y las páginas.
Mientras que los científicos computacionales comienzan a participar en los actos de las ciencias sociales, hay una tendencia a reivindicar su trabajo como negocio de los hechos y no de interpretación. Un modelo puede tner sentido a nivel matemático, un
experimento puede parecer válido, pero tan pronto el investigador trata de comprender, el proceso de interpretación ha comenzado.
3. Más datos no siempre significa mejores datos
Los investigadores cuantitativos sopesan la estadística. Éstas son sólo algunas de las formas en que los científicos sociales tratan de evaluar la validez de sus respectivos trabajos. Por desgracia, algunos de los que están adoptando los grandes datos presumen que los temas centrales metodológicos de las ciencias sociales ya no son relevantes. Hay un significado subyacente de que cuanto más grande mejor, pero esa cantidad no significa necesariamente calidad.
Twitter se ha convertido en una fuente popular y minería de grandes datos, pero trabajar con los datos de Twitter tiene graves problemas metodológicos que rara vez son abordados por aquellos que lo adopten.
Cuando los investigadores se acercan a un conjunto de datos, tienen que entender y tener en cuenta no sólo los límites del conjunto de datos, sino también los límites de las preguntas que se le puede pedir a un conjunto de datos y las interpretaciones que son adecuadas.
Por último, en la era de la informática cada vez es más importante reconocer el valor de los pequeños datos. Se pueden encontrar puntos de vista de investigación en cualquier nivel, incluso a muy modestas escalas.
4. No todos los datos son equivalentes
Algunos investigadores suponen que los análisis realizados a pequeños datos se pueden hacer mejor que con grandes datos. Este argumento supone, además, que los datos sean intercambiables. Sin embargo, fuera de contexto, los datos pierden su significado y valor. El contexto es importante.
Redes articuladas son las que resultan de las personas que especifican sus contactos a través de un la mediación de la tecnología.
Redes de comportamiento se derivan de los patrones de comunicación, las coordenadas de celda, y las interacciones sociales de los medios. Esto puede incluir
personas que comparten un mensaje de texto entre sí, los que etiquetan fotos juntos en Facebook, la gente que envía por correo electrónico de unos a otros, y las personas que están físicamente en el mismo espacio, por lo menos de acuerdo con su teléfono móvil.
El análisis de redes puede hacerse con las redes de comportamiento y articuladas. Pero hay un riesgo en una época de grandes datos de tratar a cada conexión como equivalente a todas las otras conexiones.
5. Simplemente porque es accesible no significa que sea ético
En 2006, un proyecto de investigación con sede en la Universidad de Harvard comenzó a reunir los perfiles de 1.700 estudiantes. Como usuarios de Facebook, sus intereses y amistades cambiaron con el tiempo.
Lo que otros investigadores descubrieron rápidamente es que era posible identificar partes del conjunto de datos y comprometer la privacidad de los estudiantes, ninguno de los cuales estaban conscientes de que sus datos se estaban recopilando.
Incluso cuando los investigadores tratan de ser cautelosos acerca de sus procedimientos, no siempre son conscientes del daño que podría estar causando en sus investigaciones.
Con muchos datos emergentes como en un campo de investigación, se sabe poco acerca de la ética y las implicaciones de la investigación que se realiza.
6. Acceso limitado a los datos crea nuevas brechas digitales.
Históricamente hablando, la recogida de datos ha sido difícil, consume tiempo, y
el uso intensivo de recursos. Gran parte del entusiasmo que rodea grandes datos se deriva de la percepción de que ofrece un fácil acceso a cantidades masivas de datos. Además de las cuestiones de acceso, hay cuestiones de habilidades.
La era de los grandes datos solo ha empezado, y es importante que comencemos a cuestionar los supuestos, valores y prejuicios de esta nueva ola de investigación. Como los estudiosos invierten en la producción de conocimiento, y si tales interrogaciones son una componente esencial de lo que hacemos.
