Científicos de USC/JPL permitieron historias de big data en los Papeles de Panamá

Chris Mattman es científico de datos senior y arquitecto jefe del Departamento de Sistemas de Datos e Instrumentos del Laboratorio de Propulsión a Chorro. Vive en Pasadena y también es director del grupo de Recuperación de Información y Ciencia de Datos y profesor asociado en la Escuela de Ingeniería Viterbi de la USC. Como estudiante de posgrado en la USC, Mattmann coinventó el software Apache Tika, utilizado para extraer datos. Los papeles de Panamálo que saca a la luz algunas de las formas en que algunas personas ricas, incluidos líderes mundiales, han ocultado su riqueza.

Chris Mattmann enseña en el Departamento de Ciencias de la Computación de la USC. (Foto/Dan Goods)

Después de obtener su licenciatura, maestría y doctorado en la USC, Mattmann ahora imparte cursos allí. Departamento de Ciencias de la Computación. Lo bueno de la universidad, dijo, es que los estudiantes de informática pueden contribuir al desarrollo de software y trabajar en proyectos con impacto en el mundo real.

¿Cómo surgió Apache Tika?

Desarrollé Tika con Jérôme Charron cuando era estudiante de posgrado en la USC [the course] “Motores de búsqueda” con el profesor Ellis Horowitz a mediados de la década de 2000. Primero me involucré en un proyecto llamado Apache Nutch, cuyo objetivo era democratizar las búsquedas en línea para que todos pudieran ver los algoritmos de clasificación que mostraban por qué veían ciertos resultados de búsqueda. Aprendí que un componente clave de un motor de búsqueda es identificar tipos de archivos. [code, video, image, etc.] y extraer texto y metadatos [data about data — who created it, when, where, what the subject matter is, what language it’s in, etc.].

Entonces, la idea de Tika surgió cuando Jérôme y yo nos dimos cuenta de que muchos programas diferentes necesitan identificar tipos de archivos y extraer datos. Lo creamos en la plataforma Apache para que esté disponible gratuitamente para cualquiera que quiera utilizarlo. Tika es un “pez de Babel digital”: puedes arrojarle cualquier archivo y Tika te explicará el contenido que contiene. Ahora lo utilizan empresas como Adobe y FICO para gestionar sus datos.

¿Ha evolucionado este software desde que se desarrolló por primera vez?

A través de inversiones de organizaciones como DARPA y NASA, Tika ha evolucionado desde un software que permite la extracción de datos básicos a un software que puede extraer datos más complejos sobre personas, lugares, fechas y horas de cualquier archivo, incluidas imágenes y videos. Ahora se puede utilizar un documento de Word para identificar personas y sus ubicaciones en latitud y longitud. En cuanto al idioma, la traducción automática también está integrada en la plataforma: Tika no sólo determina en qué idioma están los datos, sino que también los traduce automáticamente a su idioma preferido. Estos desarrollos incluyen el aprendizaje automático y la inteligencia artificial y continúan mejorando.

¿Cuáles son los usos de Tika?

El uso previsto de Tika es como pez de Babel digital. Dado que los datos son heterogéneos y diversos, Tika es una plataforma para simplificar los datos e integrarlos en un vocabulario común. Muchas industrias pierden mucho tiempo extrayendo información de los datos cuando, en cambio, deberían estar ganando dinero para sus clientes. Tika hace que este proceso sea mucho más eficiente. Tika está pensado para su uso en motores de búsqueda, sistemas de gestión de contenidos, análisis de datos forenses, entornos científicos, sistemas financieros y aplicación de la ley, todos ellos sistemas que plantean desafíos debido a la cantidad de datos que gestionan.

¿Existen preocupaciones de privacidad sobre software como Tika, particularmente a la luz de los Papeles de Panamá?

Tika no viola la privacidad, pero eso podría suceder en el entorno circundante porque facilita el análisis de datos. Es importante recordar que Tika por sí solo no recopila datos personales, pero debido a que es software de código abierto, puede usarse para propósitos cuestionables, muchos de los cuales no soy partidario, pero no los controlamos. La información permite a las personas hacer cosas buenas con ella y centrarse en las cosas correctas, pero también puede fomentar el mal uso.

En el caso de los Papeles de Panamá, no habría importado que Tika hubiera estado disponible si los datos nunca hubieran estado disponibles. Aún así, independientemente de la brecha real en materia de ciberseguridad, los Papeles de Panamá son motivo de preocupación internacional y deberíamos preocuparnos por lo que la gente está haciendo para evadir impuestos, especialmente cuando esas personas son nuestros líderes mundiales. Es importante que los medios no ignoren esto.

¿Qué usos futuros cree que ofrecerá el software de análisis de metadatos, y Tika en particular?

El software de análisis de metadatos sigue siendo un recurso muy poco explotado. Este software puede revelar patrones en los datos que ofrecen un gran potencial para nuevos descubrimientos en ciencia y medicina, así como avances en las estrategias de aplicación de la ley. Por ejemplo, los terroristas ya no podrán operar y colaborar tan abiertamente como lo hacen hoy, ya que un software como Tika detecta inmediatamente la publicación de imágenes e información en Internet. Las conexiones en la ciencia podrían revelarse a través de imágenes tomadas con el mismo instrumento, que sólo pueden revelarse observando los metadatos y no procesando las imágenes. En la vida cotidiana, software como Tika permite motores de búsqueda y sistemas de gestión de contenidos mejores y más eficientes.

Leonor Garza

"Típico ninja de la televisión. Amante de la cultura pop. Experto en Internet. Aficionado al alcohol. Aspirante a analista. Aficionado general al tocino".

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *