Mike Lynch: "Nicole Kidman no es una bola de gas cósmico"
El co-fundador y CEO de Autonomy construyó la mayor compañía británica de software al resolver un complejo problema de la computación: ¿cómo encontrar una información específica entre datos no estructurada –esto es, sin la información organizada en campos reconocibles por una bases de datos (sean de texto, audio o video), que constituyen la mayoría de lo que alguna vez fue digitalmente grabado? Las claves.
Por Jason Pontin
MIT Technology
La tecnología de Autonomy (que está licenciada por varias organizaciones) complementa los métodos de búsqueda tradicionales con técnicas de patrones de reconocimiento derivadas de la interferencia Bayesian, una forma abstrusa de análisis estadístico. El co-fundador y CEO de Autonomy, Mike Lynch, habló con el editor jefe de Tecnology Review (MIT TR), Jason Pontin sobre cómo desarrolló el concepto.
MIT: ¿Por qué me importa la información no clasificada?
LYNCH: Porque somos seres humanos y la información no estructurada está en el corazón de todo lo que hacemos. La mayoría de los negocios se hacen con este tipo de información amigable a los humanos. El 85 por ciento de los datos dentro de un negocio no están clasificados.
¿Por qué es un problema buscar información no estructurada?
Cuando la información está oragnizada, uno simplemente puede preguntar: ¿A es igual a B? Con la información no estructurada, la situación es más compleja. Se tiene un concepto de ideas que no concuerdan, pero tienen cercanía entre sí: en un sentido, “perro no es igual a “labrador , pero en otro sentido sí lo es. Es un área muy difícil de entender para las computadoras.
¿Por qué no usar la lógica Boolean (con motores de búsqueda usados para interpretar las preguntas clave)?
Para construir una búsqueda Boolean, uno tiene que estar bastante entrenado y saber qué está buscando. Digamos que queremos que la computadora detecte todos los artículos sobre Apple. Podríamos buscar por el símbolo bursátil de la compañía. Sin embargo, hay muchísimos artículos sobre Apple que no lo mencionan. Entonces, podríamos tener “Apple + computadora o “Mac + computadora y “no apple + árbol y “no apple + fruta , etc. Rápidamente terminaríamos con una expresión muy compleja. Pero el verdadero problema es que, al mismo tiempo que creamos este tipo de construcciónes, el mundo cambia y de repente tenemos que modificar esa compleja expresión y para agregar “iPhone .
¿Por qué la inferencia Bayesian, con su fundamento de probabilidad, no puede buscar mejor en los datos no clasificados?
Hubo dos intentos de crear sistemas que pudieran aprender cómo las ideas se relacionan entre sí sin que esas ideas tengan que estar predeterminadas. El primero es muy intuitivo: usa métodos semánticos. La computadora entiende las reglas de gramática y, en cierta forma, analiza las cosas. Pero hay un problema fundamental. Si yo te digo “el perro entró en la habitación y era peludo , uno puede definir el “era . Pero hay que tener algún tipo de conocimiento. Uno sabe, estadísticamente, que es más probable que el perro sea peludo, no la habitación (NdT: en inglés la confusión se genera porque los dos sustantivos no diferencian género). Entonces, las personas que trabajan con estos problemas se meten en situaciones en las que tienen especialistas con títulos de PhD sentados en cuartos definiendo que los perros tienen la capacidad de ser peludos. Y ese sistema empieza a desmoronarse cuando las relaciones entre las ideas no son absolutas, sino condicionales. Ahora, el otro acercamiento –el que nosotros utilizamos– es contrario a la intuición: uno trata todo como un problema matemático.
¿Cómo?
Imagine que toma todos los diarios y libros, corta todas las palabras en ellos y las pone en una bolsa negra: tendría un proceso aleatorio. No se podría esperar más que un sin sentido. Pero si selecciona una página real de texto, no es aleatorio: si leemos la palabra “perro , entonces la posibilidad de que aparezca la palabra “pasear aumentan. La razón es que el proceso está predispuesto por algo: la idea del perro que estaba en la mente del autor de la oración. Al usar la inferencia Bayesian uno puede, de hecho, inferir la existencia de una idea detrás de la palabra y sus relaciones. Lo maravilloso es que uno, intrínsecamente, obtiene contexto. Con los sistemas Bayesian, se entiende que solo porque Nicole Kidman sea una estrella, eso no significa que sea una bola de gas cósmico.
¿Por qué los algoritmos de Google no pueden buscar información que no esté clasificada?
Ser muy bueno en la búsqueda basada en palabras claves y rankings de popularidad no te da mucha ventaja en procesar información desorganizada cuando es necesario entender el significado.
Usted tiene objeciones filosóficas y prácticas al acercamiento de controlador de las búsquedas adoptado por Wolfram Alpha.
Estos métodos pueden funcionar muy bien en contextos limitados. Pero hay algunos problemas filosóficos grandes con la idea de que la información es absoluta en el sentido de que uno puede clasificarla sólo de una manera. Si uno viene de la palabra probable, lo primero que se aprende es que tiene que lidiar con las visiones de mundo de las personas. Un ejemplo simple: una computadora puede clasificar las mismas noticias de manera diferente trabajando para un diario palestino o israelí. Pero no hay nada malo en eso. La noción de que toda la información tiene que tener el mismo significado es algo enseñado con la idea de la ciencia objetiva desde la Reforma. Pero para la mayoría de las tareas que la gente tiene que realizar, está perfectamente aceptado que el significado esté en el ojo de quien busca.
(Copyright 2010 Technology Review, Inc. Distributed by Tribune Media Services)
Compartí tus comentarios