Red de conocimiento del abogados - Respuesta jurídica de la empresa - Cómo evaluar los motores de búsqueda Ji Yichao, Peak Labs y Magi

Cómo evaluar los motores de búsqueda Ji Yichao, Peak Labs y Magi

Comentarios positivos:

Las capacidades de ingeniería del equipo de @jiyichao son muy sólidas. Algunas personas pueden crear una demostración utilizable en un año. El nivel no es inferior al de nadie que haya visto. .Excelentes ingenieros. Con un equipo tan eficiente, creo que las cosas serán cada vez más fluidas en el futuro.

La construcción y aplicación de gráficos de conocimiento también será el próximo punto de crecimiento para diversas tareas relacionadas con el texto. Google ha puesto mucho esfuerzo en ello, al igual que M$, y la atención y la inversión de la comunidad académica en esta área también siguen creciendo. Creo que en los próximos años, incluso si no existen productos disruptivos como Uber y Airbnb en este ámbito, al menos los efectos de varias herramientas que utilizamos a diario, como la búsqueda, Siri, etc., mejorarán a un nuevo nivel. nivel.

Al final, Maji identificó la brecha en el mercado interno y aprovechó un buen punto de entrada. La acumulación del equipo original también hizo que Magi navegara sin problemas en el mercado de capitales. Las relaciones públicas de 36 Krypton (publicidad) también están bien hechas. Por ejemplo, la conexión con historias de éxito de relaciones públicas, Watson y diversas visiones de ciencia ficción más allá de las descritas en los informes de solicitud de fondos de investigación científica. Estas son cosas en las que todo joven que quiera iniciar un negocio debe pensar y aprender.

En resumen, creo que Magi puede tener éxito. Si Baidu no lo copia en el futuro, Baidu lo comprará. Supongo que me inclinaré a comprarlo. Después de todo, Baidu lo fabrica desde cero y el costo de mano de obra no es bajo. También es difícil encontrar talentos correspondientes en China.

Al mismo tiempo, también hay muchas dudas:

Duda 1:

Son esas consultas largas (términos de búsqueda) en la demostración. Es muy, muy difícil entender una consulta larga. Sin mencionar la comprensión de las preguntas chinas que no tienen un formato fijo. En la demostración, es muy sencillo producir buenos resultados para varias consultas complejas y largas. ¿Es bueno en una aplicación real? Después de probar la demostración del complemento, sentí que no era lo suficientemente bueno. Desde el punto de vista técnico de la inferencia del efecto de la demostración, personalmente creo que no es una brecha cuantitativa, sino una brecha cualitativa en términos de realizar realmente el tipo de consulta larga mencionada en la demostración.

¿Por qué? Por analogía, Watson tiene innumerables ingenieros, e IBM, a quien no le falta dinero, lo hace completamente como un proyecto de relaciones públicas sin requisitos de rendimiento, solo para Jeopardy. Sólo en inglés, que tiene W y H para expresar la intención de la pregunta, y es una pregunta de formato fijo de Jeopardy, podemos lograr mejores resultados. Este proceso duró unos 5 años. Además de muchos expertos en el campo del control de calidad, también hay muchos ingenieros que proporcionan código físico para mejorar los resultados.

Y Watson todavía está lejos de estar realmente disponible comercialmente. Ni siquiera creo que Watson pueda usarse comercialmente. (Mi opinión personal sobre el control de calidad es que esto estará disponible comercialmente en el futuro para satisfacer la mayoría de las necesidades diarias de preguntas y respuestas. Pero este proceso puede tardar 5 años en comenzar. Y esto puede suceder en Google, tal vez en Siri de Apple, puede ser que MSR tiene el documento primero, pero si es IBM, me sorprendería)

Si Magi puede lograr el efecto de análisis de consultas largas que se muestra en la demostración, no hay necesidad de hacer nada más. Es posible tener un documento al nivel de la tarjeta verde Eb1A que permite a los dos fundadores presentar talentos de alta tecnología juntos, y luego puede ser adquirido por Google, IBM o Baidu sin decir una palabra.

Entonces creo que o el equipo de Magi es un genio incomparable. En un año, sin datos de capacitación de usuarios, algunas personas y chinos, pueden lograr el efecto de consultas largas en la demostración, o esto es así. solo por exageración del propósito.

Duda 2:

La llamada extracción automática de gráficos de conocimiento de información no estructurada de Magi. Lo que está escrito en la página de inicio de Magi es:

La creciente base de datos estructurada de Magi tiene actualmente 21 millones de objetos en 950 categorías principales y 3300 subcategorías, que van desde videojuegos hasta astrofísica, desde actrices audiovisuales hasta Estados Unidos. Todos los aspectos del información del presidente y red de conocimientos resumidos de más de 160 millones de hechos

Este efecto es muy sorprendente.

Muy sorprendente.

Muy sorprendente.

(Repetición para énfasis)

¿Qué tan asombroso es? Si esto es cierto, y estas 950 categorías principales, 3399 subcategorías y 21 millones de objetos son realmente utilizables, entonces:

1. El fundador puede utilizar cualquier Best Paper relevante, la conferencia más importante en el campo. se convertirá en una nueva estrella en el campo de la extracción de información.

Analogía: Open Information Extraction y NELL de nuestra escuela son esfuerzos relativamente conocidos para extraer automáticamente gráficos de conocimiento a partir de información no estructurada. El primero es de la Universidad de Washington en Seattle y el segundo es de CMU. Dos grupos llevan más de 5 años trabajando en estos dos sistemas. CMU está dirigido directamente por el jefe del Departamento de Aprendizaje Automático. El programa de rastreo y análisis no se ha detenido durante varios años, pero aún no puede alcanzar el nivel 1/10 de Magi. También hay mucho ruido y no. todavía ha alcanzado un nivel utilizable. La cantidad y la calidad no son tan buenas como usar directamente el volcado de Wikipedia. ¿Cuántos objetos tiene Wikipedia? Alrededor de 5 millones.

2. Google o MS estarán dispuestos a comprarlo directamente. No quieren nada más, sólo este sistema.

Analogía: Freebase Freebase (necesita sortear el firewall...) es el más útil en el gráfico de conocimiento. En 2010, Google gastó mucho dinero para comprarlo. La cantidad gastada no se ha anunciado, pero Freebase ha recibido 57 millones de dólares en financiación antes. Google debería gastar al menos el doble, es decir, más de 100 millones de dólares.

Después de que Google lo compró, gastó mucha mano de obra para mejorar la calidad y cantidad de Freebase, así como las contribuciones de la comunidad, utilizando métodos tanto automáticos como no automáticos. Después de 4 años, ¿cuál será la magnitud de Freebase?

37 millones de objetos, 500 millones de hechos, 77 categorías principales

y cientos de categorías pequeñas (sin número específico).

Y entre esos 37 millones de objetos, ¿cuántos son utilizables, es decir, tienen información completa, nombres y descripciones textuales?

Aún quedan 5 millones. Este es el tamaño del conjunto de objetos utilizado en la anotación de entidad de la página web publicada por Google y nuestro equipo.

Además, estas estadísticas están todas en inglés.

Entonces, si lo que se anuncia en la página de inicio de Magi es cierto, entonces algunas personas, en un año, habrán aprendido sobre chino, un idioma al que es más difícil acceder que el inglés, fuera de los Wikis existentes. enciclopedias y similares, que ha logrado más resultados de los que Google gastó más de 57 millones de dólares para adquirir Freebase, que se ha cultivado durante 4 años como el próximo punto central de crecimiento.

Al mismo tiempo, incluso se puede decir que Magi ha resuelto más de la mitad del 5% restante de los problemas de segmentación de palabras chinas con la ayuda de algunas personas. A partir de entonces, la segmentación de palabras chinas puede. Incluso se puede decir que es un problema resuelto. Como todos sabemos, la segmentación de palabras se puede realizar muy bien en el 95% de los casos, y el 5% restante es un problema de palabras raras. La mayoría de ellos son entidades con nombre, que son los llamados objetos.

¿Cuál es el concepto de 21 millones de entidades nombradas? Generalmente, la cantidad de palabras que se pueden segmentar mediante la segmentación de palabras chinas es probablemente del orden de cientos de miles. Sobre la base de estos cientos de miles, de repente se agregaron 21 millones de entidades nombradas, presumiblemente a partir de ahora:

Cualquier empresa china de procesamiento de información básicamente ya no necesita preocuparse por la segmentación de palabras.

Todos los anuncios en línea se pueden mejorar directamente en un orden de magnitud a través del efecto de estos 21 millones de entidades nombradas.

Todos los métodos de entrada chinos ya no tendrán el problema de seleccionar palabras una por una, y allí No es necesario seleccionar la descarga del Tesauro de la industria Shenma, simplemente confiar en estos 21 millones parece ser suficiente.

Si todo esto es cierto:

Les ruego que entreguen los datos… les ruego que cooperen profundamente… les ruego que no se los vendan a un gran negro Empresa solidaria que no abre el código fuente.

Al mismo tiempo, me disculpo sinceramente por mis dudas y le pido a Magi que me dé la oportunidad de una entrevista...

¡Por el progreso de la civilización humana, avancemos! ¡adelante! ¡adelante!