Algunas ideas erróneas sobre AlphaGo
Recientemente leí algunos artículos sobre inteligencia artificial en el juego AlphaGo Go, especialmente artículos de profesores estadounidenses de inteligencia artificial. Descubrí que casi todas las cosas promocionadas por los medios eran incorrectas y exageradas. Hice un resumen de mi experiencia de lectura.
En primer lugar, una corrección a la falsa propaganda de los medios:
1. Se puede decir que Alphago hizo historia con un hito, pero no produjo ninguna tecnología muy innovadora. mientras que Deep Mind simplemente Algunas de las tecnologías de inteligencia artificial ya existentes (especialmente la aplicación de la tecnología de reconocimiento de imágenes de máquinas al juego de ajedrez) nunca antes se habían pensado en este intento.
2. Alphago no tiene un verdadero sentido del ajedrez y, en realidad, no sabe cómo pensar ni crear estrategias. Está mal que los comentaristas de Go traten a alphago como a un ser humano. Alpha sigue preguntándose cuánto aumentará mi tasa de ganancias con el siguiente paso.
3. Alphago no tiene una gran capacidad de aprendizaje. Su fuerza actual en el ajedrez se basa en la imitación y la especulación de casi 100 millones de partidas de ajedrez. estaba muy débil. No sólo aprende menos eficientemente que los humanos, sino que también aprende menos eficientemente que los animales de circo. Por lo tanto, es imposible mejorar cada juego contra Li. La experiencia de un juego no tiene ningún impacto en alfa go.
4. Alphago en realidad se basa en el agotamiento de la fuerza bruta, pero utiliza nuevos métodos de aprendizaje automático. No hay contradicción entre el método exhaustivo y el aprendizaje automático.
5 Vi un artículo antes que decía que alfa no es tan rápido como Deep Blue. De hecho, Alpha es 50.000 veces más rápido que Deep Blue. La potencia informática del iPhone 6s que se utiliza hoy en día es decenas de veces mayor que la del Deep Blue.
6. Es incorrecto decir que la velocidad de cálculo del cerebro humano es lenta. Correspondiente a la velocidad de cálculo de la computadora es la velocidad de cálculo de las neuronas del cerebro humano. la velocidad de cálculo del cerebro humano es 1.000 billones de veces por segundo y la capacidad es 100.000 veces mayor que la de Deep Blue.
7. Alpha no se aprende por completo. En primer lugar, la capa inferior requiere que las personas programen las reglas de Go. En segundo lugar, los principios básicos del siguiente período también se ingresan manualmente. > Un breve resumen de la experiencia de lectura: primero, incluye el programa alpha Go y el ajedrez de Deep Blue, ambos métodos de búsqueda de fuerza bruta. Es decir,
1. Considere todos los posibles cambios futuros,
2 Calcule la tasa de ganancia del movimiento en los siguientes pasos,
3. la mudanza. Pero cada movimiento en Go cambia más que en el ajedrez, y hay más movimientos. Los posibles tipos de cambios exceden el número total de átomos en el universo. De hecho, esto también es válido para el ajedrez. Deep Blue contrató a una gran cantidad de ajedrecistas profesionales para establecer un sistema de puntuación, como cuántos puntos vale un peón y cuánto aumenta la tasa de victorias al capturar la torre de un oponente. Este sistema de puntuación es muy preciso, y el de Deep Blue. El alcance del pensamiento se comprime en una docena de pasos.
Pero Go no se puede evaluar de esta manera. El programa Go anterior era una simple entrada manual y era muy rígido para actuar de acuerdo con la situación. El poder de ajedrez de estos programas es de aproximadamente 400.
En 2006, se inventó un método de búsqueda llamado árbol de Monte Carlo. Utiliza un método de simulación de probabilidad (similar a simular el lanzamiento de dados) y solo necesita determinar el resultado final, lo que compensa la imposibilidad de hacerlo. establecer un movimiento definitivo en Go. (Alpha Go también utiliza el método del árbol de Monte Carlo). Sin embargo, este método requiere demasiados cálculos para llevarse a cabo hasta el juego final, por lo que es necesario pedir a los expertos de Go que le ayuden a formular las reglas del ajedrez para reducir la cantidad de cálculo. . Este método puede mejorar la capacidad de ajedrez de la inteligencia artificial hasta el nivel amateur 5.
Pero el progreso del ajedrez informático en los últimos diez años ha sido pesimista, hasta alfago. Introduce redes artificiales profundas sobre esta base. Las redes neuronales se inventaron hace 50 años y son adecuadas para programar cosas que no tienen una relación causal intuitiva, y el software puede aprender y adaptarse por sí solo. Sin embargo, la programación es demasiado difícil y la cuestión de la potencia informática no se ha tomado en serio en el pasado.
Hace 6 años era técnicamente posible llegar a 10 capas de neuronas y las redes neuronales empezaron a crecer. Al combinar big data y tecnología de computación en la nube, las redes neuronales se han vuelto populares. Programas como el procesamiento de imágenes y el reconocimiento facial son difíciles de programar intuitivamente por parte de los programadores. Aquí es donde entran en juego las redes neuronales, donde la tecnología de redes convolucionales profundas domina el campo. La innovación del equipo Alpha Dog fue darse cuenta de que esta tecnología de reconocimiento de imágenes podría usarse para jugar al ajedrez. El equipo de Alpha Dog actualizó la red neuronal a 13 capas para predecir los movimientos de los jugadores de ajedrez humanos.
En primer lugar, aprendió los 30 millones de registros de juegos de aficionados de alto nivel en la plataforma de batalla Go como la respuesta correcta para que el perro alfa adivine los movimientos humanos. En otras palabras, alfa inicialmente imitó la jugabilidad promedio de los maestros aficionados. Al mismo tiempo, el equipo ingresa manualmente el conocimiento de Go. Alpha es una mezcla de redes neuronales y programación manual.
Esta predicción del juego humano se llama red estratégica, y la versión alfa en este momento se llama versión rp. Según el artículo del equipo Alpha Dog, la red de estrategia se agrega al programa Go con habilidad de ajedrez amateur de 3 etapas, y su habilidad de ajedrez puede alcanzar la habilidad de ajedrez amateur de 6 etapas. El poder del ajedrez aumentó en 950 puntos a 2600 (por cada diferencia de 230 puntos en los puntos de poder del ajedrez, la tasa de victorias de las partidas al mejor de cinco entre ambos lados es del 95% para el que tiene la puntuación más alta en este momento). , alfa se ha convertido en el programa Go más sólido del mundo.
Para reducir la cantidad de cálculo, alpha dog utiliza una red convolucional profunda llamada red de valor como función de evaluación y utiliza el promedio de los resultados de predicción de alpha y los resultados de expansión reales como referencia de la tasa ganadora. información. El perro alfa que agrega esta característica se llama versión completa. Su habilidad en el ajedrez aumentó en 450 puntos. Llegó a 3100.
(Todos deben saber que entre los jugadores cuya fuerza de ajedrez difiere en 500, es difícil para el jugador con baja fuerza de ajedrez ganar una partida. Si la diferencia es 1000, la tasa de victorias del jugador con baja fuerza de ajedrez La fuerza del ajedrez es casi 0)
En primer lugar, un jugador que acaba de empezar y solo conoce las reglas tiene una fuerza del ajedrez de 0.
El programa Go con reglas de ajedrez escritas a mano tiene una potencia de ajedrez de aproximadamente 400. Es decir, el programa determina qué movimientos debe realizar el oponente y cómo debe moverse el programa. Este tipo de poder de ajedrez depende únicamente del software de programación manual.
El nivel más bajo (nivel 1) de los ajedrecistas amateurs ronda los 1.000.
La potencia alfa go agregada a la red neuronal es 1500. Equivale al nivel amateur 4. En ese momento, aloha go también era un software de reglas de programa, pero solo dependía del entrenamiento de redes neuronales para agregar conocimiento de Go.
La versión r de alpha go tiene una fuerza de ajedrez de 1700. Equivalente al 5º Dan amateur. En ese momento, Alpha Go agregó una función de búsqueda de árbol de Monte Carlo, pero se basaba principalmente en programas escritos a mano.
La potencia de ajedrez zen de un programa similar a la versión r de alpha go es 2200. Equivalente al 7-dan amateur.
El poder de ajedrez de la versión rp de alpha go es 2700. En comparación con la versión r, la mejora de la versión rp es agregar la "red estratégica" basada en la estrategia Go más básica de programación manual. Esta función es una red neuronal que predice la posición del oponente. Por lo tanto, el poder de ajedrez de Alpha Go ha aumentado considerablemente a casi 1000 poderes de ajedrez. Se ha convertido en el software Go más potente del mundo. Esta habilidad ajedrecística es probablemente la del jugador profesional de menor nivel (Nivel Profesional 1).
El campeón europeo Fan Hui, que fue barrido por alpha go en la segunda mitad de 2015, tiene un poder de ajedrez de aproximadamente 2900. Equivale al nivel comprendido entre el 2º y 3º nivel de la profesión.
El poder de ajedrez de la versión completa de alpha go es más de 3100 (a finales de 2015). Esta versión de alpha go agrega una red convolucional profunda DCNN de "red de valor" que antes. Puede evaluar la tasa de victorias de ambos lados sin calcular el juego hasta el final, lo que supone una reducción significativa en los cálculos como se mencionó en el artículo anterior. Esta tecnología se utilizó originalmente en la tecnología de reconocimiento de imágenes.
En ese momento, el poder de ajedrez de Lee Sedol era de más de 3.500. Equivale a superar el nivel más alto (nivel de carrera 9).
El poder de ajedrez de Ke Jie es de aproximadamente 3600.
De hecho, cuando se anunció el desafío a Lee Sedol, Alpha Go estaba unos 400 puntos detrás de Lee. Mejora las habilidades de ajedrez al jugar muchas partidas consigo mismo. (Cuando derrotó a Fan Hui, aprendió observando los datos históricos de batallas de alto nivel de aficionados humanos. Para derrotar a oponentes más fuertes, solo puede aprender de jugadores más hábiles, que es él mismo). La capacidad de ajedrez del programa continúa mejorando durante los juegos continuos, y la capacidad de ajedrez mejorada produce datos de ajedrez de mayor nivel cuando se juega contra sí mismo.
Aunque el hermano Ling no vio la fuerza de ajedrez de alfa go cuando derrotó a Li Sedol, simplemente calculé que la fuerza de ajedrez de alfa go cuando derrotó a Li Sedol en marzo de 2016 era de aproximadamente 3800. (Porque la diferencia de 230 puntos y una tasa de victorias del 95% en tres de cinco juegos se puede calcular como una tasa de victorias en un solo juego del 80% o incluso menos. El poder de ajedrez de Li es de aproximadamente 3530) Entonces Ke Jie ya no era el oponente de Alpha Go. En ese tiempo.
Ahora alpha go desafía a todos los maestros de Go a ganar 60 juegos consecutivos (el único empate fue cuando el jugador humano se desconectó). En cuanto a la fuerza actual del ajedrez, debería ser imposible evaluarla.
Porque si no pierdes una partida, no sabes cuál es tu fuerza en el ajedrez. Según el método de cálculo del poder del ajedrez, el poder del ajedrez debe ser infinito, lo que significa que el poder de combate en los cómics de Dragon Ball está fuera de serie. Sólo perdiendo al menos una partida se puede estimar su fuerza real en el ajedrez.
Otros:
Hablando de alfa, no tiene ningún sentido de expectativa, lo cual es diferente del ajedrez humano. Mientras los humanos aprendan a jugar al ajedrez, resuman las reglas del juego de ajedrez y cómo jugarlo, y analizan las relaciones causales y las relaciones lógicas. Alpha Go solo calcula cuánto aumentará su tasa de victoria al realizar este movimiento (este aspecto). No es diferente de Deep Blue, pero el método de evaluación es diferente) No es realmente sabio y conoce todo tipo de estrategias.
Alpha Go aprende igual que entrena a los animales. Si haces el movimiento correcto, serás recompensado y animado a dar ese paso con mayor probabilidad en el futuro. Si haces el movimiento equivocado, serás castigado. Y esta eficiencia es muy baja, de hecho, su alto nivel se consigue aprendiendo a jugar al ajedrez todos los días, lo que a un jugador profesional medio le llevaría más de toda una vida.
Y este proceso de aprendizaje "no tiene pensamientos ni conceptos de alto nivel", es solo un proceso de búsqueda.
Como se mencionó anteriormente, la eficiencia de aprendizaje de alpha go es muy baja. Debido a que alpha go tenía poca adaptabilidad a nuevas situaciones cuando aprendió 30 millones de partidas de ajedrez, el análisis encontró que muchas de estas partidas de ajedrez eran redundantes y solo equivalían a 160.000 partidas de ajedrez. Cientos de miles de partidas de ajedrez no son suficientes para entrenar alfa go. Se necesitan decenas de millones de entrenamiento en partidas de ajedrez. Por lo tanto, los jugadores de ajedrez profesionales en la televisión explicaron que es imposible que Alpha Go aprenda nuevas habilidades de Lee Sedol en cada juego. Uno o dos juegos son inútiles para Alpha Go. En cambio, Lee Sedol aprendió de Alpha Go y utilizó métodos innovadores para derrotar a Alpha Go. Esta capacidad de los humanos no la posee la inteligencia artificial.
Los expertos en inteligencia artificial creen que la inteligencia artificial actual no es en realidad verdadera inteligencia. Alpha Go es sólo un software con una gran capacidad para jugar al ajedrez, mientras que Watson de IBM es sólo una máquina con una gran capacidad intelectual para responder preguntas. La verdadera inteligencia artificial consiste en dejar que una máquina de inteligencia artificial de pizarra vea Go, aprenda las reglas del ajedrez por sí misma e infiera cómo jugar al ajedrez por sí misma. (Las reglas actuales de Go y las estrategias básicas de ajedrez de Alpha Go están todas programadas manualmente) Deep Mind se compromete a desarrollar programas reales de inteligencia artificial. El objetivo inmediato es vencer a los humanos en cientos de juegos. Este es un paso hacia la verdadera inteligencia artificial.