Notas sobre estudos em IA e cognição

Apesar do tremendo progresso da inteligência artificial em áreas como tradução automática, classificação de objetos e reconhecimento da fala, a maioria dos sistemas de IA possui, ainda hoje, um foco extremamente restrito. Isto quer dizer que eles fazem apenas o que foi pedido. Por exemplo, a AlphaGo não sabe que o jogo Go é jogado se colocando pedras em um tabuleiro. Na verdade, não tem nem ideia do que é uma “pedra” ou um “tabuleiro” e precisaria ser treinada novamente do zero se você a apresentasse a um tabuleiro retangular ao invés de uma grade quadrada.

Por essa razão, desenvolvedores da área (eu incluído) têm buscado estudos nas ciências cognitivas (como psicologia, linguística e filosofia) com o objetivo de entender melhor o funcionamento da mente humana e aplicar este conhecimento na construção de IAs mais robustas. A seguir, comento sobre alguns tópicos que venho estudando. Reforço que são minhas impressões a respeito dos temas e do que penso ser seu impacto para a inteligência artificial. Trocando em miúdos, diria que são dicas que extraí das ciências cognitivas, sem a pretensão de configurar um trabalho científico.

Para início de conversa, o cérebro humano é enormemente complexo e diverso. Possui mais de 150 áreas cerebrais distintamente identificáveis, aproximadamente 86 bilhões de neurônios (com milhares de tipos diferentes deles); trilhões de sinapses e centenas de proteínas distintas dentro de cada sinapse. É por isso que não existe apenas uma teoria que explique como ele funciona e nem como o comportamento humano é definido. Citando Firestone e Scholl, “não existe uma maneira única da mente funcionar, porque ela não é uma coisa só”. Na verdade, “a mente possui várias partes, e as diferentes partes dela operam de maneiras diferentes: ver uma cor funciona de forma diferente de planejar as férias”, que por sua vez “funciona de maneira diferente de entender uma frase, mover um membro, lembrar um fato ou sentir uma emoção” [1]. Sistemas artificiais inteligentes e flexíveis provavelmente serão tão complexos quanto a mente (embora não da mesma forma). Qualquer teoria que proponha reduzir a inteligência artificial a um único princípio (inferência Bayesiana ou deep learning), ou a um único “algoritmo mestre”, vai fracassar.

Representação mental é um conceito interessante das ciências cognitivas que possui grande interseção com a IA, na minha opinião. São representações internas, como crenças, desejos e objetivos, que ajudam o ser-humano a criar um modelo do mundo real. Representação semântica para computadores geralmente é alcançada pela adição de conjunto de fatos. Por exemplo, para representar uma viagem que você tenha feito, são adicionados ao menos dois conjuntos: (cidade, país) e (você, cidade, data). Conhecimento para a máquina consiste em um acúmulo de tais representações, e a inferência é construída sobre esse alicerce; é relativamente simples, com base nisso, inferir que você visitou a Alemanha, por exemplo. Atualmente, modelos de deep learning (redes neurais artificiais) tentam expandir a representação por conjuntos com um monte de vetores que capturam um pouco do que está acontecendo. Mas esses vetores nunca representam proposições lógicas diretamente, tudo é apenas uma aproximação grosseira. Deep learning encontra dificuldades com a inferência por meio de raciocínio abstrato porque não é voltado para representar o conhecimento factual de maneira precisa. Se os fatos forem confusos, é difícil acertar o raciocínio. Portanto, encontrar maneiras de criar representações mentais artificiais mais abstratas é um passo importante a ser dado.

Já que estamos falando de raciocínio abstrato, vale expandir um pouco sobre o tema. Boa parte do que sabemos é abstrato. Por exemplo, a relação “X é irmã de Y” é verdadeira para diferentes pares: Cleo Pires é irmã do Fiuk, princesa Anne é irmã do príncipe Charles e por aí vai. Não sabemos apenas que determinados pares de pessoas são irmãos, sabemos o que são irmãos e irmãs em geral e podemos aplicar esse conhecimento individualmente. Se duas pessoas dividem os mesmos pais e/ou mães, podemos inferir que são irmãos. As representações que fundamentam tanto modelos cognitivos quanto o senso comum são construídas a partir de relações abstratas, combinadas em estruturas complexas. Podemos abstrair quase tudo: pedaços de tempo (“21:45”), pedaços de espaço (“Polo Sul”), eventos particulares (“7 a 1”), organizações sociopolíticas (“Greenpeace” ou “ONU”), e construções teóricas (“sintaxe”), e usá-los em uma explicação ou uma história, reduzindo situações complexas ao seu essencial. Isso produz uma enorme influência no nosso raciocínio sobre o mundo e implica sistemas cognitivos altamente estruturados.

Marvin Minsky argumentava que devemos ver a cognição humana como uma “sociedade da mente” [2], com centenas ou milhares de “agentes” distintos. Cada um deles especializado em diferentes tipos de tarefas. Por exemplo, beber uma xícara de café requer a interação de um agente SEGURADOR, de um agente EQUILIBRADOR, de um agente VONTADE e um certo número de agentes MOVIMENTOS. Como citado acima, a mente não é uma coisa, mas muitas. Ironicamente, isso é quase o oposto da tendência atual em machine learning, que favorece modelos ponta a ponta que usam um único mecanismo homogêneo e pouca estrutura interna. Por exemplo, modelos de veículos autônomos que precisam aplicar percepção, predição e tomada de decisão, são treinados com redes neurais relativamente uniformes que aprendem correlações diretas entre entradas (dados, como imagens e pixels) e um conjunto de saídas (instruções para direção e aceleração, por exemplo). Fãs desse tipo de coisa apontam para as virtudes de se treinar “em conjunto” todo o sistema, ao invés dos módulos separadamente. Um problema disso, na minha opinião, é que esses sistemas são difíceis de depurar e raramente têm a flexibilidade necessária. Uma boa maneira de resolver problemas complexos em IA é usando sistemas híbridos. Bons exemplos, como Mao et al. [3], mostraram como um sistema que integra deep learning e técnicas simbólicas pode produzir bons resultados para respostas visuais de perguntas e recuperação de imagens e textos. O caminho parece ser o do uso de múltiplas ferramentas para a mesma tarefa, como o Hummingbird do Google, que é a arquitetura que contempla o conjunto de algoritmos e recursos usados para a ferramenta de busca.

Integração, na minha opinião, é a palavra-chave não apenas para as técnicas usadas, mas também para o tipo de informação. Por exemplo, a Figura 1 (abaixo) é uma letra ou um número?

Depende do contexto, como mostra a Figura 2. Falei um pouco disso nesse outro texto. Se costuma distinguir a informação de baixo para cima (bottom-up information), que vêm diretamente dos nossos sentidos, e o conhecimento de cima para baixo (top-down knowledge), que é nosso conhecimento prévio sobre o mundo [4]. Letras e números não se encaixam nessas categorias porque são compostas por elementos extraídos de ambas [4].

O que vemos e lemos é integrado a um modelo cognitivo da situação e a nossa compreensão do mundo como um todo. Um símbolo ambíguo, como o das Figuras 1 e 2, parece de uma maneira em um contexto e diferente em outro. Por isso, penso que conceitos apresentados a máquinas devem ser baseados em teorias. Embutir conceito e teoria é vital para uma aprendizagem eficaz [5]. Frank Keil, em seu experimento, perguntou a crianças de 5 anos se um guaxinim que passasse por uma cirurgia plástica para se parecer com um gambá, incluindo a aplicação de um material “super fedorento”, poderia se tornar um gambá. As crianças se mostraram convencidas de que o guaxinim continuaria sendo um guaxinim [5]. Possivelmente a inferência foi consequência do conhecimento pregresso delas em biologia (mesmo que simples) e da noção de que é o que está dentro de uma criatura que realmente importa. Essa experiência foi feita nos anos 1990. Pode ser que hoje, com uma visão pós-estruturalista, tivessem outra percepção. Inteligências artificiais mais robustas precisarão incorporar informações em teorias mais abrangentes que as ajudem a organizá-las de maneira mais rica.

Outro ponto importante são as considerações éticas. Tem havido algumas discussões acaloradas sobre isso nos grupos de IA que faço parte (em geral via Twitter), que vale um texto específico sobre o assunto. Trabalhos como o Speech2Face, que infere o rosto da pessoa de acordo com a voz ou o jeito de falar, usa classificadores para gênero, etnicidade e idade, que claramente podem se enganar.

Para fechar, pode parecer que essas notas são interessantes apenas para quem se dedica ao tema. Creio que não participar de discussões a respeito do desenvolvimento de técnicas de raciocínio artificial que possam lidar com o conhecimento complexo, incerto e incompleto é um equívoco. Esse tipo de pesquisa é algo corrente. Quando houverem IAs que possam funcionar livremente de cima para baixo (top-down knowledge), de baixo para cima (bottom-up information), e conectar essas informações e conhecimentos à percepção e linguagem e manuseá-los para construir modelos cognitivos mais ricos do mundo, terá que se lidar também com o viés (ou vieses) dos grupos que as construíram.

[1] Firestone, C. and Scholl, B.J. Cognition does not affect perception: Evaluating the evidence for ‘top-down’ effects. Behavioral and Brain Sciences 39, e229. (2016).

[2] Marvin Minsky. The society of mind. Simon & Schuster, Inc., USA. (1986).

[3] Mao, J. et al. The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision. arXiv preprint arXiv:1904.12584. (2019)

[4] Lupyan, G. and Clark, A. Words and the world: Predictive coding and the language=perception-cognition interface. Current Directions in Psychological Science 24, 4, 279–284. (2015).

[5] Keil, F.C. Concepts, Kinds, and Cognitive Development. MIT Press, Cambridge, MA, (1992).