A IA deveria aprender que você não pode digitalizar a vida

Jonathan Tennenbaum – 27 de junho de 2020

A neurobiologia mostra que é absurdo tentar entender a função dos neurônios por supostas analogias com computadores digitais

Esta é a 6ª parte da série sobre a Estupidez da Inteligência Artificial. Leia as Parte 1, Parte 2, Parte 3, Parte 4 e Parte 5.

O desenvolvimento inicial de computadores e inteligência artificial (IA) está inseparavelmente ligado ao conceito emergente da célula viva como uma espécie de “máquina molecular”.

No entanto, pesquisas biológicas mais recentes apontam em uma direção muito diferente. Longe de serem meras engrenagens de uma máquina, as proteínas possuem uma espécie de “inteligência” própria. Há razões para acreditar que as “proteínas inteligentes” funcionam como um substrato para os processos cognitivos humanos no nível subcelular.

Espero que algum dia as proteínas também sejam utilizadas como elementos analógicos em sistemas de IA de um novo tipo. Para que isso aconteça, no entanto, a IA deve superar o viés digital que acompanhou seu desenvolvimento até os dias atuais.

Vários dos pioneiros da inteligência artificial tiveram um profundo interesse no funcionamento dos organismos vivos e sua possível replicação por dispositivos feitos pelo homem. Estes incluem especialmente John von Neumann e Alan Turing e, de uma forma um pouco diferente, Norbert Wiener e Claude Shannon.

John von Neumann ao lado de um de seus computadores pioneiros. Imagem: Facebook

A partir da década de 1940, von Neumann começou a trabalhar em uma “Teoria Geral dos Autômatos”. Aqui ele pretendia que o termo “autômato” se aplicasse a organismos vivos, bem como a máquinas criadas para imitá-los. O cérebro humano seria incluído na categoria de autômatos. A preocupação de Von Neumann com autômatos vivos e artificiais foi essencial para suas contribuições ao desenvolvimento de sistemas de computador modernos.

Von Neumann estava particularmente interessado na possibilidade de criar máquinas que seriam capazes de se reproduzir e até evoluir – combinando assim a propriedade mais essencial da vida, “autômatos naturais”.

Uma e outra vez, von Neumann voltou ao desafio de desenvolver uma teoria matemática que abrangesse ambos. Ele aparentemente o considerava o assunto mais importante, o trabalho de sua vida.

Ele definiu o tema em sua apresentação para o Simpósio Hixon de 1948, intitulado “A Teoria Geral e Lógica dos Autômatos”. Foi retomado por uma apresentação de 1953 sobre “Máquinas e Organismos” e em seu último trabalho, o “Computador e o Cérebro”, que apareceu um ano após sua morte em 1957. Uma coleção de suas publicações e manuscritos inéditos sobre esses assuntos foi publicada em 1966 sob o título The Theory of Self-Reproducing Automata [A teoria do automato auto-reprodutor – nota do tradutor].


A arquitetura de Von Neumann para uma máquina auto-reprodutora. Ilustração: Wikimedia Commons

O pioneiro da computação Alan Turing contribuiu para o conceito de um organismo vivo como um autômato em um trabalho de 1952 intitulado “The Chemical Basis of Morphogenesis”. Aqui Turing desenvolve uma teoria matemática de um embrião em desenvolvimento, estabelecendo “um possível mecanismo pelo qual os genes de um zigoto [um óvulo fertilizado] podem determinar a estrutura anatômica do organismo resultante”.

Certamente nada no domínio dos organismos vivos sugere a ideia de um processo algorítmico geneticamente programado de forma mais impressionante do que a embriogênese: a geração de um organismo adulto completo a partir de uma única célula por meio de uma sucessão de estágios de desenvolvimento, que se repetem em todos os indivíduos de uma espécies.

O artigo de Turing apresenta uma teoria de como as formas geométricas do organismo são geradas por um processo físico-químico envolvendo a produção e difusão de substâncias químicas que ele chamou de morfogenes. Os genes da célula servem como catalisadores químicos para a síntese dos morfogenes.

Os detalhes são em grande parte obsoletos hoje, mas antecipam elementos do quadro que emergiram no desenvolvimento subsequente da biologia molecular.

Norbert Wiener no trabalho intelectual árduo em uma imagem de arquivo. Foto: Wikimedia

O livro clássico de Norbert Wiener, Cibernética: ou controle e comunicação no animal e na máquina (1948) influenciou profundamente a biologia molecular e o desenvolvimento da inteligência artificial.

Da mesma forma, o livro de 1949 de Claude Shannon, A Mathematical Theory of Communication, que estabeleceu o que ficou conhecido como “teoria da informação”.

O conceito de “informação” de Claude Shannon serviu como pedra angular da inteligência artificial e – de forma menos rigorosa – estabeleceu-se na biologia através da expressão “informação genética”. Interessantemente. Shannon escreveu sua tese de doutorado sobre genética. Em 1950, o mesmo Claude Shannon construiu um mouse eletromecânico que se movia em um labirinto, realizando um dos primeiros experimentos com IA.

Sua teoria matemática da informação provou ser extremamente útil como ferramenta técnica, por exemplo, no projeto de sistemas de comunicação. Mas, em minha opinião, a subsequente hegemonia de seu conceito de informação em praticamente todos os campos levou a uma ênfase unilateral no “discreto” – o lado combinatórico da realidade – em detrimento da continuidade.

Nem tudo no mundo se divide nitidamente em pedaços que possam ser dispostos em um tabuleiro de xadrez. Uma linha é mais do que uma coleção de pontos; os aviões não se movem no ar em sequências de pequenos solavancos; a beleza não é igual a um arranjo de pixels; e o significado não é um arranjo de letras em uma página.

Como argumentarei mais adiante nesta série, os esforços para impor o conceito de “informação” no uso humano da linguagem exacerbaram a estupidez da IA, bem como o problema da estupidez da sociedade humana atual.

Seu cérebro não é digital

É interessante notar que John von Neumann – que era mais brilhante que os outros – foi inicialmente um tanto cauteloso em relação ao aparente caráter digital do sistema nervoso humano. Em seu artigo de 1948, von Neumann declarou:

“O neurônio transmite um impulso. Esta parece ser a sua função primordial, ainda que a última palavra sobre esta função e o seu caráter exclusivo ou não exclusivo esteja longe de ter sido dita. O impulso nervoso parece, em geral, ser uma questão de tudo ou nada, comparável a um dígito binário… mas é igualmente evidente que esta não é toda a história… Os organismos vivos são muito complexos – mecanismos parcialmente digitais e parcialmente analógicos. As máquinas de computação, pelo menos em suas formas recentes a que me refiro nesta discussão, são puramente digitais… Embora eu esteja bem ciente do componente analógico em organismos vivos, e seria absurdo negar sua importância, devo , para uma discussão mais simples, desconsiderar essa parte. Vou considerar os organismos vivos como se fossem autômatos puramente digitais”.

Infelizmente, von Neumann manteve essa “simplificação” digital dos organismos vivos, e especialmente do cérebro e do sistema nervoso, na maior parte de seus trabalhos posteriores.

Do ponto de vista do que sabemos hoje em neurobiologia, é absurdo tentar entender a função dos neurônios e do sistema nervoso por supostas analogias com computadores digitais.

O reino da discretização e da combinatórica na biologia – sua virtual “digitalização”, poderíamos dizer – foi cimentada pela descoberta em 1953 da estrutura de dupla hélice do DNA, pela enunciação de Francis Crick do “Dogma Central da Biologia Molecular” em 1957 e pela decifração do código genético no início dos anos 1960.

De acordo com o Dogma Central e sua elaboração sistemática, as sequências de DNA contêm as informações básicas e “regras” para o funcionamento da célula; estes permanecem inalterados durante a vida da célula, exceto por raras mutações casuais; e o código genético, contido no DNA, determina as estruturas das proteínas que controlam a maquinaria química da célula.

O código genético. Fonte: Wikimedia Commons

Em particular, o ato fundamental da divisão celular, pelo qual os organismos vivos crescem e se multiplicam, ocorre passo a passo em uma sequência de eventos precisamente determinada, através da ativação sucessiva de genes contidos no DNA.

Tudo isso parece seguir exatamente o esquema geral de um processo algorítmico apresentado por Alan Turing em 1936.

Uma célula viva seria, portanto, um tipo especial de máquina de Turing, realizada em uma base molecular. Colocado em termos populares: as células funcionam como computadores digitais, com seu DNA como o programa de computador.

O fisiologista ganhador do Prêmio Nobel, Sydney Brenner, resumiu a doutrina da biologia molecular de forma mais sucinta em um ensaio de 2002 em homenagem a Alan Turing, intitulado “Life’s Code Script”:

“Os biólogos fazem apenas três perguntas a um organismo vivo: como ele funciona? Como é construído? E como ficou assim? São problemas incorporados nos campos clássicos da fisiologia, embriologia e evolução. E no centro de tudo estão as fitas contendo as descrições para construir essas máquinas de Turing especiais.”

Doutrina sagrada do código genético

Todos os alunos de hoje aprendem a recitar a Doutrina do Código Genético. É mais ou menos assim: as proteínas são os organizadores e agentes da atividade celular, cada uma com sua área de especialização. Eles são formados a partir de sequências lineares de aminoácidos, que são 20 ao todo.

A informação que especifica a seqüência de aminoácidos de uma determinada proteína é codificada no DNA da célula, por meio da seqüência de moléculas de nucleotídeos que mantém unidas as duas fitas da dupla hélice do DNA.

Existem quatro nucleotídeos diferentes, definindo um código de quatro letras. Os genes correspondem a sequências escritas no código. Estes são transcritos por maquinaria molecular no núcleo da célula de DNA para moléculas de RNA que funcionam como portadores de informações.

Depois de alguma edição, as moléculas de RNA são de alguma forma transportadas para fora do núcleo e alimentadas em estruturas chamadas ribossomos. Movendo-se ao longo do RNA como uma cabeça de leitor de fita, um ribossomo produz a cadeia correspondente de aminoácidos que compõem a proteína específica desejada.

Ele faz isso de acordo com um esquema de codificação predefinido, em que cada conjunto sucessivo de três letras (tripleto) do código de quatro letras corresponde a um aminoácido específico. Como existem 64 trigêmeos possíveis, mas apenas 20 aminoácidos, o código é redundante.

Concepção esquemática e artística do “código genético” em ação. Fonte: Wikimedia Commons.

Problema de dobramento de proteínas

A Doutrina do Código Genético, como comumente anunciada, perde vários pontos cruciais. Isso inclui, entre outros, o chamado problema de dobramento de proteínas (veja abaixo), a existência de alterações epigenéticas hereditárias (não codificadas por DNA) em organismos e o papel não resolvido de 99% do DNA que parece não ter uma função de codificação.

Aqui abordarei apenas o problema do dobramento de proteínas, uma vez que ele se relaciona mais diretamente com o presente e o futuro da inteligência artificial.

O que sai do processo de transcrição do DNA é apenas uma cadeia de aminoácidos. Mas para realizar sua função na célula – por exemplo, como uma enzima, um receptor de membrana, um anticorpo, etc. – a proteína deve primeiro se transformar dessa cadeia linear em uma forma tridimensional precisa, única para cada proteína. Essa chamada “conformação nativa” pode ser extraordinariamente complicada, incluindo topologias com múltiplos nós.

Deve-se ter em mente que as moléculas de proteína no corpo humano são compostas em média por 480 aminoácidos, contendo um total de quase 10.000 átomos. A maior dessas proteínas, a titina, é formada por uma cadeia de 35.350 aminoácidos e possui mais de 600.000 átomos. A titina compõe cerca de 10% do nosso tecido muscular.

Qual é o problema? O código do DNA não contém indicações sobre qual deve ser a conformação correta para determinada proteína, nem como gerá-la a partir da cadeia linear original.

Tudo o que o DNA nos diz é a sequência de aminoácidos ao longo da cadeia da proteína. Como a proteína sabe que forma tomar e como chegar lá? De onde vêm as informações adicionais?

Diagrama simplificado das etapas do dobramento da hemoglobina (574 aminoácidos, cerca de 10.000 átomos) em sua conformação adequada, desde a estrutura primária inicialmente linear até a chamada estrutura quaternária final. Fonte: Wikimedia Commons.

Isso ficou conhecido como o “problema de dobramento” (embora os movimentos reais da proteína incluam torção, alongamento, etc.). O problema do dobramento não é apenas fundamental para a biologia molecular; também tem implicações de longo alcance para a medicina.

A lista de “doenças de dobramento incorreto de proteínas” (distúrbios conformacionais de proteínas) inclui a doença de Alzheimer e outras formas de demência, doença de Parkinson, fibrose cística, doença falciforme e provavelmente também diabetes tipo 2. Na conformação errada, as proteínas não apenas se tornam disfuncionais; eles também podem interromper o funcionamento normal das células.

Em 1968-1969, o biólogo molecular Cyrus Levinthal propôs o que ficou conhecido como o “Paradoxo de Levinthal”. Depois de serem esticadas em uma forma aproximadamente linear, as proteínas em solução revertem para suas conformações nativas precisas em no máximo alguns segundos.

Por outro lado, dado o número de ângulos de ligação variáveis, mesmo em uma proteína pequena, o número de possíveis conformações é astronomicamente grande. Estima-se que, se uma proteína experimentasse todas, uma de cada vez, à taxa de um trilhão por segundo, levaria em média mais tempo do que a idade estimada do Universo para encontrar a correta!

Diante da rapidez e precisão com que as proteínas assumem sua conformação correta, Levinthal concluiu que o processo de enovelamento não pode ser aleatório, mas deve seguir um caminho mais ou menos bem definido.

Evidentemente, as interações físicas entre as várias partes da molécula, com suas cargas elétricas e ângulos de ligação e assim por diante, bem como o meio circundante, orientam a proteína em seu processo de dobramento e torção na forma correta.

Este problema nos leva a um mundo completamente diferente da combinatórica, da computação digital e das máquinas de Turing. Estamos lidando com física super séria. Por meio século, os cientistas têm lutado para resolver o paradoxo de Levinthal. O que significaria ter uma solução?

Primeiro, para explicar como as proteínas em geral são capazes de “encontrar” suas conformações nativas de forma tão rápida e confiável.

Em segundo lugar, poder determinar com precisão o curso dos eventos pelos quais uma determinada proteína se transforma em sua correta conformação tridimensional, a partir de sua forma linear.

Terceiro, ser capaz de prever a conformação tridimensional de uma proteína, dado nada mais que seu código de DNA.

Alguns cientistas consideram o Paradoxo de Levinthal como “essencialmente resolvido”, enquanto outros não concordam. No que diz respeito à previsão da estrutura, um Artigo de 2019 no International Journal of Modern Physics observa:

“Prever a estrutura 3D de uma proteína a partir de sua sequência de aminoácidos é um dos problemas não resolvidos mais importantes em biofísica e biologia computacional…. Atualmente, alguns dos métodos mais bem-sucedidos têm uma probabilidade razoável de prever as dobras de pequenas proteínas de domínio único”.

As equações matemáticas, que descrevem o comportamento de uma proteína de acordo com as leis da física quântica, são irremediavelmente complicadas de resolver – mesmo com simplificações drásticas e mesmo usando os maiores e mais rápidos supercomputadores.

Prever a estrutura da proteína tem sido um importante ponto de venda para o desenvolvimento de supercomputadores de próxima geração, como a série Blue Gene da IBM. Mas as tentativas de resolver o problema por cálculos de “força bruta” produziram resultados decepcionantes.

Um supercomputador IBM Blue Gene. Imagem: Facebook

Em vez disso, a previsão de estruturas hoje emprega estratégias mistas, usando grandes bancos de dados de moléculas com estruturas 3D conhecidas, simulações de computador e amplo conhecimento da ciência de proteínas experimental e teórica em um esforço para determinar a forma mais provável.

A IA encontra um campo de aplicação cada vez maior aqui, especialmente os sistemas de aprendizado profundo. O leitor pode encontrar uma apresentação útil sobre este assunto em uma entrada no blog DeepMind.

IA baseada em proteína?

Como reflexão tardia, gostaria de sugerir uma ideia potencialmente revolucionária: para aplicar o aprendizado profundo, o sistema de IA deve ser treinado em um grande banco de dados com informações sobre o comportamento conhecido das proteínas.

De fato, as proteínas estão ensinando os supercomputadores! As proteínas são evidentemente mais “inteligentes” do que nossos sistemas digitais. Eles não precisam de nenhum cálculo para entrar na configuração correta. Eles apenas fazem isso naturalmente.

Por que não substituir os estúpidos transistores em nossos chips de computador por proteínas ou outras moléculas inteligentes? Por que não substituir cálculos laboriosos por eventos físicos naturais?

A “computação biológica” já é uma área de pesquisa estabelecida. Parece ainda dominado por mentalidades algorítmicas, mas o futuro está em aberto. Mais sobre isso em artigos futuros.


Jonathan Tennenbaum recebeu seu PhD em matemática pela Universidade da Califórnia em 1973 aos 22 anos. Também físico, linguista e pianista, ele foi editor da revista FUSION. Ele mora em Berlim e viaja frequentemente para a Ásia e outros lugares, prestando consultoria em economia, ciência e tecnologia.

Fonte: https://asiatimes.com/2020/06/ai-must-learn-you-cant-digitalize-life/

Be First to Comment

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.