O gênero dos/as Assistentes Virtuais

Disclaimer: Por ser um tema socialmente sensível, mas, principalmente, levando em conta a existência de pessoas, consciente ou inconscientemente, com limitações cognitivas (afetando sua capacidade de interpretação de texto) e sociais (afetando o respeito e a discussão saudável de ideias) - além, claro, dos trolls/haters de internet -, é necessário mencionar que este não é um artigo opinativo ou defensor de posições (quaisquer que sejam elas), apesar de eu, como indivíduo, ter minhas opiniões e posições, que podem ou não serem conflitantes com as referências abaixo, e às quais exponho e defendo em outros fóruns.
Uma das minhas áreas de estudo é Interação Humano-Máquina (HMI) e as variáveis que a impactem. Assim, o objetivo deste texto é tão somente trazer referências científicas em estudos relacionados ao assunto do título para gerar reflexões e discussões produtivas e positivas a respeito do tema e sua aplicação nesta área de pesquisa.

Não é de hoje que a discussão sobre o gênero expresso por interfaces de voz surge como pauta na sociedade. Mesmo antes das onipresentes assistentes virtuais – Alexa, Siri, Bixby, Cortana, etc -, círculos de desenvolvedores e cientistas sociais discutem o uso de vozes masculinas ou femininas em aparelhos de GPS e outras interfaces gráficas e/ou sonoras.

Antes de mais nada, necessário dizer que se está falando de uma atribuição de gênero a um objeto inanimado, a um pedaço de plástico e metal, com base em alguns elementos que o ser humano utiliza para tal classificação: Nome e Timbre de voz. Somente estes fatores fizeram com que estes dispositivos passassem a representar um gênero animal e, com isto, as interações entre os humanos (de verdade) e tais dispositivos fosse extrapoladas para o trato no mundo real.

Também válido (e necessário nos dias de hoje) mencionar que não há, nas avaliações abaixo, nenhuma relação de intencionalidade – ou mesmo com relação ao gênero – dos/as desenvolvedores/as destas interfaces em ‘preferir‘ um gênero ou outro (do ponto de vista pessoal) ou mesmo em, propositadamente, atribuir funções subservientes ao gênero feminino. Isto para que seja possível discutir o assunto sem vieses emocionais que, ao invés de colaborar na discussão, a torna simplista ou mesmo, bélica. Ou seja, este não é um texto sobre ‘guerra dos sexos’ e muito menos sobre questões individuais de gênero, mas uma reflexão sobre fenotipos femininos ou masculinos utilizados em interfaces de interação homem-máquina (HMI).

Bom, antes de se questionar temas ligados ao antropomorfismo atribuído a tais interfaces (comportamento com base em traços de personalidade humana que, como será visto adiante, exerceria maior força sobre a preferência do que o gênero em si), existiram razões pelas quais o gênero feminino foi escolhido para dar voz a tais interfaces à época. O que se discute agora, porém, é o quanto tais decisões podem reforçar estereótipos que, inicialmente, não estavam à luz dos desenvolvedores.

Três artigos científicos – de dois grupos de pesquisadores – são mais referenciados no assunto e trago um sumário destes estudos para levantar potenciais discussões com relação à opção por vozes femininas em interfaces tecnológicas.

Payne, Szymkowiak, Johnson, Robertson e Henderson (2011) avaliaram como participantes respondiam a diferentes configurações de forma de assistentes virtuais em uma interação com sistema simulado de checkout autônomo em um ponto de venda, tendo o agente virtual como representante de um funcionário de atendimento.

Em seu referencial teórico, trazem estudos anteriores que, entre outros temas, indicam que, na interação com agentes virtuais, é esperado que representações masculinas e femininas se comportem de acordo com estereótipos de gênero, representando papéis sociais a que usualmente são atribuídos (respectivamente provedor e cuidadora) (Cross & Madson, 1997; Fiske, Cuddy, Glick, & Xu, 2002).

Isto significa que, grosso modo, à parte de questões segregacionistas (como machismo ou femismo), as pessoas consideram, em suas interpretações, estes papéis sociais e, consequentemente, transferem para interfaces artificiais expectativas quanto à eficiência das máquinas em suas tarefas de acordo.

Por exemplo, em linha com tal colocação, a maioria dos participantes do estudo (60%) preferiu a interação com avatares com expressões do gênero feminino (nome e timbre de voz habitual), indicando como motivos o entendimento que mulheres “na vida real” tendem a ser mais alegres, solícitas, simpáticas, amigáveis, fáceis de escutar e menos imponentes.

Enquanto isso, as referências midiáticas de interfaces masculinas usualmente estão ligadas a situações de combate e enfrentamento. Veja Jarvis (Homem de Ferro) ou o saudoso KITT (Super-Máquina).

Posts Relacionados

Como usar o comando –sref de referências de estilo no Midjourney

Wagner Brenner 22 abr, 2024

15, 30, 40. Por que a pontuação do tênis é assim?

Wagner Brenner 19 abr, 2024

Em outro estudo, conduzido por parte dos mesmos pesquisadores do anterior – Payne, Szymkowiak, Robertson e Johnson (2013) -, os autores aprofundam especificamente a questão da apresentação gráfica – 2D versus 3D -, nível de realismo e gênero (versus papel social e vestimenta, do estudo do ano anterior) na preferência de consumidores interagindo com simulações de atendimento em um ponto de venda.

Neste caso, identificaram que participantes do gênero feminino preferiam ser atendidas por agentes virtuais com fenótipo feminino; por outro lado, participantes do gênero masculino exibiam preferência dividida entre agentes virtuais de ambos os fenotipos.

Os autores mencionam questões ligadas à teoria da atração-e-similaridade (Shen, Yu & Khalifa, 2009), onde grupos sociais apresentam maior comportamento colaborativo, compromisso e participação quando interagindo com indivíduos similares (incluindo, neste caso, gênero) e o fato de mulheres apresentarem comportamento mais pragmático (task-oriented) quando interagindo com grupos do mesmo gênero versus grupos heterogêneos (Li, Forlizzi, Dey, Kiesler, 2006).

Por outro lado, mais recentemente, Habler, Schwind e Henze (2019) investigaram como questões de gênero e tom de voz em assistentes pessoais virtuais (smart virtual assistants, SVA) poderiam reforçar estereótipos de gênero.

A partir de seu estudo cruzaram estas variáveis, questionando os participantes sobre suas percepções quanto aos diferentes cenários (tom de voz mais/menos complacente/submisso e gênero) e concluíram que variações no tom de voz e linguagem exercem impacto consideravelmente maior que o gênero na aceitação do público, argumentando que não é o gênero, senão a linguagem utilizada, o que resulta na percepção de um ser mais ou menos subserviente.

Fora do mundo científico, a designer de UX Johna Madel faz, inclusive, uma comparação interessante entre os comandos de ativação da Alexa e do Google Home. Um de seus pensamentos tem a ver com o papel das interjeições para ativação do não-nomeado dispositivo da Google – ok, Google! hey, Google – para construção de uma relação mais amigável e menos autoritária – “Alexa, faça isso!” – entre usuário e interface.

Com isto tudo, considerando que não há questões neurofisiológicas que diferenciem as capacidades dos gêneros, do alegado impacto de questões culturais na formação dos estereótipos de gênero quanto a seus papeis sociais e das expectativas de comportamento nas relações interpessoais, observa-se que há uma percepção pré-concebida destes fatores na sociedade que se, por um lado, retroalimenta estas interpretações, por outro, resultam em maior aceitação dos consumidores de produtos que têm reforçadas estas imagens pré-construídas como, neste caso, assistentes virtuais que expressam o fenótipo feminino.

Assim – e independente da importância social em se reforçar a equidade entre os gêneros na sociedade em geral -, como trabalhar o dilema entre desenvolver sistemas de interação virtuais que tenham maior aceitação justamente por conta destas pré-concepções versus adaptá-los a uma realidade desejada, mas, com isso, abrir mão de sua performance imediata (como sinônimo de aceitação do público consumidor)?

Ou, considerando o estudo de Habler, Schwind e Henze (2019), na verdade uma adequação da linguagem reduziria um possível viés de agressividade ou amigabilidade na interação com agentes virtuais, independente do gênero escolhido para tais?

Sim, estereótipos seguem padrões culturais que mudam com o tempo. E, para tal, a desconstrução de lugares comuns que não tragam equidade para a sociedade pode ser feita de forma natural e progressiva, ainda que isto signifique apenas escolher se você quer conversar com a Alexa ou o Alex; ou deixar a Alexa fazer o trabalho dela e Jarvis o dele.