Estamos há alguns anos dentro do boom de produtividade no uso de LLMs em trabalhos sedentários. Ainda estamos compreendendo de onde essas melhorias podem vir e quais são as formas mais apropriadas de utilizar essa tecnologia. Dentro dessas discussões, existem os entusiastas que afirmam que esse aumento é de 10x, ou até mesmo 100x (um número fora da realidade, se considerarmos que em uma semana você estaria fazendo mais do que fazia em um ano inteiro antes disso).
De toda forma, junto da necessidade do uso dessas tecnologias (a economia parece depender disso e, querendo ou não, ela fará parte de todos os produtos possíveis) e das reivindicações (umas fora da realidade, outras mais sóbrias), estamos sempre perdidos com o FOMO de perder a próxima nova ferramenta que vai fazer você ser mais produtivo, trabalhar menos, ou que pode até te substituir em seis meses.
Ainda que a tecnologia pareça impressionante do ponto de vista da engenharia, o uso real e os benefícios dessas ferramentas ainda são ambíguos e incipientes. Porque é assim que a ciência é feita: reivindicações extraordinárias precisam de provas extraordinárias. E, em apenas alguns anos de dados coletados, não é possível chegar a uma conclusão robusta e a um consenso generalizado, ainda mais em se tratando de uma área em que a própria medição das grandezas não é simples. Produtividade, bem-estar e trabalho não são definições universais, podem ser ligeiramente diferentes em culturas, indústrias e contextos distintos.
Para fins deste artigo, agrupou-se as definições em uso na literatura em três grandes famílias:
- A definição clássica: trata produtividade como a razão entre output e input (eficiência e eficácia).
- A definição por perda: comum em saúde ocupacional, que a mede pelo absenteísmo e pelo presenteísmo.
- As definições técnicas de engenharia de software: que vão desde linhas de código por hora até modelos multidimensionais como o framework SPACE (que incorpora satisfação, desempenho, atividade, colaboração e fluxo).
Essa pluralidade de definições é, em si, parte do problema: ela torna a comparação entre estudos difícil e é um dos motivos pelos quais o consenso demora a se formar.
Uma forma de compreender o frenesi em cima da produtividade é olhar para os anos de ciência consolidada que temos na área. Ainda que o uso de LLMs não traga evidências robustas até o momento, os trabalhos de colarinho branco e o desenvolvimento de software são pesquisados há décadas. A produtividade e as formas de compreender essa grandeza estão mais próximas de um consenso, basicamente por acumularem mais tempo de pesquisa.
Pragmaticamente, analisar produtividade não é uma tarefa fácil. A grandeza a ser medida não é uma lei física que existe na natureza. Ao tentar isolar essa grandeza, usamos os artifícios mais diversos, e muitas vezes de forma ligeiramente diferente do que anteriormente. Por isso, é muito complexo agrupar evidências e compreender impactos reais. A forma mais efetiva é esperar para que a extensividade da literatura científica permita compreender abrangentemente o problema estudado.
Percorrendo essa pirâmide de cima para baixo: das áreas com evidência mais consolidada até aquelas em que a pesquisa ainda está se formando, temos:
Trabalho de escritório: o topo da pirâmide
Quando vamos à literatura mais consolidada de pesquisa de trabalhos de escritório, o consenso sobre alguns temas possui alta confiança. Com mais de 30 anos de pesquisa em alguns tópicos, já temos compreensões aceitas e consensuais na área, metanálises robustas que ocupam o topo da pirâmide de evidência.
Por exemplo, o uso de micropausas para melhora do bem-estar e produtividade ao longo do dia tem efeitos documentados com solidez considerável. No entanto, a literatura mostra que o efeito das pausas na produtividade depende diretamente do tipo de tarefa: enquanto micropausas (de até 10 minutos) melhoram o desempenho em tarefas rotineiras e criativas, elas parecem não ser suficientes para recuperar a capacidade cognitiva em tarefas de alta exigência mental, que exigem períodos maiores de desconexão. Ainda assim, elas são um "remédio" universal para aumentar o vigor e reduzir a fadiga.
A gestão de tempo é outro conceito amplamente validado, mas com uma descoberta surpreendente: ao contrário da crença popular de que ela serve primariamente para impulsionar o desempenho, a gestão do tempo é, fundamentalmente, um potencializador de bem-estar. Estudos revelam que o impacto da gestão do tempo na satisfação com a vida é significativamente maior do que o seu impacto na performance profissional.
Outro achado contraintuitivo desta base sólida de evidências diz respeito ao design do escritório. Apesar da popularidade das plantas abertas (open-plan), idealizadas para promover colaboração, dados populacionais mostram que trabalhar em escritórios abertos (com mais de 6 pessoas) aumenta as licenças médicas por absenteísmo em até 62% quando comparado a escritórios individuais, devido a maiores níveis de distração, estresse cognitivo e perda de privacidade.
Desenvolvimento de software: camadas intermediárias
Com um pouco menos de tempo de pesquisa, a produtividade em desenvolvimento de software ocupa camadas intermediárias da pirâmide. Algumas categorias já se encontram na área de revisão sistemática, em que temos uma boa direção para as conclusões esperadas, enquanto outras permanecem na faixa de estudos randomizados. Nessa área, há conceitos bem estabelecidos. Por exemplo, a compreensão de que fatores humanos (como a capacidade e a expertise) explicam variações de desempenho na ordem de 10x entre indivíduos, superando fatores estritamente técnicos. O bem-estar atua como um preditor não apenas de resultados de carreira, mas deve ser entendido de forma multidimensional: engloba fatores hedônicos (estar feliz e satisfeito), eudaimônicos (senso de competência, autonomia e impacto) e estados de fluxo e engajamento intenso.
Além disso, a literatura sempre documentou o trade-off de que "não se pode ser mais rápido, melhor e mais barato" ao mesmo tempo. Isso é evidente em metanálises de práticas ágeis como a programação em par (pair programming), que só gera códigos com maior correção (qualidade) em tarefas altamente complexas, exigindo em troca um custo de esforço (horas pagas) expressivamente maior. Da mesma forma, a pressão de tempo para acelerar entregas gera um viés: aumenta a eficiência a curtíssimo prazo, mas degrada severamente a qualidade, forçando desenvolvedores a omitir testes e documentação, resultando em mais bugs no futuro.
A principal aposta atual é tentar mostrar que essa correlação negativa histórica entre velocidade e qualidade do código pode começar a se inverter com o uso de assistentes baseados em LLMs, desassociando a velocidade de produção de código de sua qualidade.
Ferramentas baseadas em LLMs: a base da pirâmide
Já para a área de uso de LLMs, que acumula consideravelmente menos tempo de pesquisa, os estudos ainda ocupam os níveis iniciais da pirâmide, com estudos de coorte e tentativas de estruturar estudos randomizados de controle para conseguir compreender a causalidade da melhora de produtividade dessas ferramentas.
Pelo próprio estado incipiente do campo, os estudos com LLMs apresentam resultados mistos. Enquanto casos de uso na indústria relatam ganhos extremos, como a redução do esforço em ciclos de desenvolvimento de 75 para apenas 22 pessoas-dia (ganho de 71%), outros apontam uma diminuição na produtividade.
Esse potencial, porém, não se realiza de forma uniforme. A mesma literatura que documenta ganhos de velocidade também registra mecanismos pelos quais a ferramenta pode reverter esses ganhos, ou mesmo reduzir a produtividade líquida, dependendo do perfil do desenvolvedor e da complexidade da tarefa:
- Mudança de Papel (De "Codificador" para "Revisor"): O tempo ganho na geração de código é muitas vezes perdido verificando, editando e depurando o código gerado pela IA. Se a tarefa for muito complexa, esse retorno sobre a produtividade diminui significativamente.
- Complacência da Automação: Especialmente entre desenvolvedores novatos, a aceitação acrítica de códigos gerados por IA gera um risco de sobre-confiança e perda de pensamento crítico, podendo introduzir vulnerabilidades e problemas de qualidade no código.
- Queda na Colaboração da Equipe: Observa-se que a dependência excessiva em LLMs faz com que os desenvolvedores prefiram consultar um chatbot a um colega, o que ameaça a colaboração entre a equipe e os momentos de troca de conhecimento inerentes à engenharia de software tradicional.
- Quebra de Fluxo: Ironicamente, embora prometam manter o desenvolvedor focado, assistentes interativos (como o Copilot) podem quebrar o estado de fluxo ao oferecer sugestões indesejadas, incorretas ou rápidas demais para serem compreendidas.
Pela falta de metodologia e estudos de referência na área (por enquanto), muitos desses estudos não são comparáveis e não possuem o rigor necessário para galgar os níveis mais robustos da pirâmide de evidência, evidenciando que a eficácia da IA dependerá amplamente de como as organizações adaptarão as métricas de qualidade e as habilidades cognitivas de seus times.
Quando juntamos todas essas informações, o resultado que obtemos é a seguinte pirâmide:
Apesar de as características individuais serem predominantes na definição dos benefícios de produtividade e desempenho desses métodos adotados, a forma de aplicar esses conhecimentos se dá, preferencialmente, de forma coletiva: com o uso de ferramentas, políticas de bem-estar e saúde, e incentivo aos funcionários.
Enquanto temos categorias bem consolidadas no topo da pirâmide, em que sabemos o investimento necessário e o retorno esperado para cada iniciativa, o investimento das empresas parece sempre tender para as categorias em níveis mais baixos da pirâmide. Ali, o investimento é incerto (não se sabe o que é realmente necessário para obter resultados semelhantes aos do estudo) e o retorno também se mostra incerto (os resultados podem não ser replicáveis pela falta de metodologia e de estudos exaustivos sobre como melhorá-los).
Ao analisar esses dados e tomar uma decisão baseada em evidência, não se trata de escolher entre investir em ergonomia ou em ferramentas de IA, na prática, as duas coisas podem coexistir. A questão é de proporcionalidade e de sequência. Um investimento de US$ 1.000 em ergonomia, treinamentos de gestão de tempo, metodologias de trabalho e bem-estar físico e mental possui retorno documentado por décadas de pesquisa, seja na redução de absenteísmo, seja na melhoria do desempenho e da produtividade. Já um investimento equivalente em ferramentas de assistência baseadas em LLMs possui, até o momento, um retorno que não pode ser quantificado para além da experiência anedótica.
Parece que, ao ver essa troca de um investimento com retorno documentado por um de retorno incerto, as empresas, além de estarem especulando com o desempenho dos seus funcionários, estão buscando uma produtividade que pragmaticamente não existe (pelo menos dentro da percepção atual da ciência). Buscam, magicamente, uma ideia de produtividade que resolveria todos os outros problemas da empresa. Porque raramente a parte mais lenta de um processo em um escritório é a execução. Se retomarmos as definições de produtividade baseadas em comportamento, aquelas que medem motivação, proatividade e envolvimento com a tarefa, fica evidente que o gargalo das empresas está nas etapas anteriores à execução: o planejamento, o alinhamento entre times e a tomada de decisão. São dimensões que o framework SPACE classifica sob Comunicação e Colaboração, e que nenhum assistente de geração de código endereça diretamente. Investir em algo que sabidamente vai melhorar a Atividade (mais código gerado), mas não vai resolver esse gargalo de Colaboração e Desempenho organizacional, não parece ser a aposta mais fundamentada.
Referências
- Tarro, L., et al. (2020). Effectiveness of Workplace Interventions for Improving Absenteeism, Productivity, and Work Ability of Employees: A Systematic Review and Meta-Analysis of Randomized Controlled Trials. International Journal of Environmental Research and Public Health.
- Albulescu, P., et al. (2022). "Give me a break!" A systematic review and meta-analysis on the efficacy of micro-breaks for increasing well-being and performance. PLoS ONE.
- Knight, C., Patterson, M., & Dawson, J. (2017). Building work engagement: A systematic review and meta-analysis investigating the effectiveness of work engagement interventions. Journal of Organizational Behavior.
- Conn, V. S., et al. (2009). Meta-Analysis of Workplace Physical Activity Interventions. American Journal of Preventive Medicine.
- Aeon, B., Faber, A., & Panaccio, A. (2021). Does time management work? A meta-analysis. PLoS ONE.
- Hannay, J. E., et al. (2009). The effectiveness of pair programming: A meta-analysis. Information and Software Technology.
- Richardson, A., et al. (2017). Office design and health: a systematic review. New Zealand Medical Journal.
- Anakpo, G., Nqwayibana, Z., & Mishi, S. (2023). The Impact of Work-from-Home on Employee Performance and Productivity: A Systematic Review. Sustainability.
- de Oliveira, C., et al. (2022). The Role of Mental Health on Workplace Productivity: A Critical Review of the Literature. Applied Health Economics and Health Policy.
- Wagner, S., & Ruhe, M. (2018). A Systematic Review of Productivity Factors in Software Development. arXiv preprint cs.SE.
- Kuutila, M., et al. (2020). Time Pressure in Software Engineering: A Systematic Review. arXiv preprint cs.SE.
- Godliauskas, P., & Šmite, D. (2025). The well-being of software engineers: a systematic literature review and a theory. Empirical Software Engineering.
- Mohamed, A., Assi, M., & Guizani, M. (2025). The Impact of LLM-Assistants on Software Developer Productivity: A Systematic Literature Review. arXiv preprint cs.SE.
- García-Madurga, M.-Á., et al. (2024). The Role of Artificial Intelligence in Improving Workplace Well-Being: A Systematic Review. Businesses.
- Babashahi, L., et al. (2024). AI in the Workplace: A Systematic Review of Skill Transformation in the Industry. Administrative Sciences.
- Al Naqbi, H., Bahroun, Z., & Ahmed, V. (2024). Enhancing Work Productivity through Generative Artificial Intelligence: A Comprehensive Literature Review. Sustainability.
- Peterman, J. E., et al. (2019). A cluster randomized controlled trial to reduce office workers' sitting time: effect on productivity outcomes. Scandinavian Journal of Work, Environment & Health.
- Egan, T. M., & Song, Z. (2008). Are facilitated mentoring programs beneficial? A randomized experimental field study. Journal of Vocational Behavior.