[Android] [Bug] - text is extracted incorrectly from highlights (duplicated lines, broken text)

Hello, everyone!

First and foremost I would like to thank the Zotero team for their dedication in providing us with this wonderful tool.

I'm writing this post to report a bug in the current version of Zotero beta for android (1.0.0-48).

Description:
When I highlight text in pdfs, the text extracted and made available in the left panel is broken (multiple lines are duplicated). This seems to happen specially when highlighting multiple lines of text, but not the entire paragraph.

Steps to reproduce:
1 - Annotate multiple lines of text in Zotero beta for Android (I used this pdf for testing: https://periodicos.ufes.br/romanitas/article/view/42048/29506)
2 - Check the extracted text in the left panel.

In the PDF I used as an example, I highlighted the following passage:
"Este artigo explora o amplo tema da relação entre transformação urbana e liderança episcopal nos séculos V e VI, com enfoque na cidade de Arles. Depois de apresentar uma visão geral da trajetória de Arles, naquilo que diz respeito à sua centralidade econômica, importância política e crescente liderança eclesiástica regional, recorremos à Vita Caesarii Arelatensis para analisar a relação entre referências espaciais e poder episcopal no caso de Cesário de Arles. Trata-se de uma hagiografia dedicada ao bispo e produzida em fins dos anos 540, que tem grande repercussão nos estudos históricos. Com base em uma comparação com as hagiografias de bispos precedentes, argumentamos que a maneira como a Vita Caesarii aborda o espaço e a memória indica uma mudança significativa na forma como o poder episcopal foi exercido entre a primeira década do século V e a metade do século VI"

The extracted text in the left panel is the following:
"Este artigo explora o amplo tema da relação entre transformação urbana e liderança episcopal nos séculos V e VI, com enfoque na cidade Resumo: Este artigo explora o amplo tema da relação entre transformação urbana e liderança episcopal nos séculos V e VI, com enfoque na cidade de Arles. Depois de apresentar uma visão geral da trajetória de Arles, urbana e liderança episcopal nos séculos V e VI, com enfoque na cidade de Arles. Depois de apresentar uma visão geral da trajetória de Arles, naquilo que diz respeito à sua centralidade econômica, importância de Arles. Depois de apresentar uma visão geral da trajetória de Arles, naquilo que diz respeito à sua centralidade econômica, importância política e crescente liderança eclesiástica regional, recorremos à Vita naquilo que diz respeito à sua centralidade econômica, importância política e crescente liderança eclesiástica regional, recorremos à Vita Caesarii Arelatensis para analisar a relação entre referências espaciais e política e crescente liderança eclesiástica regional, recorremos à Vita Caesarii Arelatensis para analisar a relação entre referências espaciais e poder episcopal no caso de Cesário de Arles. Trata-se de uma hagiografia Caesarii Arelatensis para analisar a relação entre referências espaciais e poder episcopal no caso de Cesário de Arles. Trata-se de uma hagiografia dedicada ao bispo e produzida em fins dos anos 540, que tem grande poder episcopal no caso de Cesário de Arles. Trata-se de uma hagiografia dedicada ao bispo e produzida em fins dos anos 540, que tem grande repercussão nos estudos históricos. Com base em uma comparação com dedicada ao bispo e produzida em fins dos anos 540, que tem grande repercussão nos estudos históricos. Com base em uma comparação com as hagiografias de bispos precedentes, argumentamos que a maneira repercussão nos estudos históricos. Com base em uma comparação com as hagiografias de bispos precedentes, argumentamos que a maneira como a Vita Caesarii aborda o espaço e a memória indica uma mudança as hagiografias de bispos precedentes, argumentamos que a maneira como a Vita Caesarii aborda o espaço e a memória indica uma mudança significativa na forma como o poder episcopal foi exercido entre a primeira como a Vita Caesarii aborda o espaço e a memória indica uma mudança significativa na forma como o poder episcopal foi exercido entre a primeira década do século V e a metade do século VI, especialmente durante o significativa na forma como o poder episcopal foi exercido entre a primeira década do século V e a metade do século VI, especialmente durante o bispado de Cesário"

As you can see, a lot of duplicated content has been added to the original highlighted text.

The broken text persists, even after opening the same PDF on Zotero for Windows. I tested this in three devices: Poco X4 NFC (Smartphone), Samsung Tab A8 and Samsung Tab A9.

Right now, I'm using a workaround to "fix" this issue: I read and annotate the text as usual on my android device, then I go to Zotero for Windows, click on "File>Save as..." to export the PDF with the annotations, and then I add this pdf back to Zotero. This seems to fix the broken text in the annotations.

Has anyone else had this issue?
  • P.S.: I noticed this bug while annotating multiple PDFs, not just the one I mention above as an example.
  • I have also had this issue across several pdfs and it persisted despite closing & reopening the app, restarting the device, and uninstalling the app then restarting and reinstalling.
  • I'm experiencing the same issue with my Xiaomi pad 6. There seems to be a minimal overlap of the highlights (I hope it can be seen between the last two highlighted lines). Also, at least for me, the extracted text repeats on letters which have decenders going under the baseline (in this case: "q" in "adequate"; "y" in "consistency"; and "g" in "single") although it doesn't happen every time (e.g. "reliability", "justified"). Maybe the issue is less likely to happen at the end of a line, but based on my short example I wouldn't take a bet on that.

    https://s3.amazonaws.com/zotero.org/images/forums/u11170056/bk7dny49xllc04ooy5az.jpg
  • just to update, I'm still having this issue on app version 1.0.0-97
    device: Samsung galaxy s23
  • edited 10 days ago
    I have the same issue. App version 1.0.0-119 and Samsung Tab S7 FE. I can't do the fix around due to the files been stored only in my tablet. I transfer the annotations to note and fix it manually.

    I'm not an appropriate tester, more a normal user. But, I did some testing and it seems that the text highlited is beening copy from the blue rectangle around and not from the selection itself, that could explain capturing text outside the selection.

    PS: After looking at the 'fix', it's not possible for me, even if I have the files stored also in my windows, because the bugged annotations also appeard with extra text in windows.
Sign In or Register to comment.