podcast

Gemini прочитает незрячим квитанции и другие документы с таблицами.

29.01.2025
Listen to the episode on your favorite platforms:
  • Apple Podcasts
  • Yandex Music
  • Castbox
  • Pocket Casts
  • ВКонтакте
  • Overcast
  • Castro
  • RadioPublic
Программы для распознавания текстов позволяют незрячим людям читать простые тексты. Но, когда речь заходит о таблицах, чтение таких документов становится не простым делом. 
Синтезатор речи просто читает строки таблиц одну за другой и понять структуру документа при таком прочтении бывает непросто. 
Но, сейчас есть языковые модели, которые могут работать с изображениями. 
Одна из таких моделей, Gemini от Google, может читать документы с таблицами для незрячих людей и предоставлять информацию в более удобной форме. 
Как это работает? Смотрите и слушайте в этом видео.