OCR ინსტრუმენტების შედარება: როგორ ავირჩიოთ საუკეთესო ინსტრუმენტი თქვენი პროექტისთვის

ოპტიკური ხასიათის ამოცნობა (მოკლე: OCR) არის სურათებისგან ტექსტის ავტომატურად ამოღების ამოცანა. დღესდღეობით, არსებობს უამრავი ინსტრუმენტი და მომსახურება, რომელთა გამოყენება მარტივია და ამ ამოცანას უღელტეხილზე აკეთებს. ამ ბლოგ – პოსტში მე შევადარებ ოთხ პოპულარულ ინსტრუმენტს:

  1. Tesseract OCR
  2. ABBYY FineReader
  3. Google Cloud Vision
  4. Amazon Textract

მე ვაჩვენებ, როგორ გამოვიყენო ისინი და შევაფასო მათი ძლიერი და სისუსტეები, მათი შესრულების საფუძველზე, უამრავ დავალებაზე. ამ სტატიის წაკითხვის შემდეგ თქვენ შეძლებთ აირჩიოთ და გამოიყენოთ OCR ინსტრუმენტი, რომელიც შეესაბამება თქვენი პროექტის საჭიროებებს.

გაითვალისწინეთ, რომ ჩვენ შეზღუდავს ჩვენს ყურადღებას OCR– ს მხოლოდ დოკუმენტურ სურათებზე, განსხვავებით ტექსტი, რომელიც შეიცავს ტექსტს შემთხვევით.

ეს არ არის დოკუმენტის სურათი.

მოდით შევხედოთ დოკუმენტის სურათებს, რომელსაც ჩვენ გამოვიყენებთ OCR ძრავების შესაფასებლად.

ჩვენი ტესტის სურათები

დოკუმენტის სურათები სხვადასხვა ფორმისა და თვისებების სახით მოდის. ზოგჯერ ისინი დასკანერებულნი არიან, სხვა დროს ისინი ხელში მოწყობილობებით არის ხელში. გარდა ბეჭდური ტექსტისა, მათ შეიძლება შეიცავდეს ხელნაწერი და სტრუქტურული ელემენტებიც, მაგალითად, ყუთები და მაგიდები. ამრიგად, იდეალური OCR ინსტრუმენტი უნდა

  • საიმედოდ აღიარეთ კარგად დასკანერებული ტექსტი,
  • იყავით მტკიცე სურათის ცუდი ხარისხისა და ხელწერის მიმართ,
  • გამომავალი ინფორმაცია დოკუმენტის ფორმატის და სტრუქტურის შესახებ.

ამ წინაპირობების გათვალისწინებით, ჩვენ შეამოწმებთ OCR ინსტრუმენტებს შემდეგ ოთხ სურათზე:

დასკანერებული ელ.წერილი, დასკანერებული ხელნაწერი წერილი.სმარტფონის მიერ აღებული ელ.ფოსტა, დასკანერებული მაგიდა.

ყველა სურათი მოდის თამბაქოს ინდუსტრიის დოკუმენტების დიდი კორპუსისგან. მესამე იყო დაბეჭდილი, შემდეგ კი დაიჭირეს სმარტფონი, შემოიღეს ტიპიური ხმაური.

პირველ რიგში, ჩვენ შევეცდებით, თუ როგორ ცდილობს Tesseract OCR ამ ამოცანების შესრულებას.

Tesseract OCR

Tesseract- ის შესახებ ყველაზე კარგი ის არის, რომ ის უფასო და მარტივი გამოსაყენებელია. ძირითადად ეს არის ბრძანების სტრიქონის ინსტრუმენტი, მაგრამ ასევე არსებობს Python- ის შესაფუთი სახელწოდება pytesseract და GUI frontend gImageReader, ასე რომ თქვენ შეგიძლიათ აირჩიოთ ის, რომელიც საუკეთესოდ შეესაბამება თქვენს მიზნებს.

ბრძანების ხაზის ხელსაწყოს გამოყენება ისეთივე მარტივია, როგორც

tesseract იმიჯის გამომავალი ბაზა [გამომავალი ფორმატი]

თუ ჩვენ არ მივუთითებთ გამომავალი ფორმატს, ნაგულისხმევი არის ტექსტური ფაილი, რომელიც შეიცავს აღიარებულ სიმბოლოებს. ალტერნატიულად, pdf გამოაქვეყნებს მოძებნებულ pdf- ს, hocr და alto XML ფაილებს, რომლებიც შეიცავს დამატებით ინფორმაციას პერსონაჟების პოზიციების მსგავსად (XML სტანდარტში, რომელიც გადის იმავე სახელწოდებას, შესაბამისად). იხილეთ აქ უფრო არჩევითი არგუმენტები.

აი, რას აღმოაჩენს Tesseract ჩვენს ტესტის სურათებში:

დავალება: დასკანირებული ელ.ფოსტა, ხელნაწერი წერილი.დავალება: სმარტფონის მიერ აღებული ელ.ფოსტა - გამოსავალი საერთოდ არ არის, დასკანერებული მაგიდა.

როგორც შეამჩნევთ, Tesseract OCR კარგად იცნობს ტექსტს კარგად დასკანერებულ ელექტრონულ ფოსტაზე. ამასთან, როდესაც საუბარია ხელნაწერ წერილს და სმარტფონის ხელში ჩაგდებულ დოკუმენტს, სისულელეა ან სიტყვასიტყვით არაფერი გამოდის.

ცხრილის სურათიდან გამოსავლისთვის გამოვიყენე gImageReader, GUI– ის ფრონტი, რომელიც ზემოხსენებულია. გამოდის, რომ Tesseract– ი აწარმოებს სავალდებულო ყუთებს სურათის იმ ადგილებში, რომლებიც შეიცავს ტექსტს, მაგრამ ეს არც კი მიუახლოვდება ცხრილის სწორ მოპოვებას. რა თქმა უნდა, შეგიძლიათ დაამუშავოთ Tesseract– ის გამომავალი პროდუქტი საკუთარი ცხრილის მოპოვების ხელსაწყოთი. ჩვენი ბლოგის პოსტები OCR– ს ტექნიკური ნახაზების გამოყენებასთან დაკავშირებით და წერილებიდან თარიღების ამოღების შესახებ გვაფიქრებინებს, თუ როგორ.

ABBYY FineReader

ABBYY გთავაზობთ OCR- სთან დაკავშირებულ პროდუქტებს. ვაპირებ გამოიყენოთ ABBYY Cloud OCR SDK API. ამ ღრუბლოვან სერვისში იყენებენ ABBYY FineReader OCR ძრავას, რომლის დაყენებაც შესაძლებელია ადგილობრივად. Tesseract- ისგან განსხვავებით, ABBYY Cloud OCR უფასო არ არის (ფასები).

თუ გსურთ ისწავლოთ API- ს გამოყენება, თქვენ ნახავთ ყველაფერს, რაც უნდა იცოდეთ ამ სწრაფი დაწყების სახელმძღვანელოში.

კიდევ ერთხელ, ჩვენ გვაქვს სხვადასხვა ვარიანტი OCR გამომავალი ფორმატის მიმართ. გარდა მათგან, რომლებიც ასევე გათვალისწინებულია Tesseract- ით, დამატებით შეგვიძლია ვთხოვოთ ABBYY- ს გამოაქვეყნოს XLSX ცხრილები. მე ვაპირებ გამოვიყენო ეს ვარიანტი ჩვენი მაგიდის სურათისთვის.

ABBYY: დასკანირებული ელ.ფოსტა, ხელნაწერი წერილი.ABBYY: სმარტფონის მიერ აღებული ელ.ფოსტა, დასკანერებული მაგიდა.

ABBYY FineReader- ს არ აქვს პრობლემები კარგად დასკანერებულ ელექტრონულ ფოსტაზე და გონივრულად ახერხებს სმარტფონის მიერ აღებულ დოკუმენტს. ეს ხელნაწერი დოკუმენტი სრულად ვერ ხერხდება.

მისი მთავარი სათნოება არის ცხრილების მოპოვების მოცულობა: როგორც ბოლო სურათზე ხედავთ, გამომავალი ინარჩუნებს ცხრილის სტრუქტურას. XML გამომავალი მონაცემების უფრო მჭიდრო დათვალიერება ცხადყოფს, რომ FineReader ნამდვილად ცნობს ცხრილის სექციებს და ცალკეულ უჯრედებს, და კიდევ ამონაწილებს დეტალებს, როგორიცაა შრიფტის სტილი (იხილეთ აქ ABBYY– ის XML სქემის აღწერისთვის).

Google Cloud Vision

შემდეგი ხაზია Google Cloud Vision, რომლის გამოყენებასაც ვაპირებთ API– ს საშუალებით. ისევე, როგორც FineReader, ეს არის ფასიანი მომსახურება (ფასები).

Cloud Vision API– ის გამოყენება ოდნავ უფრო რთულია, ვიდრე ABBYY– ის API ან Tesseract– ის გამოყენება. იმისთვის რომ გაეცნოთ როგორ მუშაობს, აქ კარგ საწყის წერტილებს პოულობთ აქ და აქ.

ჩვენ ვიღებთ შემდეგ გამოშვებას:

Google: დასკანირებული ელ.ფოსტა, ხელნაწერი წერილი.Google: სმარტფონის მიერ აღებული ელ.ფოსტა, დასკანერებული მაგიდა.

Google კარგად ახერხებს დასკანერებულ ელექტრონულ ფოსტაზე და ცნობს სმარტფონის მიერ აღბეჭდილი დოკუმენტის ტექსტს ან ABBYY- ს. ამასთან, ეს ბევრად უკეთესია ვიდრე Tesseract ან ABBYY ხელნაწერების აღიარებაში, როგორც მეორე შედეგის სურათი გვიჩვენებს: ჯერ კიდევ შორს არის იდეალურიდან, მაგრამ ყოველ შემთხვევაში მან მიიღო რაღაცები სწორად. მეორეს მხრივ, Google Cloud Vision კარგად არ მუშაობს ცხრილები: ის ამონაწილებს ტექსტს, მაგრამ ეს ეხება მას.

სინამდვილეში, ორიგინალი Cloud Vision გამომავალი არის JSON ფაილი, რომელიც შეიცავს ინფორმაციას პერსონაჟის პოზიციების შესახებ. რაც შეეხება Tesseract- ს, ამ ინფორმაციის საფუძველზე შეიძლება შეეცადოთ ცხრილების გამოვლენა, მაგრამ ისევ ეს ფუნქცია არ არის აგებული.

გაითვალისწინეთ, რომ ახლა ასევე არსებობს Google Document Understanding AI beta ვერსიას, რომელიც ამ ეტაპზე არ გამოგვიყენებია.

Amazon Textract

ჩვენი ბოლო კანდიდატი ასევე არის გადახდილი ღრუბელზე დაფუძნებული გადაწყვეტა (ფასები).

ტესტირების მიზნებისათვის, თქვენ შეგიძლიათ გამოიყენოთ მოხდეს Textract– ის მოხერხებულად ბრაუზერის ინტერფეისით, მაგრამ პროდუქციისთვის მზადყოფნისთვის, სასურველია, მოწოდებული API გამოიყენოთ.

ბრაუზერის ინტერფეისის გამოყენებით, Textract გამოაქვს

  • API პასუხი, როგორც JSON ფაილი,
  • ნედლეული ტექსტი,
  • გამოვლენილი ცხრილი CSV ცალკეულ ფაილებში,
  • საკვანძო მნიშვნელობის წყვილი (შეტანის, როგორც ფორმა) ინტერპრეტაცია, ასევე CSV ფაილი.

ეს გვაძლევს შემდეგ შედეგებს:

ამაზონი: დასკანერებული ელ.ფოსტა, ხელნაწერი წერილი.ამაზონი: სმარტფონის მიერ აღებული ელ.ფოსტა, დასკანერებული მაგიდა.

როგორც ადრე, ელ.ფოსტა კარგად გამოიყურება, მაგრამ აშკარად Textract კარგად არ მუშაობს ხელნაწერი ტექსტებით. უფრო მეტიც, მიუხედავად იმისა, რომ სმარტფონის მიერ დაპყრობილი დოკუმენტი ერთი შეხედვით კარგად გამოიყურება, უფრო მჭიდრო შემოწმების შედეგად ცხადყოფს, რომ ამაზონის OCR– მა აირია ხაზები (დოკუმენტის სურათის მრუდის გამო).

ტაბულური დოკუმენტისთვის ჩვენ მხოლოდ სამი ცხრილიდან გამოვხატავთ Textract გამოვლენილებს. მაგრამ ეს უკვე ჩანს, რომ ზოგიერთი სვეტის სათაური აკლია და ზოგი ნომერი არასწორ ადგილებშია.

დასკვნა

ამ ცხრილში შეჯამებულია ჩვენი ტესტების შედეგები:

ძირითადი ნაბიჯები სიტყვებში:

  • თუ თქვენ გაქვთ მანქანაზე წერილობითი და კარგად დასკანერებული დოკუმენტები, ან შესაძლოა PDF ფაილებს, რომლებსაც არ აქვთ მეტამონაცემები, მაშინ Tesseract OCR შეიძლება გააკეთოს სამუშაო, თუმცა კომერციული მომსახურება უფრო საიმედოა.
  • თუ ხელნაწერი სიმბოლოების ამოცნობა თქვენთვის მნიშვნელოვანია, Google Cloud Vision არის თქვენი ერთადერთი სიცოცხლისუნარიანი ტესტირება შორის დღეის მდგომარეობით.
  • თუ დოკუმენტის სურათის ხარისხი ცუდია, ABBYY FineReader და Google Cloud Vision კვლავ კარგ საქმეს აკეთებენ.
  • თუ თქვენი მიზანია ცხრილი ინფორმაციის მოპოვება, გსურთ აირჩიოთ ABBYY FineReader.

თავდაპირველად გამოქვეყნდა https://dida.do– ზე, 2020 წლის 20 იანვარს.