<div dir="ltr"><font face="verdana, sans-serif" color="#0b5394">Dear Heiko,</font><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">Thank you very much for your reply. Appreciating your valuable efforts in sending me a reply.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">We had also arrived at a conclusion as you mentioned in your mail.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">In order to have a clear understanding of our situation, kindly see the below points.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">1. We Integrated a tesseract OCR based add on into alfresco, where the OCR option was available with the various document actions.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">2. The customer will be uploading documents from various different applications into alfresco through API</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">3. The documents will be pushed into a folder where an OCR business rule is applied.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">4. Whenever the OCR starts operating, the CPU usage is going higher and when there are so many documents to be performed with OCR, Alfresco is getting stuck and slow.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">5. CPU Usage will be normal only when the OCR stops working. So in production, so many documents will be coming in where OCR needs to be applied and this is making their system slow.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">This is the exact scenario.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">And as per your suggestion, the OCR should be performed outside and we are looking for such a solution. </font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">We had gone through some tutorials/forums where we got similar solutions.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">Please let me know your thoughts on this.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">Once again, with extreme happiness, i extend my gratitude towards you.</font></div><div><font face="verdana, sans-serif" color="#0b5394"><br></font></div><div><font face="verdana, sans-serif" color="#0b5394">Looking forward to hearing from you!</font></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Oct 13, 2020 at 3:38 PM Heiko Robert <<a href="mailto:heiko%2Borderofthebee.info@ecm4u.de">heiko+orderofthebee.info@ecm4u.de</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Anand,<br>
<br>
to enable us to help you, you have to explain in more detail what <br>
exactly you have implemented and what exactly the problem is. There is <br>
no default feature to do OCR with Alfresco.<br>
<br>
Independant from your specific implementation I always recommend not to <br>
even save a document in Alfresco if this is to be used for OCR. Instead <br>
do your OCR processing _before_ you save that doc in Alfresco.<br>
<br>
This recommendation has several reasons:<br>
* Alfresco's transformation engine has no concept to replace a node <br>
which is expected in most OCR scenarios.<br>
* as long you don't use the EE Transform Service any transformation will <br>
run in a local thread consuming CPU. As long you don't implement your <br>
own custom queuing mechanism for CE this will not change and will not scale.<br>
* Folder rules are always running in a local thread and consume CPU <br>
unless they only create a job in a queue somewhere. Choosing "async" in <br>
a folder rule only means that it should run in a independant transaction<br>
* storing a node first without OCR means always to store the same doc at <br>
least twice which is not wanted/required in most cases.<br>
<br>
To make the long story short:<br>
You could avoid a lot of hastle not to involve Alfresco at all for doing <br>
the OCR. For our customers we do all the processing and automation <br>
outside of alfresco. To create renditions or replace the content <br>
property of a node we implemented our own queuing mechanism delegating <br>
the transformation to a professional transforming engine using REST <br>
which includes PDF handling (OCR, data extraction, PDF/A validation, <br>
optimization). But as said we try to run that transformation before we <br>
store the doc iside of Alfresco.<br>
<br>
Regards<br>
Heiko<br>
<br>
<br>
Am 12.10.2020 um 20:33 schrieb Anand K:<br>
> Hi,<br>
> <br>
> We recently delivered Alfresco Comunity 6.2 with Tesseract OCR to a <br>
> particular Client in a CentOS-based server.<br>
> <br>
> OCR was integrated successfully.<br>
> <br>
> The client applied Business Rule on a folder and the files were pushed <br>
> to the folder through API from different 3rd party applications.<br>
> <br>
> Whenever OCR is applied, the CPU usage is high and Alfresco gets stuck <br>
> during this such that no other operations can be done on it.<br>
> <br>
> Can you please help us resolve this issue? I read somewhere about <br>
> allocating a separate server for OCR alone. We don't have much <br>
> experience with the same. Can you please help us?<br>
<br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div><span style="font-family:verdana,sans-serif"><b><font color="#0c343d"><br></font></b></span></div><span style="font-family:verdana,sans-serif"><b><font color="#0c343d"><div><span style="font-family:verdana,sans-serif"><b><font color="#0c343d">Thanks and Regards,</font></b></span></div><div><span style="font-family:verdana,sans-serif"><b><font color="#0c343d"><br></font></b></span></div>Anand Kurian</font></b></span></div><div dir="ltr"><b style="color:rgb(12,52,61);font-family:verdana,sans-serif">Chief Executive Officer</b></div><div dir="ltr"><div><div style="font-family:verdana,sans-serif"><b><font color="#0c343d">Mob:  </font><span style="color:rgb(12,52,61);font-size:12.8px">+91 9496821365</span></b></div><div style="font-family:verdana,sans-serif"><font color="#0c343d"><b>          +91 7012287156</b></font></div><div style="font-family:verdana,sans-serif"><font color="#0c343d"><b>e-mail:</b> <a href="mailto:anand.k@dieutek.com" target="_blank">anand.k@dieutek.com</a></font></div><div style="font-family:verdana,sans-serif"><img src="https://drive.google.com/a/dieutek.com/uc?id=14BbAK1YjNjvCsb6VOyySWBcxLQzjkswr&export=download" width="420" height="192"><br><br></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>