OCR - Teh Forum

<body> <div id="header"> <span class="left"> <span class="back"><a href="lthread_list.php?webtag=DEFAULT"><span class="image mobile_back" title="Back"></span></a></span> <span class="image mobile_logo" title="Beehive Forum Logo"></span> </span> <ul> <li> <a class="reply_all" href="lpost.php?webtag=DEFAULT&reply_to=42338.0&return_msg=42338.9"> <span class="image mobile_reply_all"></span><span class="text">Reply to All</span> </a> </li> <li> <a class="navigation" href="#"> <span class="image mobile_navigation"></span><span class="text">Show messages</span> </a> </li> <li> <a class="main" href="#"><span class="image mobile_menu" title="Menu"></span> </a> </li> </ul> </div> <div class="menu main"> <ul> <li><a href="lthread_list.php?webtag=DEFAULT">Messages</a></li> <li><a href="lpm.php?webtag=DEFAULT">Inbox</a></li> <li><a href="lsearch.php?webtag=DEFAULT">Search</a></li> <li><a href="llogon.php?webtag=DEFAULT">Login</a></li> </ul> </div> <div class="menu navigation"><a href="lmessages.php?webtag=DEFAULT&msg=42338.1">1–10</a><a href="lmessages.php?webtag=DEFAULT&msg=42338.11">11</a></div> <div id="page_content"> <h3 class="thread_title"><a href="index.php?webtag=DEFAULT&amp;msg=42338.9">OCR</a> </h3> <div id="messages" data-navigation="42338_9_11_10"> <a name="a42338_9"></a><div class="message" id="message_42338_9"> <div class="message_header"> <div class="message_from"> From: Peter (BOUGHTONP)<span class="message_time"> 6 Apr 2019 22:03</span> <div class="clearer"></div> </div><div class="message_to">To: ALL<span class="message_count">9 of 11</span><div class="clearer"></div> </div> </div> <div class="message_links"> <a href="lmessages.php?webtag=DEFAULT&msg=42338.9">42338.9</a></div> <div class="message_body"> I had the thought of forgetting about OCR and searching for what I actually want, i.e: "image to spreadsheet conversion", which came up with this: <a href="https://online2pdf.com/convert-jpg-to-excel">https://online2pdf.com/convert-jpg-to-excel</a> <p>The formatting it produced was all over the place, but it did a good job on the numbers - a handful of mistakes, mostly with zeroes. A couple of incorrect numbers (161->151 and 77->17) which were highlighted through the totals not matching, but compared to Tesseract it was brilliant. </p><p>Happy Peter -> <span class="emoticon e_smile" title=":)"><span class="e__">:)</span></span></p></div> <div class="message_footer"> <div class="message_footer_links"><a href="lpost.php?webtag=DEFAULT&reply_to=42338.9&return_msg=42338.9" class="reply"><span class="image post"></span>Reply</a></div> <div class="message_vote_form" data-msg="42338.9"> <span class="rating">0/0</span> <span class="image vote vote_down vote_down_off" title="Vote Down"></span> <span class="image vote vote_up vote_up_off" title="Vote Up"></span> </div> </div> </div><a name="a42338_10"></a><div class="message" id="message_42338_10"> <div class="message_header"> <div class="message_from"> From: CHYRON (DSMITHHFX)<span class="message_time"> 6 Apr 2019 22:23</span> <div class="clearer"></div> </div><div class="message_to">To: Peter (BOUGHTONP) <span><span class="image post_read" title="Read: 6 Apr 2019 22:29"></span></span> <span class="message_count">10 of 11</span><div class="clearer"></div> </div> </div> <div class="message_links"> <a href="lmessages.php?webtag=DEFAULT&msg=42338.10">42338.10</a> In reply to <a href="lmessages.php?webtag=DEFAULT&msg=42338.9#a42338_9" target="_self">42338.9</a></div> <div class="message_body"> I've had good luck with online OCR, though not tried for excel.</div> <div class="message_footer"> <div class="message_footer_links"><a href="lpost.php?webtag=DEFAULT&reply_to=42338.10&return_msg=42338.9" class="reply"><span class="image post"></span>Reply</a></div> <div class="message_vote_form" data-msg="42338.10"> <span class="rating">0/0</span> <span class="image vote vote_down vote_down_off" title="Vote Down"></span> <span class="image vote vote_up vote_up_off" title="Vote Up"></span> </div> </div> </div><a name="a42338_11"></a><div class="message" id="message_42338_11"> <div class="message_header"> <div class="message_from"> From: Peter (BOUGHTONP)<span class="message_time"> 6 Apr 2019 22:37</span> <div class="clearer"></div> </div><div class="message_to">To: CHYRON (DSMITHHFX) <span><span class="image post_read" title="Read: 7 Apr 2019 00:00"></span></span> <span class="message_count">11 of 11</span><div class="clearer"></div> </div> </div> <div class="message_links"> <a href="lmessages.php?webtag=DEFAULT&msg=42338.11">42338.11</a> In reply to <a href="lmessages.php?webtag=DEFAULT&msg=42338.9#a42338_10" target="_self">42338.10</a></div> <div class="message_body"> I'm guessing it's mostly just regular OCR, but uses tabs if there's more than a single space, although the file I got back did have merged cells with a dozen spaces for some of the rows, suggesting buggy overcomplicated logic. <p>We need to set Stallman on them all.</p></div> <div class="message_footer"> <div class="message_footer_links"><a href="lpost.php?webtag=DEFAULT&reply_to=42338.11&return_msg=42338.9" class="reply"><span class="image post"></span>Reply</a></div> <div class="message_vote_form" data-msg="42338.11"> <span class="rating">0/0</span> <span class="image vote vote_down vote_down_off" title="Vote Down"></span> <span class="image vote vote_up vote_up_off" title="Vote Up"></span> </div> </div> </div></div> </div> </body>