fix DBI connection, RT#39250
[freeside.git] / FS / bin / freeside-torrus-srvderive
index 7a42f51..5ad23ab 100644 (file)
@@ -5,13 +5,14 @@ use POSIX qw( :sys_wait_h );
 use Sys::SigAction qw( set_sig_handler );
 use Date::Parse;
 use Date::Format;
+use IPC::Run qw( run ); #timeout );
 use FS::Daemon ':all'; #daemonize1 drop_root daemonize2 myexit logfile sig*
 use FS::UID qw( adminsuidsetup forksuidsetup dbh driver_name );
-use FS::Record qw( qsearch str2time_sql str2time_sql_closing concat_sql );
+use FS::Record qw( qsearch );
 use FS::torrus_srvderive;
 
 our $DEBUG = 2;
-our $max_kids = 3;
+our $max_kids = 4;
 our %kids;
 
 my $user = shift or die &usage;
@@ -33,46 +34,18 @@ die "not running: network_monitoring_system not Torrus_Internal\n"
 
 #--
 
-my $str2time = str2time_sql();
-my $c = str2time_sql_closing();
-
-my $_date = concat_sql([ 'srvexport.srv_date', "' '", 'srvexport.srv_time' ]);
-$_date = "CAST( $_date AS TIMESTAMP )" if driver_name =~ /^Pg/i;
-$_date = str2time_sql. $_date.  str2time_sql_closing;
-
-my $other_date = concat_sql([ 'other.srv_date', "' '", 'other.srv_time' ]);
-$other_date = "CAST( $other_date AS TIMESTAMP )" if driver_name =~ /^Pg/i;
-$other_date = str2time_sql. $other_date.  str2time_sql_closing;
-
-my $in  = concat_sql([ '?', "'_IN'" ]);
-my $out = concat_sql([ '?', "'_OUT'" ]);
-
-my $sql = "
-  SELECT DISTINCT srv_date, srv_time FROM srvexport
-    WHERE NOT EXISTS (
-                       SELECT 1 FROM srvexport AS other
-                         WHERE other.serviceid IN ( $in, $out )
-                           AND srvexport.srv_date = other.srv_date
-                           AND ABS( $_date - $other_date ) <= 60
-                     )
-";
-
-my $orderlimit = "
-    ORDER BY srv_date, srv_time
-    LIMIT 50
-";
-
 our $kids = 0;
 
-MAIN: while (1) {
+#MAIN: while (1) {
+while (1) {
 
-  my $found = 0;
-
-  SERVICEID: foreach my $torrus_srvderive ( qsearch('torrus_srvderive', {}) ) {
+  #SERVICEID: foreach my $torrus_srvderive ( qsearch('torrus_srvderive', {}) ) {
+  foreach my $torrus_srvderive ( qsearch('torrus_srvderive', {}) ) {
 
     &reap_kids;
     if ( $kids >= $max_kids ) {
-      sleep 10;
+      sleep 5;
+      myexit() if sigterm() || sigint();
       redo;
     }
 
@@ -95,7 +68,7 @@ MAIN: while (1) {
       my $serviceid = $torrus_srvderive->serviceid;
 
       my @serviceids = $torrus_srvderive->component_serviceids;
-      next unless @serviceids; #don't try to search for empty virtual ports
+      exit unless @serviceids; #don't try to search for empty virtual ports
 
       my @in = ();
       for my $dir ('_IN', '_OUT') {
@@ -109,7 +82,8 @@ MAIN: while (1) {
                     ORDER BY srv_date LIMIT 1";
         my $dsth = dbh->prepare($dsql) or die $DBI::errstr;
         $dsth->execute or die $dsth->errstr;
-        my $date = $dsth->fetchrow_arrayref->[0];
+        my $row = $dsth->fetchrow_arrayref;
+        my $date = (defined($row) && ref($row)) ? $row->[0] : '';
         if ( $date ) {
           warn "found initial last_srv_date of $date; updating $serviceid\n"
             if $DEBUG;
@@ -118,119 +92,70 @@ MAIN: while (1) {
           die $error if $error;
         } else {
           warn "no initial last_srv_date for $serviceid; skipping\n" if $DEBUG;
-          next;
+          exit;
         }
       }
 
-      my $ssql = "
-        $sql AND EXISTS (
-                         SELECT 1 FROM srvexport AS other
-                           WHERE other.serviceid IN ($in)
-                             AND srvexport.srv_date = other.srv_date
-                             AND ABS( $_date - $other_date ) <= 60
-                       )
-      ";
-
-      $ssql .= " AND srv_date >= '". $torrus_srvderive->last_srv_date. "' "
-        if $torrus_srvderive->last_srv_date;
-
-      $ssql .= $orderlimit;
-
-      warn "searching for times to add $serviceid\n" if $DEBUG;
-      warn $ssql if $DEBUG > 2;
-      my $sth = dbh->prepare($ssql) or die $DBI::errstr; #better recovery here?
-
-      eval {
-        my $h = set_sig_handler( 'ALRM', sub { die "_timeout\n"; } );
-        alarm(10*60); #5*60); #$torrus_srvderive->last_srv_date ? 5*60 : 15*60);
-        $sth->execute($serviceid, $serviceid) or die $sth->errstr;
-        alarm(0);
-      };
-      alarm(0);
-      
-      if ( $@ && $@ eq "_timeout\n" ) {
-        warn "search timed out; reconnecting and restarting\n";
-        dbh->clone()->do("KILL QUERY ". dbh->{"mysql_thread_id"})
-          if driver_name eq 'mysql';
-        dbh->rollback; #or die dbh->errstr;
-        adminsuidsetup($user);
-        next SERVICEID; #MAIN;
-      } elsif ( $@ ) {
-        die $@;
-      }
+      #if we're more than a day behind, call native torrus srvderive
+      my $last_srv_date = $torrus_srvderive->last_srv_date;
+      my $currdate = time2str('%Y-%m-%d', time);
+      if ( $last_srv_date ne $currdate
+           && time - str2time($last_srv_date) > (24)*60*60
+         ) {
+        warn "serviceid $serviceid last_srv_date != $currdate\n" if $DEBUG;
+
+        #delete records from last_srv_date
+        my $dsql =
+          'DELETE FROM srvexport WHERE srv_date = ? AND serviceid IN(?,?)';
+        my $dsth = dbh->prepare($dsql) or die $DBI::errstr;
+        warn "$dsql $last_srv_date ${serviceid}_IN ${serviceid}_OUT\n"
+          if $DEBUG;
+        $dsth->execute($last_srv_date, $serviceid.'_IN', $serviceid.'_OUT')
+          or die $dsth->errstr;
+        dbh->commit or die dbh->errstr;
 
-      warn "search finished; checking results\n" if $DEBUG;
+        foreach my $dir ('_IN','_OUT') {
 
-      my $prev = 0;
-      while ( my $row = $sth->fetchrow_arrayref ) {
-        last if sigterm() || sigint();
+          #XX TORRUS_PATH
+          my @cmd = ( '/usr/local/bin/torrus', 'srvderive',
+                        "--start=$last_srv_date", "--end=$currdate",
+                        "--out=$serviceid$dir", "--func=SUM",
+                        map "$_$dir", @serviceids
+                    );
 
-        my( $srv_date, $srv_time ) = @$row;
-        my $cur = str2time( "$srv_date $srv_time" );
-        next if $cur-$prev <= 60;
-        last if time - $cur <= 300;
+          warn "calling native srvderive: ". join(' ', @cmd). "\n" if $DEBUG;
+          my $out_and_err = '';
+          run( \@cmd, '>&', \$out_and_err ) #verbose?  timeout?
+            or die "error calling native srvderive: $out_and_err\n";
 
-        warn "no $serviceid for $srv_date $srv_time; adding\n"
-          if $DEBUG;
-        $found++;
-
-        for my $dir ('_IN', '_OUT') {
-
-          my $sin = join(',', map dbh->quote("$_$dir"), @serviceids);
-
-          my $sum = "
-            SELECT COALESCE(SUM(value),0) FROM srvexport AS other
-              WHERE other.serviceid IN ($sin)
-                AND ABS( $cur - $other_date ) <= 60
-          ";
-
-          my $isql = "
-            INSERT INTO srvexport ( srv_date, srv_time, serviceid, value, intvl )
-              VALUES ( ?, ?, ?, ($sum), ? )
-          ";
-          my @param = ( time2str('%Y-%m-%d', $cur), #srv_date
-                        time2str('%X', $cur),       #srv_time
-                        "$serviceid$dir",
-                        300, #intvl ... 
-                      );
-          warn $isql. ' with param '. join(',',@param). "\n"
-            if $DEBUG > 2;
-
-          my $isth = dbh->prepare($isql) or die $DBI::errstr; #better recovery?
-
-          #stupid mysql deadlocks all the time on insert, so we need to recover
-          unless ( $isth->execute(@param) ) {
-            warn "Error inserting data for $serviceid$dir (restarting): ".
-                 $isth->errstr;
-            dbh->rollback; #or die dbh->errstr;
-            sleep 5;
-            next SERVICEID; #MAIN;
-          }
-                          
         }
+        warn "native srvderive done" if $DEBUG;
 
-        if ( $srv_date ne $torrus_srvderive->last_srv_date ) {
-          warn "updating last_srv_date of $serviceid to $srv_date\n" if $DEBUG;
-          $torrus_srvderive->last_srv_date($srv_date);
-          my $error = $torrus_srvderive->replace;
-          die $error if $error;
-        }
-        dbh->commit or die dbh->errstr;
+        $torrus_srvderive->last_srv_date($currdate);
+        my $error = $torrus_srvderive->replace;
+        die $error if $error;
+
+        #don't bother trying today's immediately
+        warn "done with $serviceid for now\n" if $DEBUG;
+
+      } else {
+
+        warn "serviceid $serviceid last_srv_date == $currdate; skipping\n"
+          if $DEBUG;
 
-        $prev = $cur;
       }
-      warn "done with $serviceid\n" if $DEBUG;
 
-      exit;
-      #end-of-kid
+      exit; #end-of-kid
+
     }
 
   } #foreach my $torrus_srvderive
   dbh->commit or die dbh->errstr;
 
   myexit() if sigterm() || sigint();
+  warn "sleeping an hour\n" if $DEBUG > 1;
+  sleep 60*60;
   warn "restarting main loop\n" if $DEBUG > 1;
-  sleep 60 unless $found;
 }
 
 sub _shouldrun {