This commit was generated by cvs2svn to compensate for changes in r9232,
[freeside.git] / rt / lib / RT / I18N.pm
1 # BEGIN BPS TAGGED BLOCK {{{
2
3 # COPYRIGHT:
4
5 # This software is Copyright (c) 1996-2009 Best Practical Solutions, LLC
6 #                                          <jesse@bestpractical.com>
7
8 # (Except where explicitly superseded by other copyright notices)
9
10
11 # LICENSE:
12
13 # This work is made available to you under the terms of Version 2 of
14 # the GNU General Public License. A copy of that license should have
15 # been provided with this software, but in any event can be snarfed
16 # from www.gnu.org.
17
18 # This work is distributed in the hope that it will be useful, but
19 # WITHOUT ANY WARRANTY; without even the implied warranty of
20 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
21 # General Public License for more details.
22
23 # You should have received a copy of the GNU General Public License
24 # along with this program; if not, write to the Free Software
25 # Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA
26 # 02110-1301 or visit their web page on the internet at
27 # http://www.gnu.org/licenses/old-licenses/gpl-2.0.html.
28
29
30 # CONTRIBUTION SUBMISSION POLICY:
31
32 # (The following paragraph is not intended to limit the rights granted
33 # to you to modify and distribute this software under the terms of
34 # the GNU General Public License and is only of importance to you if
35 # you choose to contribute your changes and enhancements to the
36 # community by submitting them to Best Practical Solutions, LLC.)
37
38 # By intentionally submitting any modifications, corrections or
39 # derivatives to this work, or any other work intended for use with
40 # Request Tracker, to Best Practical Solutions, LLC, you confirm that
41 # you are the copyright holder for those contributions and you grant
42 # Best Practical Solutions,  LLC a nonexclusive, worldwide, irrevocable,
43 # royalty-free, perpetual, license to use, copy, create derivative
44 # works based on those contributions, and sublicense and distribute
45 # those contributions and any derivatives thereof.
46
47 # END BPS TAGGED BLOCK }}}
48
49 =head1 NAME
50
51 RT::I18N - a base class for localization of RT
52
53 =cut
54
55 package RT::I18N;
56
57 use strict;
58 use warnings;
59
60 use Locale::Maketext 1.04;
61 use Locale::Maketext::Lexicon 0.25;
62 use base ('Locale::Maketext::Fuzzy');
63
64 use Encode;
65 use MIME::Entity;
66 use MIME::Head;
67
68 # I decree that this project's first language is English.
69
70 our %Lexicon = (
71    'TEST_STRING' => 'Concrete Mixer',
72
73     '__Content-Type' => 'text/plain; charset=utf-8',
74
75   '_AUTO' => 1,
76   # That means that lookup failures can't happen -- if we get as far
77   #  as looking for something in this lexicon, and we don't find it,
78   #  then automagically set $Lexicon{$key} = $key, before possibly
79   #  compiling it.
80   
81   # The exception is keys that start with "_" -- they aren't auto-makeable.
82
83 );
84 # End of lexicon.
85
86 =head2 Init
87
88 Initializes the lexicons used for localization.
89
90
91 =cut
92
93 sub Init {
94     require File::Glob;
95
96     my @lang = RT->Config->Get('LexiconLanguages');
97     @lang = ('*') unless @lang;
98
99     # load default functions
100     require substr(__FILE__, 0, -3) . '/i_default.pm';
101
102     # Load language-specific functions
103     foreach my $file ( File::Glob::bsd_glob(substr(__FILE__, 0, -3) . "/*.pm") ) {
104         unless ( $file =~ /^([-\w\s\.\/\\~:]+)$/ ) {
105             warn("$file is tainted. not loading");
106             next;
107         }
108         $file = $1;
109
110         my ($lang) = ($file =~ /([^\\\/]+?)\.pm$/);
111         next unless grep $_ eq '*' || $_ eq $lang, @lang;
112         require $file;
113     }
114
115     my %import;
116     foreach my $l ( @lang ) {
117         $import{$l} = [
118             Gettext => (substr(__FILE__, 0, -3) . "/$l.po"),
119             Gettext => "$RT::LocalLexiconPath/*/$l.po",
120             Gettext => "$RT::LocalLexiconPath/$l.po",
121         ];
122         push @{ $import{$l} }, map {(Gettext => "$_/$l.po")} RT->PluginDirs('po');
123     }
124
125     # Acquire all .po files and iterate them into lexicons
126     Locale::Maketext::Lexicon->import({ _decode => 1, %import });
127
128     return 1;
129 }
130
131 sub LoadLexicons {
132
133     no strict 'refs';
134     foreach my $k (keys %{RT::I18N::} ) {
135         next if $k eq 'main::';
136         next unless index($k, '::', -2) >= 0;
137         next unless exists ${ 'RT::I18N::'. $k }{'Lexicon'};
138
139         my $lex = *{ ${'RT::I18N::'. $k }{'Lexicon'} }{HASH};
140         # run fetch to force load
141         my $tmp = $lex->{'foo'};
142         # XXX: untie may fail with "untie attempted
143         # while 1 inner references still exist"
144         # TODO: untie that has to lower fetch impact
145         # untie %$lex if tied %$lex;
146     }
147 }
148
149 =head2 encoding
150
151 Returns the encoding of the current lexicon, as yanked out of __ContentType's "charset" field.
152 If it can't find anything, it returns 'ISO-8859-1'
153
154
155
156 =cut
157
158
159 sub encoding { 'utf-8' }
160
161 # {{{ SetMIMEEntityToUTF8
162
163 =head2 SetMIMEEntityToUTF8 $entity
164
165 An utility function which will try to convert entity body into utf8.
166 It's now a wrap-up of SetMIMEEntityToEncoding($entity, 'utf-8').
167
168 =cut
169
170 sub SetMIMEEntityToUTF8 {
171     RT::I18N::SetMIMEEntityToEncoding(shift, 'utf-8');
172 }
173
174 # }}}
175
176 # {{{ IsTextualContentType
177
178 =head2 IsTextualContentType $type
179
180 An utility function that determines whether $type is I<textual>, meaning
181 that it can sensibly be converted to Unicode text.
182
183 Currently, it returns true iff $type matches this regular expression
184 (case-insensitively):
185
186     ^(?:text/(?:plain|html)|message/rfc822)\b
187
188 # }}}
189
190 =cut
191
192 sub IsTextualContentType {
193     my $type = shift;
194     ($type =~ m{^(?:text/(?:plain|html)|message/rfc822)\b}i) ? 1 : 0;
195 }
196
197 # {{{ SetMIMEEntityToEncoding
198
199 =head2 SetMIMEEntityToEncoding $entity, $encoding
200
201 An utility function which will try to convert entity body into specified
202 charset encoding (encoded as octets, *not* unicode-strings).  It will
203 iterate all the entities in $entity, and try to convert each one into
204 specified charset if whose Content-Type is 'text/plain'.
205
206 This function doesn't return anything meaningful.
207
208 =cut
209
210 sub SetMIMEEntityToEncoding {
211     my ( $entity, $enc, $preserve_words ) = ( shift, shift, shift );
212
213     # do the same for parts first of all
214     SetMIMEEntityToEncoding( $_, $enc, $preserve_words ) foreach $entity->parts;
215
216     my $charset = _FindOrGuessCharset($entity) or return;
217     # one and only normalization
218     $charset = 'utf-8' if $charset =~ /^utf-?8$/i;
219     $enc     = 'utf-8' if $enc     =~ /^utf-?8$/i;
220
221     SetMIMEHeadToEncoding(
222         $entity->head,
223         _FindOrGuessCharset($entity, 1) => $enc,
224         $preserve_words
225     );
226
227     my $head = $entity->head;
228
229     # convert at least MIME word encoded attachment filename
230     foreach my $attr (qw(content-type.name content-disposition.filename)) {
231         if ( my $name = $head->mime_attr($attr) and !$preserve_words ) {
232             $head->mime_attr( $attr => DecodeMIMEWordsToUTF8($name) );
233         }
234     }
235
236     # If this is a textual entity, we'd need to preserve its original encoding
237     $head->replace( "X-RT-Original-Encoding" => $charset )
238         if $head->mime_attr('content-type.charset') or IsTextualContentType($head->mime_type);
239
240     return unless IsTextualContentType($head->mime_type);
241
242     my $body = $entity->bodyhandle;
243
244     if ( $enc ne $charset && $body ) {
245         my $string = $body->as_string or return;
246
247         # {{{ Convert the body
248         eval {
249             $RT::Logger->debug( "Converting '$charset' to '$enc' for " . $head->mime_type . " - " . ( $head->get('subject') || 'Subjectless message' ) );
250
251             # NOTE:: see the comments at the end of the sub.
252             Encode::_utf8_off( $string);
253             Encode::from_to( $string, $charset => $enc );
254         };
255
256         if ($@) {
257             $RT::Logger->error( "Encoding error: " . $@ . " defaulting to ISO-8859-1 -> UTF-8" );
258             eval { Encode::from_to( $string, 'iso-8859-1' => $enc ) };
259             if ($@) {
260                 $RT::Logger->crit( "Totally failed to convert to utf-8: " . $@ . " I give up" );
261             }
262         }
263
264         # }}}
265
266         my $new_body = MIME::Body::InCore->new( $string);
267
268         # set up the new entity
269         $head->mime_attr( "content-type" => 'text/plain' )
270             unless ( $head->mime_attr("content-type") );
271         $head->mime_attr( "content-type.charset" => $enc );
272         $entity->bodyhandle($new_body);
273     }
274 }
275
276 # NOTES:  Why Encode::_utf8_off before Encode::from_to
277 #
278 # All the strings in RT are utf-8 now.  Quotes from Encode POD:
279 #
280 # [$length =] from_to($octets, FROM_ENC, TO_ENC [, CHECK])
281 # ... The data in $octets must be encoded as octets and not as
282 # characters in Perl's internal format. ...
283 #
284 # Not turning off the UTF-8 flag in the string will prevent the string
285 # from conversion.
286
287 # }}}
288
289 # {{{ DecodeMIMEWordsToUTF8
290
291 =head2 DecodeMIMEWordsToUTF8 $raw
292
293 An utility method which mimics MIME::Words::decode_mimewords, but only
294 limited functionality.  This function returns an utf-8 string.
295
296 It returns the decoded string, or the original string if it's not
297 encoded.  Since the subroutine converts specified string into utf-8
298 charset, it should not alter a subject written in English.
299
300 Why not use MIME::Words directly?  Because it fails in RT when I
301 tried.  Maybe it's ok now.
302
303 =cut
304
305 sub DecodeMIMEWordsToUTF8 {
306     my $str = shift;
307     DecodeMIMEWordsToEncoding($str, 'utf-8');
308 }
309
310 sub DecodeMIMEWordsToEncoding {
311     my $str = shift;
312     my $enc = shift;
313
314     @_ = $str =~ m/(.*?)=\?([^?]+)\?([QqBb])\?([^?]+)\?=([^=]*)/gcs;
315     return ($str) unless (@_);
316
317     # add everything that hasn't matched to the end of the latest
318     # string in array this happen when we have 'key="=?encoded?="; key="plain"'
319     $_[-1] .= substr($str, pos $str);
320
321     $str = "";
322     while (@_) {
323         my ($prefix, $charset, $encoding, $enc_str, $trailing) =
324             (shift, shift, lc shift, shift, shift);
325
326         $trailing =~ s/\s?\t?$//;               # Observed from Outlook Express
327
328         if ( $encoding eq 'q' ) {
329             use MIME::QuotedPrint;
330             $enc_str =~ tr/_/ /;                # Observed from Outlook Express
331             $enc_str = decode_qp($enc_str);
332         } elsif ( $encoding eq 'b' ) {
333             use MIME::Base64;
334             $enc_str = decode_base64($enc_str);
335         } else {
336             $RT::Logger->warning("Incorrect encoding '$encoding' in '$str', "
337             ."only Q(uoted-printable) and B(ase64) are supported");
338         }
339
340         # now we have got a decoded subject, try to convert into the encoding
341         unless ($charset eq $enc) {
342             eval { Encode::from_to($enc_str, $charset,  $enc) };
343             if ($@) {
344                 $charset = _GuessCharset( $enc_str );
345                 Encode::from_to($enc_str, $charset, $enc);
346             }
347         }
348
349         # XXX TODO: RT doesn't currently do the right thing with mime-encoded headers
350         # We _should_ be preserving them encoded until after parsing is completed and
351         # THEN undo the mime-encoding.
352         #
353         # This routine should be translating the existing mimeencoding to utf8 but leaving
354         # things encoded.
355         #
356         # It's legal for headers to contain mime-encoded commas and semicolons which
357         # should not be treated as address separators. (Encoding == quoting here)
358         #
359         # until this is fixed, we must escape any string containing a comma or semicolon
360         # this is only a bandaid
361
362         # Some _other_ MUAs encode quotes _already_, and double quotes
363         # confuse us a lot, so only quote it if it isn't quoted
364         # already.
365         $enc_str = qq{"$enc_str"} if $enc_str =~ /[,;]/ and $enc_str !~ /^".*"$/;
366
367         $str .= $prefix . $enc_str . $trailing;
368     }
369
370     # We might have \n without trailing whitespace, which will result in
371     # invalid headers.
372     $str =~ s/\n//g;
373
374     return ($str)
375 }
376
377 # }}}
378
379 # {{{ _FindOrGuessCharset
380
381 =head2 _FindOrGuessCharset MIME::Entity, $head_only
382
383 When handed a MIME::Entity will first attempt to read what charset the message is encoded in. Failing that, will use Encode::Guess to try to figure it out
384
385 If $head_only is true, only guesses charset for head parts.  This is because header's encoding (e.g. filename="...") may be different from that of body's.
386
387 =cut
388
389 sub _FindOrGuessCharset {
390     my $entity = shift;
391     my $head_only = shift;
392     my $head = $entity->head;
393
394     if ( my $charset = $head->mime_attr("content-type.charset") ) {
395         return $charset;
396     }
397
398     if ( !$head_only and $head->mime_type =~ m{^text/}) {
399         my $body = $entity->bodyhandle or return;
400         return _GuessCharset( $body->as_string );
401     }
402     else {
403         # potentially binary data -- don't guess the body
404         return _GuessCharset( $head->as_string );
405     }
406 }
407
408 # }}}
409
410 # {{{ _GuessCharset
411
412 =head2 _GuessCharset STRING
413
414 use Encode::Guess to try to figure it out the string's encoding.
415
416 =cut
417
418 sub _GuessCharset {
419     my $fallback = 'iso-8859-1';
420
421     # if $_[0] is null/empty, we don't guess its encoding
422     return $fallback unless defined $_[0] && length $_[0];
423
424     my $charset;
425     my @encodings = RT->Config->Get('EmailInputEncodings');
426     if ( @encodings and eval { require Encode::Guess; 1 } ) {
427         Encode::Guess->set_suspects( @encodings );
428         my $decoder = Encode::Guess->guess( $_[0] );
429
430       if ( defined($decoder) ) {
431         if ( ref $decoder ) {
432             $charset = $decoder->name;
433             $RT::Logger->debug("Guessed encoding: $charset");
434             return $charset;
435         }
436         elsif ($decoder =~ /(\S+ or .+)/) {
437             my %matched = map { $_ => 1 } split(/ or /, $1);
438             return 'utf-8' if $matched{'utf8'}; # one and only normalization
439
440             foreach my $suspect (RT->Config->Get('EmailInputEncodings')) {
441                 next unless $matched{$suspect};
442                 $RT::Logger->debug("Encode::Guess ambiguous ($decoder); using $suspect");
443                 $charset = $suspect;
444                 last;
445             }
446         }
447         else {
448             $RT::Logger->warning("Encode::Guess failed: $decoder; fallback to $fallback");
449         }
450       }
451       else {
452           $RT::Logger->warning("Encode::Guess failed: decoder is undefined; fallback to $fallback");
453       }
454     }
455     elsif ( @encodings && $@ ) {
456         $RT::Logger->error("You have set EmailInputEncodings, but we couldn't load Encode::Guess: $@");
457     } else {
458         $RT::Logger->warning("No EmailInputEncodings set, fallback to $fallback");
459     }
460
461     return ($charset || $fallback);
462 }
463
464 # }}}
465
466 # {{{ SetMIMEHeadToEncoding
467
468 =head2 SetMIMEHeadToEncoding HEAD OLD_CHARSET NEW_CHARSET
469
470 Converts a MIME Head from one encoding to another. This totally violates the RFC.
471 We should never need this. But, Surprise!, MUAs are badly broken and do this kind of stuff
472 all the time
473
474
475 =cut
476
477 sub SetMIMEHeadToEncoding {
478     my ( $head, $charset, $enc, $preserve_words ) = ( shift, shift, shift, shift );
479
480     $charset = 'utf-8' if $charset eq 'utf8';
481     $enc     = 'utf-8' if $enc     eq 'utf8';
482
483     return if $charset eq $enc and $preserve_words;
484
485     foreach my $tag ( $head->tags ) {
486         next unless $tag; # seen in wild: headers with no name
487         my @values = $head->get_all($tag);
488         $head->delete($tag);
489         foreach my $value (@values) {
490             if ( $charset ne $enc ) {
491
492                 eval {
493                     Encode::_utf8_off($value);
494                     Encode::from_to( $value, $charset => $enc );
495                 };
496                 if ($@) {
497                     $RT::Logger->error( "Encoding error: " . $@
498                                        . " defaulting to ISO-8859-1 -> UTF-8" );
499                     eval { Encode::from_to( $value, 'iso-8859-1' => $enc ) };
500                     if ($@) {
501                         $RT::Logger->crit( "Totally failed to convert to utf-8: " . $@ . " I give up" );
502                     }
503                 }
504             }
505             $value = DecodeMIMEWordsToEncoding( $value, $enc ) unless $preserve_words;
506             $head->add( $tag, $value );
507         }
508     }
509
510 }
511 # }}}
512
513 eval "require RT::I18N_Vendor";
514 die $@ if ($@ && $@ !~ qr{^Can't locate RT/I18N_Vendor.pm});
515 eval "require RT::I18N_Local";
516 die $@ if ($@ && $@ !~ qr{^Can't locate RT/I18N_Local.pm});
517
518 1;  # End of module.
519