show progress in sup-sync
[sup:mainline.git] / lib / sup / mbox.rb
1 require 'uri'
2 require 'set'
3
4 module Redwood
5
6 class MBox < Source
7   BREAK_RE = /^From \S+ (.+)$/
8
9   include SerializeLabelsNicely
10   yaml_properties :uri, :usual, :archived, :id, :labels
11
12   attr_reader :labels
13
14   ## uri_or_fp is horrific. need to refactor.
15   def initialize uri_or_fp, usual=true, archived=false, id=nil, labels=nil
16     @mutex = Mutex.new
17     @labels = Set.new((labels || []) - LabelManager::RESERVED_LABELS)
18
19     case uri_or_fp
20     when String
21       uri = URI(Source.expand_filesystem_uri(uri_or_fp))
22       raise ArgumentError, "not an mbox uri" unless uri.scheme == "mbox"
23       raise ArgumentError, "mbox URI ('#{uri}') cannot have a host: #{uri.host}" if uri.host
24       raise ArgumentError, "mbox URI must have a path component" unless uri.path
25       @f = File.open uri.path, 'rb'
26       @path = uri.path
27     else
28       @f = uri_or_fp
29       @path = uri_or_fp.path
30     end
31
32     super uri_or_fp, usual, archived, id
33   end
34
35   def file_path; @path end
36   def is_source_for? uri; super || (self.uri.is_a?(String) && (URI(Source.expand_filesystem_uri(uri)) == URI(Source.expand_filesystem_uri(self.uri)))) end
37
38   def self.suggest_labels_for path
39     ## heuristic: use the filename as a label, unless the file
40     ## has a path that probably represents an inbox.
41     if File.dirname(path) =~ /\b(var|usr|spool)\b/
42       []
43     else
44       [File.basename(path).downcase.intern]
45     end
46   end
47
48   def load_header offset
49     header = nil
50     @mutex.synchronize do
51       @f.seek offset
52       header = parse_raw_email_header @f
53     end
54     header
55   end
56
57   def load_message offset
58     @mutex.synchronize do
59       @f.seek offset
60       begin
61         ## don't use RMail::Mailbox::MBoxReader because it doesn't properly ignore
62         ## "From" at the start of a message body line.
63         string = ""
64         until @f.eof? || MBox::is_break_line?(l = @f.gets)
65           string << l
66         end
67         RMail::Parser.read string
68       rescue RMail::Parser::Error => e
69         raise FatalSourceError, "error parsing mbox file: #{e.message}"
70       end
71     end
72   end
73
74   def raw_header offset
75     ret = ""
76     @mutex.synchronize do
77       @f.seek offset
78       until @f.eof? || (l = @f.gets) =~ /^\r*$/
79         ret << l
80       end
81     end
82     ret
83   end
84
85   def raw_message offset
86     ret = ""
87     each_raw_message_line(offset) { |l| ret << l }
88     ret
89   end
90
91   def store_message date, from_email, &block
92     need_blank = File.exists?(@path) && !File.zero?(@path)
93     File.open(@path, "ab") do |f|
94       f.puts if need_blank
95       f.puts "From #{from_email} #{date.asctime}"
96       yield f
97     end
98   end
99
100   ## apparently it's a million times faster to call this directly if
101   ## we're just moving messages around on disk, than reading things
102   ## into memory with raw_message.
103   ##
104   ## i hoped never to have to move shit around on disk but
105   ## sup-sync-back has to do it.
106   def each_raw_message_line offset
107     @mutex.synchronize do
108       @f.seek offset
109       until @f.eof? || MBox::is_break_line?(l = @f.gets)
110         yield l
111       end
112     end
113   end
114
115   def default_labels
116     [:inbox, :unread]
117   end
118
119   def poll
120     first_offset = first_new_message
121                 offset = first_offset
122     end_offset = File.size @f
123     while offset and offset < end_offset
124       yield :add,
125         :info => offset,
126         :labels => (labels + default_labels),
127         :progress => (offset - first_offset).to_f/end_offset
128       offset = next_offset offset
129     end
130   end
131
132   def next_offset offset
133     @mutex.synchronize do
134       @f.seek offset
135       nil while line = @f.gets and not MBox::is_break_line? line
136       offset = @f.tell
137       offset != File.size(@f) ? offset : nil
138     end
139   end
140
141   ## TODO optimize this by iterating over allterms list backwards or
142   ## storing source_info negated
143   def last_indexed_message
144     benchmark(:mbox_read_index) { Enumerator.new(Index.instance, :each_source_info, self.id).map(&:to_i).max }
145   end
146
147   ## offset of first new message or nil
148   def first_new_message
149     next_offset(last_indexed_message || 0)
150   end
151
152   def self.is_break_line? l
153     l =~ BREAK_RE or return false
154     time = $1
155     begin
156       ## hack -- make Time.parse fail when trying to substitute values from Time.now
157       Time.parse time, 0
158       true
159     rescue NoMethodError, ArgumentError
160       warn "found invalid date in potential mbox split line, not splitting: #{l.inspect}"
161       false
162     end
163   end
164
165   class Loader < self
166     yaml_properties :uri, :usual, :archived, :id, :labels
167   end
168 end
169 end