#! /usr/bin/gawk -f
# Last edited on 2004-01-27 05:50:42 by stolfi

// {
  lin = $0; 

  # Map any characters beyond '\200' that are not in iso-8859-6 to
  # an invalid code.  But watch out:
  #   iso-9959-1 "ť" = '\273' = iso-8859-1 ARABIC_SEMICOLON
  #   iso-9959-1 "Ť" = '\253' = iso-8859-1 invalid char
  
  lin = gensub(/[\200-\237]/, "\201{&}", "g", lin);
  lin = gensub(/[\241-\243]/, "\201{&}", "g", lin);
  lin = gensub(/[\245-\253]/, "\201{&}", "g", lin);
  lin = gensub(/[\256-\272]/, "\201{&}", "g", lin);
  lin = gensub(/[\274-\276]/, "\201{&}", "g", lin);
  lin = gensub(/[\300]/,      "\201{&}", "g", lin);
  lin = gensub(/[\333-\337]/, "\201{&}", "g", lin);
  lin = gensub(/[\363-\377]/, "\201{&}", "g", lin);

  # These characters have irregular Unicode points:
  gsub(/[\240]/,   " ", lin); # NO-BREAK SPACE
  gsub(/[\254]/, "Ť0Cť", lin); # ARABIC COMMA 

  # The following characters map trivially to Unicode (just add u0600)
  gsub(/[\273]/, "Ť1Bť", lin); # ARABIC SEMICOLON

  gsub(/[\277]/, "Ť1Fť", lin); # ARABIC QUESTION MARK

  gsub(/[\301]/, "Ť21ť", lin); # ARABIC LETTER HAMZA
  gsub(/[\302]/, "Ť22ť", lin);
  gsub(/[\303]/, "Ť23ť", lin);
  gsub(/[\304]/, "Ť24ť", lin);
  gsub(/[\305]/, "Ť25ť", lin);
  gsub(/[\306]/, "Ť26ť", lin);
  gsub(/[\307]/, "Ť27ť", lin);
  gsub(/[\310]/, "Ť28ť", lin);
  gsub(/[\311]/, "Ť29ť", lin);
  gsub(/[\312]/, "Ť2Ať", lin);
  gsub(/[\313]/, "Ť2Bť", lin);
  gsub(/[\314]/, "Ť2Cť", lin);
  gsub(/[\315]/, "Ť2Dť", lin);
  gsub(/[\316]/, "Ť2Eť", lin);
  gsub(/[\317]/, "Ť2Fť", lin);

  gsub(/[\320]/, "Ť30ť", lin);
  gsub(/[\321]/, "Ť31ť", lin);
  gsub(/[\322]/, "Ť32ť", lin);
  gsub(/[\323]/, "Ť33ť", lin);
  gsub(/[\324]/, "Ť34ť", lin);
  gsub(/[\325]/, "Ť35ť", lin);
  gsub(/[\326]/, "Ť36ť", lin);
  gsub(/[\327]/, "Ť37ť", lin);
  gsub(/[\330]/, "Ť38ť", lin);
  gsub(/[\331]/, "Ť39ť", lin);
  gsub(/[\332]/, "Ť3Ať", lin); # ARABIC LETTER GHAIN

  gsub(/[\340]/, "Ť40ť", lin); # ARABIC TATWEEL

  gsub(/[\341]/, "Ť41ť", lin); # ARABIC LETTER FEH
  gsub(/[\342]/, "Ť42ť", lin);
  gsub(/[\343]/, "Ť43ť", lin);
  gsub(/[\344]/, "Ť44ť", lin);
  gsub(/[\345]/, "Ť45ť", lin);
  gsub(/[\346]/, "Ť46ť", lin);
  gsub(/[\347]/, "Ť47ť", lin);
  gsub(/[\350]/, "Ť48ť", lin);
  gsub(/[\351]/, "Ť49ť", lin);
  gsub(/[\352]/, "Ť4Ať", lin);
  gsub(/[\353]/, "Ť4Bť", lin);
  gsub(/[\354]/, "Ť4Cť", lin);
  gsub(/[\355]/, "Ť4Dť", lin);
  gsub(/[\356]/, "Ť4Eť", lin);
  gsub(/[\357]/, "Ť4Fť", lin); # ARABIC DAMMA

  gsub(/[\360]/, "Ť50ť", lin); # ARABIC KASRA
  gsub(/[\361]/, "Ť51ť", lin);
  gsub(/[\362]/, "Ť52ť", lin); # ARABIC SUKUN

  # Now take care of invalid chars:
  gsub(/[\201]{/, "Ť**ť{", lin);

  # Spaces between Arabic words:
  gsub(/[ť][ ]+[Ť]/, "ťŤ__ťŤ", lin);
  print lin;
  next;
}