10. Регулярни изрази

12 ноември 2012

Днес

Регулярните изрази в бита на програмиста
Регулярните изрази в Ruby (1.9.3)
Как да ги ползваме в Ruby код
Преди това, две дребни задачки, за да не ви е скучно

Традиционната задача

за тези от вас, които се чувстват комфортно с РИ

Имаме следната задача:

Да се напише кратък Ruby expression, който проверява дали дадено число е просто или не, посредством употреба на регулярен израз. Резултатът от изпълнението му трябва да е true за прости числа и false за всички останали. Неща, които можете да ползвате:
Самото число, разбира се.
Произволни методи от класа Regexp
Подходящ регулярен израз (шаблон)
Текстовия низ '1'.
String#*.
Някакъв условен оператор (например if-else или ? … : …)
true, false, ...

Материалът, необходим за решаването й, ще го има изцяло в днешната лекция.

И още една задача

за тези от вас, които вече ни знаят номерата

Имаме следната задача:

Да валидирате изрази от следния тип за правилно отворени/затворени скоби:
(car (car (car ...)))
Например: (car (car (car (car list))))
Целта е израз, чийто резултат да може да се ползва в условен оператор (true/false-еквивалент)
Можете да ползвате произволни методи от класа Regexp
И регулярен израз, разбира се

Ще обсъдим възможните решения и на двете задачи по-късно в рамките на днешната сбирка.

Произход

малко обща култура

На възраст над 60 години (Клини, regular sets, ок. 1950 г.)
Practical Extraction and Report Language
Perl и PCRE-библиотеката (Perl-Compatible Regular Expressions)
Почти всеки general-purpose програмен език имплементира някаква форма на РИ
Незаменими unix-програми като grep, sed, awk, vi, Emacs...
Разглеждат се в курса по ДМ покрай граматики и автомати

Проблемна област

най-общо: работа с текстови низове

Търсене на по-сложна последователност от символи в низ
Заместване на такива последователности с нещо друго
Модифициране на текстови последователности (например, Markdown към HTML)
Проверка дали даден низ отговаря на определени условия (валидация)
Проверка дали едно число е просто или не :) Не.

Понятия

и терминология

„шаблон“, още „регулярен израз“ (pattern)
Специални символи (meta characters)
Екраниране на специалните символи (escape-ване)
Повторители и повторение (quantifiers and repetition)
Класове от символи (character classes)
Групи
Флагове (modifiers) на шаблона

РИ в Ruby

синтаксис, накратко

Всеки регулярен израз е обект, инстанция на класа Regexp
Има литерален синтаксис за създаване на регулярни изрази: /pattern/
Може да се ползва и синтаксисът с %r, например: %r{/path/maching/made/easy}
Операциите с регулярни изрази са методи на Regexp
Класът String също има методи за работа с регулярни изрази

Regexp#match

ще го ползваме в примерите

За да демонстрираме какво "хващат" определени шаблони, ще ползваме Regexp#match
Този метод примеа аргумент текстов низ и връща nil, ако шаблонът не "хваща" нищо
Връща инстанция на MatchData, ако шаблонът "хваща" нещо от низа
MatchData в детайли — по-късно
От тук нататък ще ползваме match-ва като синоним на "хваща" :)

Шаблони

(регулярни изрази, patterns и т.н.)

В сърцето на всеки регулярен израз стои шаблон (pattern)
В шаблона, всеки символ (освен някои специални) означава себе си
Следователно, шаблонът /wool/ ще отговаря на точно тази последователност от символи в низ
Цялата магия е в специалните символи:
(, ), [, ], {, }, ., ?, +, *, ^, $, \, ...
Някои символи са специални само в определен контекст (например символът -)

Най-прост пример

/find me/.match 'Can you find me here?' # #<MatchData "find me">
/find me/.match 'You will not find ME!' # nil

Този шаблон не съдържа специални символи
Както виждате, по подразбиране шаблоните са чувствителни към регистъра на буквите
Последното може да се контролира с помощта на флагове към шаблона

Специални символи

meta characters

. съвпада с един произволен символ (с изключение на символите за нов ред)
[ и ] се ползват за дефиниране на класове от символи
*, ?, +, { и } се ползват за указване на повторения
^, $, \b, \B и т.н. са "котви" и съответстват на определени "междусимволни дупки" :)
| има смисъл на "или", например:

/day|nice/.match  'A nice dance-day.'  # #<MatchData "nice">
/da(y|n)ce/.match 'A nice dance-day.'  # #<MatchData "dance" 1:"n">

Внимавайте с приоритета на |

Екраниране

на специалните символи (escape-ване)

\ пред специален символ го прави неспециален такъв (екранира го)
За да вкарате наклонена черта, ползвате \\ (като в обикновен низ)

Класове от символи

(character classes)

Заградени между [ и ]
Наподобяват множества
Match-ват един символ от посочените вътре
Могат да се декларират диапазони, например [a-z] или [0-9A-F]
Ако първият символ в класа е ^, това означава "някой символ, който не е посочен в класа"
Можете да екранирате тире в символен клас така: [a\-b]
Друг вариант е да сложите тирето в началото или в края на класа: [-abc] или [abc-] - тук то няма специален смисъл
Има предефинирани класове от символи

Примери с класове от символи

/W[aeiou]rd/.match "Word" # #<MatchData "Word">
/[0-9a-f]/.match '9f'     # #<MatchData "9">
/[9f]/.match     '9f'     # #<MatchData "9">
/[^a-z]/.match   '9f'     # #<MatchData "9">

Предефинирани класове от символи

\w - символ от дума ([a-zA-Z0-9_])
\W - символ, който не може да участва в дума ([^a-zA-Z0-9_])
\d - цифра ([0-9])
\D - символ, който не е цифра ([^0-9])
\h - шеснадесетична цифра ([0-9a-fA-F])
\H - символ, който не е шеснадесетична цифра ([^0-9a-fA-F])
\s - whitespace-символ (/[ \t\r\n\f]/)
\S - символ, който не е whitespace (/[^ \t\r\n\f]/)

POSIX-класове от символи

[[:alpha:]] - символ от азбука
[[:alnum:]] - горното или цифра
[[:blank:]] - интервал или таб
[[:cntrl:]] - контролен символ
[[:digit:]] - цифра
[[:lower:]] - малка буква
[[:upper:]] - главна буква
[[:print:]] - printable-символ
[[:punct:]] - пунктуационен символ
[[:space:]] - whitespace-символ (вкл. и нов ред)
[[:xdigit:]] - шеснадеситична цифра
И други...

Полезни не-POSIX класове

Ruby поддържа и следните не-POSIX символни класове:
[[:word:]] - символ, който може да участва в дума (работи и за Unicode, за разлика от \w)
[[:ascii:]] - ASCII-символ

Символни свойства

character properties

С конструкцията \p{} може да match-вате символи, имащи определено свойство (подобно на POSIX)
Например: \p{Alnum}, \p{Alpha}, \p{Blank}, \p{Cntrl}, \p{Digit}, \p{Graph}
По този начин, например, може да проверите дали даден символ е от японската азбука катакана: \p{Katakana}
Или пък да match-нете символ от азбука на кирилица: \p{Cyrillic}, например:

/\s\p{Cyrillic}\p{Cyrillic}\p{Cyrillic}/.match 'Ние сме на всеки километър!' # #<MatchData " сме">

Котви

Не съвпадат с реални символи, а вместо това с невидимите граници между тях
^ съвпада с началото на ред (Ruby е в multiline режим по подразбиране)
$ съвпада с края на ред
\A съвпада с началото на текстов низ
\z съвпада с края на низ
\b отговаря на граница на дума (когато е извън [ и ]; вътре означава backspace)
\B отговаря на място, което не е граница на дума

Примери с котви

/real/.match "surrealist"    # #<MatchData "real">
/\Areal/.match "surrealist"  # nil
/\band/.match "Demand"       # nil

/\Band.+/.match "Supply and demand curve" # #<MatchData "and curve">

Повторители

(quantifiers)

Важат за непосредствено предхождащия ги символ/клас/група; нека го означим със s
s* означава нула или повече повторения на s
s+ търси едно или повече повторения на s
s? съвпада с нула или едно повторение на s
s{m,n} означава между m и n повторения на s
В последното можем да пропуснем m или n:
s{,n} има смисъл на нула до n повторения, а s{m,} — поне m повторения
s{n} означава точно n повторения

Примери с повторители

/e+/.match     'Keeewl'       # #<MatchData "eee">
/[Kke]+/.match 'Keeewl'       # #<MatchData "Keee">
/\w+/.match '2038 - the year' # #<MatchData "2038">
/".*"/.match '"Quoted text!"' # #<MatchData "\"Quoted text!\"">

/[[:upper:]]+[[:lower:]]+l{2}o/.match 'Hello' # #<MatchData "Hello">

Алчност

и лакомия...

По подразбиране повторителите са "алчни", т.е. изяждат колкото се може повече от низа
Това поведение може да се контролира с ? след повторителя
Например .*? кара повторителя * да се държи не-лакомо
Внимавайте с лакомите повторители

/<.+>/.match("<a><b>")  # #<MatchData "<a><b>">
/<.+?>/.match("<a><b>") # #<MatchData "<a>">

Групи

и прихващане

Символите ( и ) се използват за логическо групиране на части от шаблона с цел:

Контролиране областта на влияние на дадена операция
Например, следното ще match-ва низове, съдържащи думите day или dance: /\bda(y|nce)\b/
Възможност за референция към „ограденото“ в скобите — в и извън шаблона
Задаване на по-специални (и не толкова често употребявани) конструкции
Групите биват номерирани или именовани

Референции към групи

Текстът, който match-ва частта на шаблона, оградена в скоби, може да се достъпва:

В самия шаблон, с нотацията \1 за първата група, \2 за втората и т.н.
Отвън, през MatchData-обекта
Отвън, през специални променливи от типа на $1, $2... за номерирани групи
Отвън, през локални променливи, за именовани групи

Референции към групи

извън шаблона, за номерирани групи, през MatchData

date_string = '2012-11-12'
date_parts  = /\A(\d{4})-(\d\d)-(\d\d)\z/.match(date_string)

if date_parts
  Date.new date_parts[1].to_i, date_parts[2].to_i, date_parts[3].to_i
  # #<Date: 2012-11-12 ...>
end

if с регулярни изрази

=~ и !~ — дефинирани в Regexp и в String
Можем да правим така: /pattern/ =~ 'Some string'
Както и така: 'Some string' =~ /pattern/
Връща nil, ако няма съвпадение, или число (offset), ако има такова
След изпълнение на този оператор също имаме попълнени специални променливи ($1, $~...)
Удобно е да се ползва в условни конструкции, например if

if с регулярни изрази

пример

log_entry = "[2011-07-22 15:42:12] - GET / HTTP/1.1 200 OK"

if log_entry =~ /\bHTTP\/1\.1 (\d+)/
  request_status = $1.to_i # 200
else
  raise "Malformed log entry!"
end

Референции към групи

извън шаблона, за номерирани групи, през $1, $2...

date_string = '2012-11-12'

if date_string =~ /\A(\d{4})-(\d\d)-(\d\d)\z/
  Date.new $1.to_i, $2.to_i, $3.to_i # #<Date: 2012-11-12 ...>
end

Именовани групи

Като обикновена група, само че се обръщате към тях не с цифра, а с име
Дефинират се така: (?<name>) или така: (?'name'), където name е името на групата
Например: (?<date>\d{4}-\d{2}-\d{2})

/(?<date>\d{4}-\d{2}-\d{2})/.match 'Today is 2011-11-08, Tuesday.' # #<MatchData "2011-11-08" date:"2011-11-08">

Референции към групи

в рамките на шаблона

\1, \2 и прочее, ако групите ви не са именовани
Ако имате повече от 9 групи, можете да ги реферирате по същия начин:
\11 се обръща към 11-тата група
Ами ако искам да кажа: "текстът, отговарящ на група \1, последван от символа 1"?
Ползвате следния общ синтаксис: \k<group_identifier>, където group_identifier е число или име на група
Този общ синтаксис се използва и за обръщение към текста, отговарящ на именовани групи:
/(?<word>\w+), \k<word>/

Примери за референции към групи

/(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/.match 'Today is 2011-11-08, Tuesday.'
# #<MatchData "2011-11-08" year:"2011" month:"11" day:"08">

/(.)(.)(.)(.)(.)(.)(.)(.)(.)(.)(.)\11/.match 'Regular expressions'
# #<MatchData "ular express" 1:"u" 2:"l" 3:"a" 4:"r" 5:" " 6:"e" 7:"x" 8:"p" 9:"r" 10:"e" 11:"s">
/(.)(.)(.)(.)(.)(.)(.)(.)(.)(.)(.)\k<11>1/.match 'Regular express1ions'
# #<MatchData "ular express1" 1:"u" 2:"l" 3:"a" 4:"r" 5:" " 6:"e" 7:"x" 8:"p" 9:"r" 10:"e" 11:"s">

Забележете, че в рамките на един шаблон не може да ползвате и двата вида рефериране към групи

Уточнение относно референциите

в рамките на шаблона

Обърнете внимание, че референцията е към порцията текст, match-нат от групата, а не към самата група!
Например:

/(\w+), \1/.match 'testing, testing' # #<MatchData "testing, testing" 1:"testing">
/(\w+), \1/.match 'testing, twice'   # nil

/(?<word>\w+), \k<word>/.match 'testing, testing' # #<MatchData "testing, testing" word:"testing">

Рекурсивни групи

Ако вместо порцията текст, отговаряща на дадена група, искате да преизпълните групата?
Ползвате следния синтаксис: \g<name>, където name е номер или име на група в шаблона
Това преизпълнява шаблона, не търси за вече намерения текст
Има смисъл за да направи шаблоните ви една идея по-DRY
Например:

/(\w+), \1/.match    'testing, twice'   # nil
/(\w+), \g<1>/.match 'testing, twice'   # #<MatchData "testing, twice" 1:"twice">

Рекурсивни групи

втора част

С помощта на горното можете да дефинирате рекурсивни групи
Спомняте ли си втория проблем, който поставихме в началото?

Да валидирате изрази от следния тип за правилно отворени/затворени скоби:
(car (car (car ...)))
Например: (car (car (car (car list))))
Целта е израз, чийто резултат да може да се ползва в условен оператор (true/false-еквивалент)
Можете да ползвате произволни методи от класа Regexp
И регулярен израз, разбира се

Примерно решение

с рекурсивни групи

validator = /^(\(car (\g<1>*|\w*)\))*$/

valid   = '(car (car (car (car list))))'
invalid = '(car (car (car list))'

validator.match(valid)   ? true : false # true
validator.match(invalid) ? true : false # false

Решение на проверката за просто число с РИ

Идеи, предложения?
'1' * числото =~ /някакъв регулярен израз/ ? false : true
'1' * 13 =~ /^1?$|^(11+?)\1+$/ ? false : true
Много полезно знание :) Въпроси по израза?
Регулярният израз тук може да се ползва 1:1 в Python за същата цел

Look-ahead и look-behind

Положителен look-ahead: /(?=pattern)/
Отрицателен look-ahead: /(?!pattern)/
Положителен look-behind: /(?<=pattern)/
Отрицателен look-behind: /(?<!pattern)/
Пример:

/(?<=<b>)\w+(?=<\/b>)/.match("Fortune favours the <b>bold</b>") # #<MatchData "bold">

Работа с MatchData-обекти

Това е обектът, който ви връща Regexp#match
Това е обектът, стоящ зад специалната променлива $~
Същият обект се крие и зад Regexp.last_match
Не е Enumerable

Най-полезни методи на MatchData-обектите

MatchData#[група], където група е номер или име на група, ви връща порцията текст, отговаряща на съответната група
MatchData#begin(група) пък ви връща число — отместването спрямо началото на низа на порцията текст, отговаряща на съответната група
Пример:

/(\w+)/.match('Some words')[1]              # "Some"
/(\w+)/.match('Some words').begin(1)        # 0
/(?<id>\d+)/.match('ID: 12345')[:id]        # "12345"
/(?<id>\d+)/.match('ID: 12345').begin(:id)  # 4

#pre_match и #post_match методи

на MatchData-обектите

MatchData#pre_match (същото като специалната променлива $`) — текстът преди съвпадението
MatchData#post_match (същото като специалната променлива $') — текстът след съвпадението
Пример:

match = /(?<number>\d+)/.match 'ID: 12345 (new)'

match[:number]    # "12345"
match.pre_match   # "ID: "
match.post_match  # " (new)"

Специалните променливи

$~, $', $1, $2, $3 и прочее
Не са глобални променливи, а специални (не са глобално-видими)
Попълват се с резултата от последно изпълнения match
Не само след явно извикване на Regexp#match

case с регулярни изрази

работи благодарение на Regexp#===

html = '<h1>Header</h1>' # или:
html = '<img src="http://my/image.src" alt="Kartman Makes Burgers" />'

case html
  when /(<h(\d)>)(.+)<\/h\2>/
    {header: $3, size: $2}
  when /<a\s+href="([^"]+)">([^<]+)<\/a>/
    {url: $1, text: $2}
  when /<img\s+src="([^"]+)"\s+alt="([^"]+)"\s*\/>/
    {image: $1, alt: $2}
  else
    'unrecognized tag'
end

# {:image=>"http://my/image.src", :alt=>"Kartman Makes Burgers"}

Методи в String

свързани с регулярни изрази

String#match
String#=~ и String#!=
String#sub, String#gsub и вариантите им с !
String#[] и String#slice - в някои от вариантите си приемат регулярен израз
String#index и rindex приемат и регулярен израз
String#partition и rpartition и други...

Пример със String#gsub

плюс групи и блок

'SomeTitleCase'.gsub /(^|[[:lower:]])([[:upper:]])/ do
  [$1, $2.downcase].reject(&:empty?).join('_')
end

# "some_title_case"

Unicode

Регулярните изрази в Ruby 1.9 носят кодировката на сорс-кода; ако кодът е UTF-8, и те са UTF-8
Можете да проверите кодировката на даден регулярен израз с Regexp#encoding
Можете да укажете изрична кодировка посредством модификатор; например /something/u за UTF-8
Малък пример:

Rubyのお父さんはまつもとゆきひろさんです。

unicode_test = 'Rubyのお父さんはまつもとゆきひろさんです。'

/は[[:alpha:]]+さん/.match unicode_test # #<MatchData "はまつもとゆきひろさん">

Граници на думи в Unicode-текст

\b в Unicode-текст работи, когато границата на думата е лесно определима
Например, това ще работи: /\b[[:alpha:]]\b/.match 'това и онова' # #<MatchData "и">
Горното работи, понеже думата на кирилица е оградена от интервали
В някои езици, обаче, няма интервали (whitespace) между думите (например китайски, японски)
Къде са границите на думите в това изречение: Rubyのお父さんはまつもとゆきひろさんです。?

Граници на думи в Unicode-текст

пример

Например:

'Ruby no otousan ha Matsumoto Yukihiro san desu.'.gsub(/(\b[[:alpha:]]+\b)/) { "[#{$1}]" }
# "[Ruby] [no] [otousan] [ha] [Matsumoto] [Yukihiro] [san] [desu]."

Но:

'Rubyのお父さんはまつもとゆきひろさんです。'.gsub(/(\b[[:alpha:]]+\b)/) { "[#{$1}]" }
# "[Rubyのお父さんはまつもとゆきひろさんです]。"

Флагове на шаблоните

Можете да управлявате някои аспекти от поведението на шаблона посредством флагове
Указват се след края на шаблона, например: /pattern/flags
i прави търсенето на съвпадение нечувствително към регистъра на буквите
u кара шаблона да носи задължителна кодировка UTF-8
m превръща шаблона в multiline-такъв (в този режим, например, . ще съвпада и с нов ред)
Има и други, които не се ползват толкова често

Документация

Regexp: http://www.ruby-doc.org/core-1.9.3/Regexp.html
MatchData: http://www.ruby-doc.org/core-1.9.3/MatchData.html
През ri, например: ri Regexp#=~
Мейл до Стефан със subject: RE: <моят въпрос>, той ще го Google-не вместо вас и ще ви върне отговор в body-то на email-а

10. Регулярни изрази

12 ноември 2012

Днес

Традиционната задача

за тези от вас, които се чувстват комфортно с РИ

И още една задача

за тези от вас, които вече ни знаят номерата

Произход

малко обща култура

Проблемна област

най-общо: работа с текстови низове

Понятия

и терминология

РИ в Ruby

синтаксис, накратко

Regexp#match

ще го ползваме в примерите

Шаблони

(регулярни изрази, patterns и т.н.)

Най-прост пример

Специални символи

meta characters

Екраниране

на специалните символи (escape-ване)

Класове от символи

(character classes)

Примери с класове от символи

Предефинирани класове от символи

POSIX-класове от символи

Полезни не-POSIX класове

Символни свойства

character properties

Котви

Примери с котви

Повторители

(quantifiers)

Примери с повторители

Алчност

и лакомия...

Групи

и прихващане

Референции към групи

Референции към групи

извън шаблона, за номерирани групи, през MatchData

if с регулярни изрази

if с регулярни изрази

пример

Референции към групи

извън шаблона, за номерирани групи, през $1, $2...

Именовани групи

Референции към групи

в рамките на шаблона

Примери за референции към групи

Уточнение относно референциите

в рамките на шаблона

Рекурсивни групи

Рекурсивни групи

втора част

Примерно решение

с рекурсивни групи

Решение на проверката за просто число с РИ

Look-ahead и look-behind

Работа с MatchData-обекти

Най-полезни методи на MatchData-обектите

#pre_match и #post_match методи

на MatchData-обектите

Специалните променливи

case с регулярни изрази

работи благодарение на Regexp#===

Методи в String

свързани с регулярни изрази

Пример със String#gsub

плюс групи и блок

Unicode

Граници на думи в Unicode-текст

Граници на думи в Unicode-текст

пример

Флагове на шаблоните

Документация

Въпроси