This commit is contained in:
Ilya Kantor 2017-03-19 20:40:47 +03:00
parent 75e30539ef
commit 62c507c78f
92 changed files with 583 additions and 574 deletions

View file

@ -0,0 +1,33 @@
Сначала неправильный способ.
Если перечислить языки один за другим через `|`, то получится совсем не то:
```js run
var reg = /Java|JavaScript|PHP|C|C\+\+/g;
var str = "Java, JavaScript, PHP, C, C++";
alert( str.match(reg) ); // Java,Java,PHP,C,C
```
Как видно, движок регулярных выражений ищет альтернации в порядке их перечисления. То есть, он сначала смотрит, есть ли `match:Java`, а если нет -- ищет `match:JavaScript`.
Естественно, при этом `match:JavaScript` не будет найдено никогда.
То же самое -- с языками `match:C` и `match:C++`.
Есть два решения проблемы:
1. Поменять порядок, чтобы более длинное совпадение проверялось первым: `pattern:JavaScript|Java|C\+\+|C|PHP`.
2. Соединить длинный вариант с коротким: `pattern:Java(Script)?|C(\+\+)?|PHP`.
В действии:
```js run
var reg = /Java(Script)?|C(\+\+)?|PHP/g;
var str = "Java, JavaScript, PHP, C, C++";
alert( str.match(reg) ); // Java,JavaScript,PHP,C,C++
```

View file

@ -0,0 +1,6 @@
# Найдите языки программирования
Существует много языков программирования, например Java, JavaScript, PHP, C, C++.
Напишите регулярное выражение, которое найдёт их все в строке "Java JavaScript PHP C++ C"

View file

@ -0,0 +1,17 @@
Решение задачи: `pattern:/"(\\.|[^"\\])*"/g`.
То есть:
- Сначала ищем кавычку `pattern:"`
- Затем, если далее слэш `pattern:\\` (удвоение слэша -- техническое, для вставки в регэксп, на самом деле там один слэш), то после него также подойдёт любой символ (точка).
- Если не слэш, то берём любой символ, кроме кавычек (которые будут означать конец строки) и слэша (чтобы предотвратить одинокие слэши, сам по себе единственный слэш не нужен, он должен экранировать какой-то символ) `pattern:[^"\\]`
- ...И так жадно, до закрывающей кавычки.
В действии:
```js run
var re = /"(\\.|[^"\\])*"/g;
var str = '.. "test me" .. "Скажи \\"Привет\\"!" .. "\\r\\n\\\\" ..';
alert( str.match(re) ); // "test me","Скажи \"Привет\"!","\r\n\\"
```

View file

@ -0,0 +1,25 @@
# Найдите строки в кавычках
Найдите в тексте при помощи регэкспа строки в двойных кавычках `subject:"..."`.
В строке поддерживается экранирование при помощи слеша -- примерно в таком же виде, как в обычных строках JavaScript. То есть, строка может содержать любые символы, экранированные слэшем, в частности: `subject:\"`, `subject:\n`, и даже сам слэш в экранированном виде: `subject:\\`.
Здесь особо важно, что двойная кавычка после слэша не оканчивает строку, а считается её частью. В этом и состоит основная сложность задачи, которая без этого условия была бы элементарной.
Пример совпадающих строк:
```js
.. *!*"test me"*/!* .. (обычная строка)
.. *!*"Скажи \"Привет\"!"*/!* ... (строка с кавычками внутри)
.. *!*"\r\n\\"*/!* .. (строка со спец. символами и слэшем внутри)
```
Заметим, что в JavaScript такие строки удобнее всего задавать в одинарных кавычках, и слеши придётся удвоить (в одинарных кавычках они являются экранирующими символами):
Пример задания тестовой строки в JavaScript:
```js run
var str = ' .. "test me" .. "Скажи \\"Привет\\"!" .. "\\r\\n\\\\" .. ';
// эта строка будет такой:
alert(str); // .. "test me" .. "Скажи \"Привет\"!" .. "\r\n\\" ..
```

View file

@ -0,0 +1,17 @@
Начало шаблона очевидно: `pattern:<style`.
А вот дальше... Мы не можем написать просто `pattern:<style.*?>`, так как `match:<styler>` удовлетворяет этому регэкспу.
Нужно уточнить его. После `match:<style` должен быть либо пробел, после которого может быть что-то ещё, либо закрытие тега.
На языке регэкспов: `pattern:<style(>|\s.*?>)`.
В действии:
```js run
var re = /<style(>|\s.*?>)/g;
alert( "<style> <styler> <style test>".match(re) ); // <style>, <style test>
```

View file

@ -0,0 +1,14 @@
# Найдите тег style
Напишите регулярное выражение, которое будет искать в тексте тег `<style>`. Подходят как обычный тег `<style>`, так и вариант с атрибутами `<style type="...">`.
Но регулярное выражение не должно находить `<styler>`!
Использование:
```js
var re = ваш регэксп
alert( "<style> <styler> <style test>".match(re) ); // <style>, <style test>
```

View file

@ -0,0 +1,25 @@
# Альтернация (или) |
Альтернация -- термин в регулярных выражениях, которому в русском языке соответствует слово "ИЛИ". Она обозначается символом вертикальной черты `pattern:|` и позволяет выбирать между вариантами.
[cut]
Например, нам нужно найти языки программирования: HTML, PHP, Java и JavaScript.
Соответствующее регулярное выражение: `pattern:html|php|java(script)?`.
Пример использования:
```js run
var reg = /html|php|css|java(script)?/gi
var str = "Сначала появился HTML, затем CSS, потом JavaScript"
alert( str.match(reg) ) // 'HTML', 'CSS', 'JavaScript'
```
Мы уже знаем похожую вещь -- квадратные скобки. Они позволяют выбирать между символами, например `pattern:gr[ae]y` найдёт `match:gray`, либо `match:grey`.
Альтернация работает уже не посимвольно, а на уровне фраз и подвыражений. Регэксп `pattern:A|B|C` обозначает поиск одного из выражений: `A`, `B` или `C`, причём в качестве выражений могут быть другие, сколь угодно сложные регэкспы.
Для указания границ альтернации используют скобки `(...)`, например: `pattern:before(XXX|YYY)after` будет искать `match:beforeXXXafter` или `match:beforeYYYafter`.