Разное

Как пишется больше меньше: Больше, меньше, равно — урок. Математика, 1 класс.

Содержание

“Поменьше” или “по-меньше”, как пишется правильно слово?

Слово «помень­ше» пишет­ся слит­но с при­став­кой по- соглас­но пра­ви­лу орфографии.

Выясним, как пра­виль­но пишет­ся «по-меньше» или «помень­ше», через дефис или слит­но, опре­де­лив часть речи и грам­ма­ти­че­скую фор­му слова.

Часть речи слова «поменьше»

Это крас­ное яблоч­ко было помень­ше желтого.

Интересующая нас лек­се­ма обо­зна­ча­ет непо­сред­ствен­ный при­знак пред­ме­та и отве­ча­ет на вопрос: яблоч­ко было каким?

Эти грам­ма­ти­че­ские при­зна­ки поз­во­лять понять, что это сло­во при­над­ле­жит к само­сто­я­тель­ной части речи — име­ни при­ла­га­тель­но­му. Оно высту­па­ет в фор­ме про­стой срав­ни­тель­ной степени:

малый — мень­ше, поменьше.

Прилагательное «малый» обра­зу­ет с помо­щью суф­фик­са одно­ко­рен­ное наре­чие, кото­рое име­ет такую же фор­му срав­ни­тель­ной степени:

  • малый ← мало;
  • мало — мень­ше, поменьше.

Я буду гулять сего­дня помень­ше, что­бы хоро­шо под­го­то­вить­ся к кон­троль­ной по физике.

В этом пред­ло­же­нии рас­смат­ри­ва­е­мое сло­во не изме­ня­ет­ся, зави­сит от глагола-сказуемого и отве­ча­ет на обсто­я­тель­ствен­ный вопрос: я буду гулять сколь­ко? как дол­го?

Это грам­ма­ти­че­ские при­зна­ки наречия.

Правописание слова «поменьше»

В рус­ской грам­ма­ти­ке наре­чия с началь­ным эле­мен­том «по» пишут­ся по-разному: раз­дель­но, слит­но или через дефис.

Понаблюдаем:

  • посту­пать по совести;
  • рас­ска­зы­вать по памяти;
  • бро­сить подальше;
  • одеть­ся по-вечернему;
  • под­дер­жать по-дружески.

Написание иссле­ду­е­мо­го сло­ва зави­сит от того, в какой грам­ма­ти­че­ской фор­ме оно нахо­дит­ся. Уже выяс­не­но, что «помень­ше» — это фор­ма про­стой срав­ни­тель­ной сте­пе­ни при­ла­га­тель­но­го или наречия.

Эта грам­ма­ти­че­ская фор­ма сло­ва обра­зу­ет­ся с помо­щью при­став­ки по-. А при­став­ки, как извест­но, со сло­ва­ми пишут­ся слитно.

Аналогично слит­но напи­шем похо­жие грам­ма­ти­че­ские фор­мы слов:

  • отплыть подаль­ше;
  • спро­сить погромче;
  • рас­спро­сить поподробнее;
  • встать порань­ше;
  • зво­ни почаще.

Отличаем слит­ное напи­са­ние этих слов от наре­чий, кото­рые обра­зо­ва­ны от одно­ко­рен­ных при­ла­га­тель­ных с помо­щью при­став­ки по- и суф­фик­сов -ому/-ему, -и:

  • весен­ний — по-весеннему поют;
  • ути­ный — по-утиному крякать;
  • турец­кий — по-турецки при­го­то­вить кофе;
  • лягу­ша­чий — по-лягу­шачьи прыгать.

Приставка по- в соста­ве таких наре­чий соглас­но пра­ви­лу орфо­гра­фии пишет­ся с дефи­сом.

Примеры

Клади малы­шу помень­ше ман­ной каши!

Эта кар­ти­на помень­ше того гор­но­го пей­за­жа в золо­чё­ной раме.

Поменьше раз­го­ва­ри­вай, когда занят серьез­ным делом.

Поменьше сиди за ком­пью­те­ром, а поболь­ше про­во­ди вре­ме­ни на све­жем воздухе.

Скачать ста­тью: PDF

Базовые операторы – SwiftBook

Оператор — это специальный символ или выражение для проверки, изменения или сложения величин. Например, оператор сложения (+) суммирует два числа let i = 1 + 2, а логический оператор И && объединяет два логических значения if enteredDoorCode && passedRetinaScan.

Язык Swift поддерживает большинство стандартных операторов C, а также ряд возможностей для устранения типичных ошибок в коде. Оператор присваивания (=) не возвращает значение, что позволяет избежать путаницы с оператором проверки на равенство (==). Арифметические операторы (+, -, *, /, % и т. д.) могут обнаруживать и предотвращать переполнение типа, чтобы числовой переменной нельзя было присвоить слишком большое или слишком маленькое значение. Контроль переполнения типа включается в Swift специальными операторами, которые описаны в разделе Операторы переполнения.

В отличие от C язык Swift позволяет делить с остатком (%) числа с плавающей точкой. Также в Swift имеются два сокращенных оператора интервала (a..<b и a…b), которых нет в C.

В этой главе описываются стандартные операторы Swift. Более сложные операторы Swift рассмотрены в главе Продвинутые операторы, где описано, как объявить пользовательские операторы и реализовать стандартные операторы для пользовательских типов.

Операторы делятся на унарные, бинарные и тернарные:

  • Унарные операторы применяются к одной величине (например, -a). Унарные префиксные операторы ставятся непосредственно перед величиной (например, !b), а унарные постфиксные операторы — сразу за ней (например, c!).
  • Бинарные операторы применяются к двум величинам (например, 2 + 3) и являются инфиксными, так как ставятся между этими величинами.
  • Тернарные операторы применяются к трем величинам. Как и в языке C, в Swift есть только один такой оператор, а именно — тернарный условный оператор (a ? b : c).

Величины, к которым применяются операторы, называются

операндами. В выражении 1 + 2 символ + является бинарным оператором, а его операндами служат 1 и 2.

Оператор присваивания (a = b) инициализирует или изменяет значение переменной a на значение b:

let b = 10
var a = 5
a = b
// теперь a равно 10

Если левая часть выражения является кортежем с несколькими значениями, его элементам можно присвоить сразу несколько констант или переменных:

let (x, y) = (1, 2)
// x равно 1, а y равно 2

В отличие от C и Objective-C оператор присваивания в Swift не может возвращать значение. К примеру, следующее выражение недопустимо:

if x = y {
 // это неверно, так как x = y не возвращает никакого значения
}

Эта особенность не позволяет разработчику спутать оператор присваивания (=) с оператором проверки на равенство (==). Благодаря тому, что выражения типа if x = y некорректны, подобные ошибки при программировании на Swift не произойдут.

Язык Swift поддерживает четыре стандартных арифметических оператора для всех числовых типов:

  • сложение (+)
  • вычитание (-)
  • умножение (*)
  • деление (/)
1 + 2 // равно 3
5 - 3 // равно 2
2 * 3 // равно 6
10.0 / 2.5 // равно 4.0

В отличие от C и Objective-C арифметические операторы Swift по умолчанию не допускают переполнения типа. Контроль переполнения типа включается в Swift специальными операторами (например, a &+ b). Подробнее см. в главе Операторы переполнения.

Оператор сложения служит также для конкатенации, или же склейки, строковых значений (тип String):

"hello, " + "world"  // равно "hello, world"

Оператор целочисленного деления

Оператор целочисленного деления (a % b) показывает, какое количество b помещается внутри a, и возвращает остаток деления a на b.

Заметка

Оператор целочисленного деления (%) в некоторых языках называется

оператором деления по модулю. Однако учитывая его действие над отрицательными числами в Swift, этот оператор, строго говоря, выполняет деление с остатком, а не по модулю.

Оператор целочисленного деления работает следующим образом. Для вычисления выражения 9 % 4 сначала определяется, сколько четверок содержится в девятке:

В одной девятке содержатся две четверки, а остатком будет 1 (выделено оранжевым цветом).

На языке Swift это записывается так:

9 % 4    // равно 1

Чтобы получить результат деления a % b, оператор % вычисляет следующее выражение и возвращает остаток:

a = (b × множитель) + остаток

где множитель показывает, сколько раз целых b содержится в a.

Подставляя в это выражение 9 и 4, получим:

9 = (4 × 2) + 1

Точно так же рассчитывается остаток, когда a отрицательно:

-9 % 4   // равно -1

Подставляя в наше выражение -9 и 4, получим:

-9 = (4 × -2) + -1

причем остаток будет равен -1.

Если b отрицательно, его знак отбрасывается. Это означает, что выражения a % b и a % -b всегда будут давать одинаковый результат.

Оператор унарного минуса

Для изменения знака числового значения служит префиксный минус -, который называется оператором унарного минуса:

let three = 3
let minusThree = -three // minusThree равно -3
let plusThree = -minusThree // plusThree равно 3, т. е. "минус минус три"

Оператор унарного минуса (-) ставится непосредственно перед значением, без пробела.

Оператор унарного плюса

Оператор унарного плюса (+) просто возвращает исходное значение без каких-либо изменений:

let minusSix = -6
let alsoMinusSix = +minusSix // alsoMinusSix равно -6

Хотя оператор унарного плюса не выполняет никаких действий, он придает коду единообразие, позволяя зрительно отличать положительные значения от отрицательных.

Как и в языке C, в Swift имеются составные операторы присваивания, совмещающие простое присваивание (=) с другой операцией. Одним из примеров может служить оператор присваивания со сложением (+=):

var a = 1
a += 2
// теперь a равно 3

Выражение a += 2 является краткой формой записи a = a + 2. Таким образом, один и тот же оператор выполняет одновременно операцию сложения и присваивания.

Заметка

Составные операторы присваивания не возвращают значение. К примеру, нельзя написать так: let b = a += 2.

Для получения полного списка операторов присваивания, предусмотренных стандартной библиотекой Swift, см. Operator Declarations.

Язык Swift поддерживает все стандартные операторы сравнения из C:

  • равно (a == b)
  • не равно (a != b)
  • больше (a > b)
  • меньше (a < b)
  • больше или равно (a >= b)
  • меньше или равно (a <= b)
Заметка

В языке Swift есть также два оператора проверки на идентичность/тождественность (=== и !==), определяющие, ссылаются ли два указателя на один и тот же экземпляр объекта. Дополнительную информацию см. в главе Классы и структуры.

Каждый оператор сравнения возвращает значение типа Bool, указывающее, является ли выражение истинным:

1 == 1 // истина, так как 1 равно 1
2 != 1 // истина, так как 2 не равно 1
2 > 1 // истина, так как 2 больше чем 1
1 < 2 // истина, так как 1 меньше 2
1 >= 1 // истина, так как 1 больше либо равно 1
2 <= 1 // ложь, так как 2 не меньше либо равно 1

Операторы сравнения часто используются в условных выражениях, включая инструкцию if:

let name = "world"
if name == "world" {
 print("hello, world")
} else {
 print("Мне жаль, \(name), но я тебя не узнаю")
}
// напечатает "hello, world", так как name очевидно равно "world"

Подробнее об инструкции if см. в главе “Управление потоком”.

Вы так же можете сравнивать кортежи, которые имеют одно и то же количество значений, которые, в свою очередь, должны быть сравниваемыми, что означает, что кортеж типа (Int, String) может быть сравнен с кортежем такого же типа.
Кортежи сравниваются слева направо, по одному значению за раз до тех пор, пока операция сравнения не найдет отличия между значениями. Если все значения кортежей попарно равны, то и кортежи так же считаются равными. Например:

(1, "zebra") < (2, "apple")   // true, потому что 1 меньше 2, "zebra" и "apple" не сравниваются
(3, "apple") < (3, "bird")    // true , потому что 3 равно 3, а "apple" меньше чем "bird"
(4, "dog") == (4, "dog")      // true , потому что 4 равно 4 и "dog" равен "dog"

В примере выше, в первой строке вы можете видеть сравнение слева направо. Так как 1 меньше 2, то (1, “zebra”) меньше (2, “apple”), несмотря на остальные значения кортежа, потому что это неравенство было определено первыми членами. Не важно, что “zebra” не меньше, чем “apple”, потому что сравнение уже определено первыми элементами кортежей. Однако, когда первые элементы кортежей одинаковые, то сравниваются вторые элементы и так далее.

Кортежи могут сравниваться, только в том случае, если оператор сравнения можно применить ко всем членам кортежей соответственно. Например, как показано в коде ниже, вы можете сравнить два кортежа типа (String, Int) потому что и String, и Int могут сравниться оператором <. И наоборот, кортеж типа (String, Bool) сравниваться не может, так как к значениям типа Bool операторы сравнения не применяются.

("blue", -1) < ("purple", 1) // OK, расценивается как true
("blue", false) < ("purple", true) // Ошибка так как < не может применяться к значениям типа Bool 
Заметка

Стандартная библиотека Swift включает в себя операторы сравнения кортежей, которые имеют менее семи значений. Если вам нужны операторы, которые могут сравнивать кортежи с более, чем шестью элементами, то вам нужно реализовать их самостоятельно.

Тернарный условный оператор — это специальный оператор из трех частей, имеющий следующий синтаксис: выражение ? действие1 : действие2. Он выполняет одно из двух действий в зависимости от того, является ли выражение true или false. Если выражение равно true, оператор выполняет действие1 и возвращает его результат; в противном случае оператор выполняет действие2 и возвращает его результат.

Тернарный условный оператор является краткой записью следующего кода:

if выражение {
 действие1
} else {
 действие2
}

Ниже приведен пример расчета высоты строки в таблице. Если у строки есть заголовок, то она должна быть выше своего содержимого на 50 точек, а если заголовка нет, то на 20 точек:

let contentHeight = 40
let hasHeader = true
let rowHeight = contentHeight + (hasHeader ? 50 : 20)
// rowHeight равно 90

В развернутом виде этот код можно записать так:

let contentHeight = 40
let hasHeader = true
var rowHeight = contentHeight
if hasHeader {
    rowHeight = rowHeight + 50
} else {
    rowHeight = rowHeight + 20
}
// rowHeight равно 90

В первом примере с помощью тернарного условного оператора величине rowHeight в одну строку присваивается правильное значение. Этот вариант не только короче второго примера, но и позволяет объявить величину rowHeight константой, так как в отличие от конструкции if ее значение не нужно изменять.

Тернарный условный оператор — это короткая и удобная конструкция для выбора между двумя выражениями. Однако тернарный условный оператор следует применять с осторожностью. Избыток таких коротких конструкций иногда делает код трудным для понимания. В частности, лучше не использовать несколько тернарных условных операторов в одном составном операторе присваивания.

Оператор объединения по nil (a ?? b) извлекает опционал a, если он содержит значение, или возвращает значение по умолчанию b, если a равно nil. Выражение a может быть только опционалом. Выражение b должно быть такого же типа, что и значение внутри a.

Оператор объединения по nil является краткой записью следующего кода:

a != nil ? a! : b

В вышеприведенном коде тернарный условный оператор и принудительное извлечение (a!) используются для обращения к значению внутри a, если a не равно nil, или для возвращения b в противном случае. Оператор объединения по nil — это более элегантный, короткий и понятный способ одновременно проверить условие и извлечь значение.

Заметка

Если a не равно nil, выражение b не анализируется. Такой подход называется краткой проверкой условия (short-circuit evaluation).

В следующем примере оператор объединения по nil выбирает между стандартным значением цвета и пользовательским:

let defaultColorName = "red"
var userDefinedColorName: String? // по умолчанию равно nil
        
var colorNameToUse = userDefinedColorName ?? defaultColorName
// userDefinedColorName равен nil, поэтому colorNameToUse получит значение по умолчанию — "red"

Переменная userDefinedColorName объявлена как строковый (String) опционал и по умолчанию равна nil. Так как userDefinedColorName является опционалом, ее значение можно анализировать посредством оператора объединения по nil. В вышеприведенном примере этот оператор задает начальное значение для строковой (String) переменной colorNameToUse. Так как userDefinedColorName равно nil, выражение userDefinedColorName ?? defaultColorName возвратит значение defaultColorName, т. е. “red”.

Если переменной userDefinedColorName присвоить отличное от nil значение и снова передать ее в оператор объединения по nil, вместо значения по умолчанию будет использовано значение внутри userDefinedColorName:

userDefinedColorName = "green"
colorNameToUse = userDefinedColorName ?? defaultColorName
// userDefinedColorName не равно nil, поэтому colorNameToUse получит значение "green"

В языке Swift есть два оператора диапазона, которые в короткой форме задают диапазон значений.

Оператор замкнутого диапазона

Оператор замкнутого диапазона (a…b) задает диапазон от a до b, включая сами a и b. При этом значение a не должно превышать b.

Оператор замкнутого диапазона удобно использовать при последовательном переборе значений из некоторого диапазона, как, например, в цикле for-in:

for index in 1...5 {
 print("\(index) умножить на 5 будет \(index * 5)")
}
// 1 умножить на 5 будет 5
// 2 умножить на 5 будет 10
// 3 умножить на 5 будет 15
// 4 умножить на 5 будет 20
// 5 умножить на 5 будет 25

Подробнее о циклах for-in см. в главе Управление потоком.

Оператор полузамкнутого диапазона

Оператор полузамкнутого диапазона (a..<b) задает диапазон от a до b, исключая значение b. Такой диапазон называется полузамкнутым, потому что он включает первое значение, но исключает последнее. Так же, как и для оператора замкнутого диапазона, значение a не должно превышать b. Если значение a равно значению b, то итоговый диапазон будет пустым.

Операторы полузамкнутого диапазона особенно удобны при работе с массивами и другими последовательностями, пронумерованными с нуля, когда нужно перебрать элементы от первого до последнего:

let names = ["Anna", "Alex", "Brian", "Jack"]
let count = names.count
for i in 0..<count {
 print("Person \(i + 1) будет \(names[i])")
}
// Person 1 будет Anna
// Person 2 будет Alex
// Person 3 будет Brian
// Person 4 будет Jack

Хотя в массиве четыре элемента, диапазон 0..<count доходит только до 3 (т. е. до номера последнего элемента в массиве), так как это оператор полузамкнутого диапазона. Подробнее о массивах см. в главе Массивы.

Односторонние диапазоны

Операторы замкнутого диапазона имеют себе альтернативу – диапазон, который продолжается насколько возможно, но только в одну сторону, например, диапазон, который включает все элементы массива, начиная от 2 и до последнего индекса. В этих случаях вы можете пропустить значение с одной стороны оператора диапазона. Этот тип диапазона называется односторонним, потому что оператор имеет значение только с одной стороны. Например:

for name in names[2...] {
    print(name)
}
// Brian
// Jack
 
for name in names[...2] {
    print(name)
}
// Anna
// Alex
// Brian

Оператор полузамкнутого диапазона так же имеет одностороннюю форму, которая записывается только с одним конечным значением. Точно так же как и в случае, когда вы включаете значение в обе стороны, конечное значение не является частью самого диапазона. Например:

for name in names[..<2] {
    print(name)
}
// Anna
// Alex

Односторонние диапазоны могут быть использованы в разных контекстах, а не только в сабскриптах. Вы не можете итерировать по одностороннему диапазону, который пропускает первое значение, потому что становится не очевидным, где должна начинаться итерация. Вы можете итерировать по одностороннему диапазону, который пропускает последнее значение, однако, так как диапазон длится бесконечно, убедитесь, что вы добавили условие окончание итерации в цикл. Вы так же можете проверить имеет ли односторонний диапазон конкретное значение, что показано ниже:

let range = ...5
range.contains(7)   // false
range.contains(4)   // true
range.contains(-1)  // true

Логические операторы изменяют или комбинируют логические значения типа Boolean (булево) — true и false. Язык Swift, как и другие C-подобные языки, поддерживает три стандартных логических оператора:

  • логическое НЕ (!a)
  • логическое И (a && b)
  • логическое ИЛИ (a || b)

Оператор логического НЕ

Оператор логического НЕ (!a) инвертирует булево значение — true меняется на false, а false становится true.

Оператор логического НЕ является префиксным и ставится непосредственно перед значением, без пробела. Как видно из следующего примера, его можно воспринимать как “не a”:

let allowedEntry = false
if !allowedEntry {
 print("ACCESS DENIED")
}
// Выведет "ACCESS DENIED"

Конструкция if !allowedEntry означает “если не allowedEntry”. Идущая за ней строка будет выполнена, только если “не allowedEntry” является истиной, т. е. если allowedEntry равно false.

Как видно из этого примера, удачный выбор булевой константы и имен переменных делает код коротким и понятным, без двойных отрицаний и громоздких логических выражений.

Оператор логического И

Оператор логического И (a && b) дает на выходе true тогда и только тогда, когда оба его операнда также равны true.

Если хотя бы один из них равен false, результатом всего выражения тоже будет false. На самом деле, если первое значение равно false, то второе даже не будет анализироваться, так как оно все равно не изменит общий результат на true. Такой подход называется краткой проверкой условия (short-circuit evaluation).

В следующем примере проверяются два значения типа Bool, и если они оба равны true, программа разрешает доступ:

let enteredDoorCode = true
let passedRetinaScan = false
if enteredDoorCode && passedRetinaScan {
 print("Welcome!")
} else {
 print("ACCESS DENIED")
}
// Выведет "ACCESS DENIED"

Оператор логического ИЛИ

Оператор логического ИЛИ (a || b) является инфиксным и записывается в виде двух вертикальных палочек без пробела. С его помощью можно создавать логические выражения, которые будут давать true, если хотя бы один из операндов равен true.

Как и описанный выше оператор логического И, оператор логического ИЛИ использует краткую проверку условия. Если левая часть выражения с логическим ИЛИ равна true, то правая не анализируется, так как ее значение не повлияет на общий результат.

В приведенном ниже примере первое значение типа Bool (hasDoorKey) равно false, а второе (knowsOverridePassword) равно true. Поскольку одно из значений равно true, результат всего выражения тоже становится true и доступ разрешается:

let hasDoorKey = false
let knowsOverridePassword = true
if hasDoorKey || knowsOverridePassword {
 print("Welcome!")
} else {
 print("ACCESS DENIED")
}
// Выведет "Welcome!"

Комбинирование логических операторов

Можно также составлять и более сложные выражения из нескольких логических операторов:

if enteredDoorCode && passedRetinaScan || hasDoorKey || knowsOverridePassword {
 print("Welcome!")
} else {
 print("ACCESS DENIED")
}
// Выведет "Welcome!"

В этом примере с помощью нескольких операторов && и || составляется более длинное и сложное выражение. Однако операторы && и || по-прежнему применяются только к двум величинам, поэтому все выражение можно разбить на три простых условия. Алгоритм работы будет следующим:

если пользователь правильно ввел код дверного замка и прошел сканирование сетчатки или если он использовал действующую ключ-карту или если он ввел код экстренного доступа, то дверь открывается.

Исходя из значений enteredDoorCode, passedRetinaScan и hasDoorKey первые два подусловия дают false. Однако был введен код экстренного доступа, поэтому все составное выражение по-прежнему равно true.

Заметка

Логические операторы Swift && и || являются лево-ассоциированными, что означает, что составные выражения с логическими операторами оценивают в первую очередь выражения слева направо.

Явное указание круглых скобок

Иногда имеет смысл использовать дополнительные круглые скобки, чтобы сложное логическое выражение стало проще для восприятия. В примере с открытием двери можно заключить в круглые скобки первую часть составного выражения, что сделает его нагляднее:

if (enteredDoorCode && passedRetinaScan) || hasDoorKey || knowsOverridePassword {
 print("Welcome!")
} else {
 print("ACCESS DENIED")
}
// Выведет "Welcome!"

Круглые скобки показывают, что первые две величины составляют одно из возможных значений всего логического выражения. Хотя результат составного выражения не изменится, такая запись сделает код понятнее. Читаемость кода всегда важнее краткости, поэтому желательно ставить круглые скобки везде, где они облегчают понимание.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

как пишется слитно или раздельно?

Побольше — как пишется это слово? Зависит ли его написание от того, какой частью речи оно относится? Каким правилам подчиняется? На эти и другие подобные вопросы стоит раз и навсегда найти ответы, если вы планируете далее в своей жизни использовать русский язык.

Слитно или всё же раздельно?

Побольше — как пишется: слитно или раздельно? «Побольше», правописание этого выражения (одного слова или двух слов) может описывать немного отличающиеся друг от друга понятия в зависимости от того, к какой части речи относится это слово в каждом конкретном предложении.

В отношении раздельного написания рассматриваемого выражения (в рамках вопроса: «Как правильно: по больше или побольше?») никаких вопросов у лингвистов, преподавателей русского языка и литературы, филологов и других специалистов по языкам народов мира или тех, кто специализируется лишь на изучении русского языка, не возникало.

Раздельное написание слова в любом случае считается неправильным.

Как пишутся другие варианты слова?

Что касается других форм употребления исследуемого слова (выражения), следует также провести небольшое напоминание. Итак:

  • «Не больше, не меньше» против «Ни больше, ни меньше». Как пишется правильно?

Верен второй вариант написания предложений с устойчивым выражением предполагает двойное употребление частички «ни…» при употреблении в устной или письменной речи указанного неразложимого словосочетания «ни больше, ни меньше…».

  • «Дальше — больше» или нужно ставить тире (не путать с дефисом) Как всё-таки это пишется? Написание со знаком тире приемлемо в классических правилах русской письменной речи.
  • «Чем больше, тем лучше». Это выражение, часто употребляемое в русской разговорной речи, а с появлением большого количества пользователей в интернете — ещё и в письменной речи, пишется через запятую перед словом «тем».
  • «Не больше» – как пишется. Конечно, «не» со словами в сравнительной степени пишется всегда раздельно.

«Больше», «меньше» – написание этих слов будет зависеть от того чувства, эмоции или сравнительной характеристики чего-либо, которую вы хотите выразить, описать, раскрыть смысл

Какой частью речи является слово?

Больше — это какая часть речи? Для определения речевой принадлежности слова стоит выяснить, на какой вопрос данное слово отвечает. Тут есть два варианта:

  1. Если словосочетание в предложении отвечает на вопрос «сколько?», оно будет выступать наречием («Сколько яблок взвесить? Килограмм?» – «Клади побольше»).
  2. Если словосочетание отвечает на вопрос «какой?» или «какая?», оно является именем прилагательным («Дай мне тот кусок, который побольше»).

Какие правила русского языка нужно применять?

Для наречий, начинающихся с приставки «по-», действует правило слитного написания со второй частью рассматриваемого и анализируемого слова. Оно звучит так: «Если в составе наречия есть слово, являющееся прилагательным в сравнительной степени или краткое прилагательное, заканчивающееся на «-у», следует писать это слово слитно». В данном случае приставка «по-» и прилагательное в сравнительной степени «больше» (образовано от слова «большой») дают право на слитное написание.

Точно такое же правило действует для имён прилагательных русского языка. Оно звучит примерно так: «Все прилагательные в сравнительной степени пишутся слитно со своей приставкой «по-».

Среди синонимов слова интересующего слова специальные программы и сайты могут предложить множество подходящих вариантов. При этом самыми правильными, общеупотребительными будут являться следующие: «покрупнее», «больше», «крупнее», «более»

Правописание этих слов надо знать:

Тактическое ноу-хау от «Трентино» – игра без диагонального. Лорензетти разорвал шаблоны и взял Суперкубок Италии

Выдающийся стратег.

Волейболисты «Трентино» стали победителями «Финала четырёх» Суперкубка Италии, который прошёл в Чивитанове. В полуфинале они со счётом 3:0 обыграли мощную «Перуджу» (3:0) с Вильфредо Леоном и Мэттью Андерсоном, а в решающем матче со счётом 3:1 одолели «Монцу» Георга Грозера.

Казалось, что в современном волейболе сложно чем-то удивить, но 57-летнему главному тренеру «Трентино» Анджело Лорензетти это удалось. Он представил игру без диагонального – связующий его команды Рикардо Сбертоли вообще не пасовал в первую зону!

Анджело Лорензетти / фото на превью: © Roberto Bartomeoli, Keystone Press Agency, globallookpress.com

СХЕМА С ТРЕМЯ ДОИГРОВЩИКАМИ

Вообще-то у «Трентино» есть диагональный Джулио Пинали, да и Матей Казийски имеет огромный опыт игры на этой позиции. Но Лорензетти решил попробовать гибкую схему с тремя доигровщиками, тем более все они топовые волейболисты с хорошим приёмом – Казийски, Алессандро Микьелетто и Даниэле Лавиа. Вместе с либеро Джулианом Зенгером это целых четыре принимающих, что позволяет адаптировать схему приёма под тот или иной тип подачи.

Формально диагональным в расстановке «Трентино» выступает Лавиа. При этом только расстановка P2 (связка во 2-й зоне) классическая – Лавиа не участвует в приёме и готовится к атаке из 1-й зоны.

Изначально итальянские эксперты предполагали, что Казийски будет принимать меньше всех, но ничего подобного – он принимает во всех расстановках, когда находится на передней линии (P3, P2, P1). Таким образом, доигровщик задней линии разгружается и может более комфортно атаковать пайп.

Немного о других расстановках. При P1 Микьелетто на задней линии, но находится вне зоны приёма. Принимают два нападающих передней линии, которые затем атакуют из «четвёрки» (Лавиа) и «двойки» (Казийски).

Больше всего Лорензетти «изобрёл» в расстановке P6 (смотрите картинку ниже). Лавиа оттягивается в приём, усложняя вход в игру связующего. При этом Казийски, который на задней линии, не принимает, но смещается в центр для атаки пайп.

В расстановке P3 из принимающей системы выходит Лавиа. Он идёт на пайп, а Микьелетто готовится атаковать из 1-й зоны. Но повторимся – за два матча Суперкубка Италии Сбертоли отдал туда всего несколько мячей. Этой зоны для атаки «Трентино» просто не существовало, вопреки канонам современного волейбола.

КАЗИЙСКИ – MVP

К слову, второй связующий сборной Италии блестяще провёл суперкубковый уикенд. Больше всех в команде подавал, шикарно играл в защите и отлично реализовал тактику Лорензетти, ведя вариативную и быструю игру.

«Это сон, я не хочу просыпаться, – сказал 23-летний Сбертоли после финала. – Это были две лучшие игры в моей карьере. Не с технической точки зрения, а с точки зрения ощущений на площадке. Я счастлив. Но эта победа не делает нас сильнейшими. Мы были лучшими в эти два дня и должны этим гордиться. Теперь даже те, кто нас недооценивал, будут ждать нас с ножом в зубах».

Но титул MVP турнира получил не Сбертоли, а 37-летний капитан «Трентино» Казийски.

«У нас очень молодая команда, в которой и я чувствую себя молодым, – признался Матей. – Микьелетто и Лавиа очень интересные игроки, которые уже сильны, но ещё наберутся опыта. Надеюсь, увижу как они прибавляют».

Матей Казийски / фото: © Roberto Bartomeoli, Keystone Press Agency, globallookpress.com

В полуфинале фаворитом была «Перуджа», которая летом прикупила к Леону универсала Андерсона и связующего Симоне Джанелли. Но им редко удавалось затруднить сопернику приём, что вылилось в бенефис центров «Трентино» Марко Подрашчанина (7/7) и Сречко Лисинаца (6/9).

Кроме того, у «Перуджи» провалился диагональный Камил Рыхлицкий, который за два сета забил только 3 из 13-ти мячей (23%) и обстучал блок. Только после 0:2 Никола Грбич решился на перестановку: отправил в диагональ Андерсона, а вторым доигровщиком стал Олег Плотницкий. Изначально стартовый состав «Перуджи» на сезон виделся именно таким, но Андерсон почему-то начал его в доигровке.

Леон во втором сете набрал 9 очков при 69% реализации атак (9/13), однако такой фантастический уровень показал только в этом отрезке. На Апеннинах с трофеями у Вильфредо не клеится – только Кубок Италии-2019.

Первый упущенный трофей сезона наверняка скажется и на перспективах Грбича возглавить сборную Польши. Президент «Перуджи» Джино Сирчи давно выступает против совмещения, а теперь наверняка лишь укрепился в своём мнении.

ГРОЗЕР В ОДИНОЧКУ ТАЩИЛ «МОНЦУ»

Соперником «Трентино» по финалу сенсационно стала «Монца», которая со счётом 3:1 одолела звёздную «Чивитанову». Она могла быть ещё более звёздной, но диагональный Иван Зайцев ещё восстанавливается после операции. Вместо него играет пуэрториканец Габи Гарсиа и пока не слишком ярко (10 очков в атаке, 5 потерь). Османи Хуанторена забил всего 10 из 28-ми мячей (36%) и четырежды угодил под блок. Неожиданно много ключевых ошибок допустил Робертланди Симон. Но в основном «Чивитанова» проиграла из-за провального приёма. 11 чистых ошибок: 6 – у Рикарду Лукарелли и 4 – у Хуанторены.

Грозер и Галасси на блоке против Лукарелли / фото: © Roberto Bartomeoli, Keystone Press Agency, globallookpress.com

Немец Грозер (21 очко), чех Донован Джаворонок (18) и белорус Владислав Давыскиба (16) не только разбомбили приём «Чивитановы», но и очень стабильно действовали в атаке. Они принесли «Монце» первый в истории финал Суперкубка Италии. Команда получила право побороться за трофей благодаря четвёртому месту в прошлом чемпионате Италии. На старте нового сезона «Монца» преподнесла уже не одну сенсацию. В стартовом туре чемпионата страны команда Массимо Эккели со счётом 3:1 обыграла «Модену», которая была в своём оптимальном составе (Бруно, Эрвин Нгапет, Йоанди Леал, Нимир Абдель-Азиз).

Но ещё на одну сенсацию «Монцу» не хватило. В финале с «Трентино» два сета были полностью провалены. В первом «Монца» забила 3 из 19-ти мячей (16%, 5 потерь), а в четвёртом – 7 из 25-ти (28%, 10 потерь).

Ещё в двух партиях «Монцу» на себе тащил Грозер. Во многом благодаря ему команда взяла третий сет (33:31), а во втором 36-летний диагональный вообще был бесподобен – 83% реализации (10/12) и 1 эйс! Его одноклубники в сумме набрали 4 очка. Но усилий одного Грозера не хватило, поскольку у «Трентино» на столь же высоком уровне играл весь атакующий трезубец.

Лавиа реализовал 16 из 26-ти атак (62%), Микьелетто – 14 из 24-х (58%). Оба проиграли только по одному мячу. У Казийски статистика похуже – он в поздних сетах подсел, но зато в первых двух был лидером. Также стоит отметить отличную игру Лисинаца, который забил 11 из 15-ти мячей (73%), сделал 2 эйса и 3 блока.

«Монца» проиграла и второй финал в своей истории. Первый был весной 2019 года – против «Белогорья» в Кубке вызова. «Трентино» завоевало первый трофей с сезона 2018/19, когда команда выиграла клубный чемпионат мира и Кубок ЕКВ. Тогда командой также руководил Лорензетти, который нынешней осенью решил сломать стереотипы и, возможно, задать новый тренд в мировом волейболе.

фото: legavolley.it

Суперкубок Италии

Полуфиналы

Перуджа – Трентино – 0:3 (21:25, 21:25, 23:25)
Чивитанова – Монца – 1:3 (22:25, 16:25, 25:21, 20:25) 

Финал

Трентино – Монца – 3:1 (25:11, 25:21, 31:33, 25:14)
24 октября. Чивитанова. Eurosuole Forum. 2418 зрителей.
Трентино: Лавиа (16), Микьелетто (18), Подрашчанин (10), Сбертоли (3), Казийски (21), Лисинац (16) – старт; Зенгер (либеро), Кавуто (0), Пинали (0), Д’Хеер (0).
Монца: Давыскиба (3), Галасси (8), Грозер (22), Джаворонок (13), Грозданов (6), Ордуна (1) – старт; Федеричи (либеро), Карягин (0), Митрасинович (0), Каллигаро (0), Беретта (0).
Очки – 106:79, подача – 6:10, атака – 64:40, блок – 14:3, приём – 42%:45%, ошибки – 36:26.

Расширенная статистика

Метод интервалов (ЕГЭ 2022) | ЮКлэва

Что такое интервал?

Это некий промежуток числовой прямой, то есть все возможные числа, заключенные между двумя какими-то числами – концами интервала. Эти промежутки в голове представить не так просто, поэтому интервалы принято рисовать, сейчас научу.

Рисуем ось \( X\), на ней располагается весь числовой ряд от \( -\infty \) и до \( +\infty \). На ось наносятся точки, те самые так называемые нули функции, значения, при которых выражение равняется нулю.

Эти точки «выкалываются» что означает, что они не относятся к числу тех значений, при которых неравенство верно. В данном случае, они выкалываются, т.к. знак в неравенстве \( >\), а не \(\ge\), то есть строго больше, а не больше или равно.

Хочу сказать, что ноль отмечать не обязательно, он без кружочков тут, а так, для понимания и ориентации по оси.

Ладно, ось нарисовали, точки (точнее кружочки) поставили, дальше что, как мне это поможет в решении? – спросишь ты.

Теперь просто…

Возьми значение для икса из интервалов по порядку и подставь их в свое неравенство и смотри, какой знак будет в результате умножения.

Короче, просто берем \( -2\) например, подставляем его сюда \( (x+1)\cdot ({x}-2)\), получится \( 4\), а \( 4>0\).

Значит на всем промежутке (на всем интервале) от \( -\infty \) до \( -1\), из которого мы брали \( -2\), неравенство будет справедливо.

Иными словами если икс от \( -\infty \) до \( -1\), то неравенство верно.

То же самое делаем и с интервалом от \( -1\) до \( 2\), берем \( 0\) или \( 1\), например, подставляем в \( (x+1)\cdot ({x}-2)\), определяем знак, знак будет «минус». И так же делаем с последим, третьим интервалом от \( 2\) до \( +\infty \), где знак получится «плюс».

Такая куча текста вышла, а наглядности мало, правда?

Взгляни еще раз на неравенство \( (x+1)\cdot ({x}-2)>0\).

Теперь все на ту же ось наносим еще и знаки, которые получатся в результате. Ломаной линией в моем примере обозначаем положительные и отрицательные участки оси.

Смотри на неравенство – на рисунок, опять на неравенство – и снова на рисунок, что-нибудь понятно?

Постарайся теперь сказать на каких промежутках икса, неравенство будет верно.

Правильно, от \( -\infty \) до \( -1\) неравенство будет справедливо и от \( 2\) до \( +\infty \).

А на промежутке от \( -1\) до \( 2\) неравенство \( <\) нуля и нас этот промежуток мало интересует, ведь у нас в неравенстве знак \( >\) стоит.

Ну, раз ты с этим разобрался, то дело за малым – записать ответ!

В ответ пишем те промежутки, при которых левая часть больше нуля, \( x\in (-\infty ;-1)\cup (2;+\infty )\), что читается, как икс принадлежит промежутку от минус бесконечности до минус одного и от двух до плюс бесконечности.

Стоит пояснить, что круглые скобки означают, что значения, которыми ограничен интервал не являются решениями неравенства, то есть они не включены в ответ, а лишь говорят о том, что до \( -1\), например, но \( -1\) не есть решение.

Теперь пример, в котором тебе придется не только интервал рисовать.

Java. Экспресс-курс: Операторы сравнения

Статья проплачена кошками – всемирно известными производителями котят.

Если статья вам понравилась, то можете поддержать проект.

Операторы сравнения выдают логический результат (boolean). Если условие проверки истинно, оператор выдает true, а если ложно – false. К операторам сравнения относятся < (меньше чем), > (больше чем), <= (меньше чем или равно), >= (больше чем или равно), == (равно), != (не равно). Операторы “Равно” и “не равно” можно использовать для всех примитивных типов данных, однако остальные сравнения нельзя использовать к типу boolean.

ОператорПример использованияВозвращает значение “истинно”, если…
>a > bа больше b
>=a >= bа больше или равно b
<a < bа меньше b
<=a <= bа меньше или равно b
==a == bа равно b
!=a != bа не равно b
&&a && bа и b истинны, b оценивается условно (если а ложно, b не вычисляется)
||a || bа или b истинно, b оценивается условно (если а истинно, b не вычисляется)
!!aа ложно
&a & bа и b истинны, b оценивается в любом случае
|a | bа или b истинно, b оценивается в любом случае
^a ^ bа и b различны

Наиболее часто операции сравнения используют в выражениях, которые управляют оператором if и операторами цикла.

Обратите внимание, что равенство обозначается двумя знаками равно (==), одиночный знак равно (=) – это оператор присваивания. Типичная ошибка начинающих программистов.

Корректный вариант примера:


int x = 5;
int y = 7;
boolean z = a < b; // результат сохраняется в переменной типа boolean

Примеры для оператора if для Java (В C++ используется другой синтаксис!):


int cat_age;
if(cat_age == 4) // нельзя if(cat_age) - нет сравнения
if(cat_age != 9) // нельзя if(!cat_age) - нет сравнения

Помните, что в Java значения true и false не являются числовыми значениями, как в C++, поэтому, чтобы сравнить значение с другим значением, необходимо явно использовать операторы сравнения.

Реклама

CRM-системы — что это простыми словами? Объясняем, что значит CRM-программа

Про CRM всегда пишут таким непонятным языком, будто это адронный коллайдер, а на самом деле это просто программа для управления бизнесом. Правда, очень умная — настолько, что помогает увеличить прибыль на 40-50%, снизить издержки и в 2 раза ускорить обработку заявок. Но что такое CRM и что именно она делает? Как разработчик собственной системы S2, «отвечаю популярно». Итак, CRM-системы — что это простыми словами?

Как работает CRM-система?

Определение или аббревиатура CRM расшифровывается как Customer Relationship Management, то есть «управление отношениями с клиентами». CRM при помощи автоматизации процессов помогает эффективнее выстраивать диалог с покупателем, не допускать ошибок в работе и в итоге продавать ему больше.

Как это выглядит в CRM? Представьте таблицу Excel с вашей клиентской базой, но только при щелчке на имя клиента открывается удобная карточка, в которой содержится вся хронология работы с ним — от первого звонка до покупки. Здесь можно прослушать звонки, посмотреть историю покупок, создать документы по шаблону, написать e-mail или sms, поставить задачу.

Когда клиент звонит вам, CRM предлагает открыть его карточку, и вы сразу приветствуете его по имени. Даже если раньше этого покупателя вел другой менеджер, вы легко ответите на его вопросы без всяких «уточню и перезвоню». CRM сама отправит клиенту sms-сообщение о статусе заказа и напомнит о встрече. В итоге вы экономите время — и свое, и клиента. А значит, делаете его более лояльным и настроенным на покупку.

Это лишь малая часть того, что значит CRM-программа. Перечислю и другие возможности CRM:

Автоматизация стоит последней, но не потому что она наименее важна. Напротив, именно она помогает поставить продажи на автомат — чтобы все работало быстро и четко, а ошибки «человеческого фактора» были сведены к минимуму. CRM берет всю рутину на себя: формирует документы по шаблону, ставит задачи менеджерам на каждом этапе сделки, отправляет sms клиентам, создает онлайн-отчеты по всем показателям, через встроенный калькулятор рассчитывает стоимость услуг, а также отслеживает важные даты (напоминает продлить договор, выставить счет на оплату, предложить сервис и др.).

Благодаря CRM менеджеры допускают меньше ошибок, а значит, продают больше и чаще. А руководителю становится легче управлять компанией: он тратит меньше времени на контроль и получает больше ресурсов, чтобы развивать бизнес.

Сравнительная и превосходная | EF

Сравнительные прилагательные

Сравнительные прилагательные используются для сравнения различий между двумя объектами, которые они модифицируют ( больше, меньше, быстрее, выше ). Они используются в предложениях, в которых сравниваются два существительных, по следующей схеме:

Существительное (подлежащее) + глагол + сравнительное прилагательное + , чем + существительное (объект).

Второй элемент сравнения можно опустить, если он понятен из контекста (последний пример ниже).

Примеры
  • Мой дом на больше, чем на ее.
  • Эта коробка на меньше на , чем та, которую я потерял.
  • Ваша собака бегает на быстрее на , чем собака Джима.
  • Скала летела на выше крыши на .
  • Джим и Джек – мои друзья, но мне нравится Jack больше . (“чем Джим” понимается)

Прилагательные в превосходной степени

Прилагательные в превосходной степени используются для описания объекта, который находится на верхнем или нижнем пределе качества ( – самый высокий, самый маленький, самый быстрый, самый высокий ).Они используются в предложениях, в которых субъект сравнивается с группой объектов.

Существительное (подлежащее) + глагол + прилагательное в превосходной степени + существительное (объект).

Группа, с которой сравнивается, может быть опущена, если она ясна из контекста (последний пример ниже).

Примеры
  • Мой дом самый большой в нашем районе.
  • Это самая маленькая коробка , которую я когда-либо видел.
  • Ваша собака пробежала самых быстрых из всех собак в гонке.
  • Мы все бросали камни одновременно. Моя скала пролетела наивысшей . (понимается “всех скал”)

Формирование регулярных сравнительных и превосходных степеней

Составить сравнительную и превосходную степень несложно. Форма зависит от количества слогов в исходном прилагательном.

Односложные прилагательные

Добавьте -er для сравнительной и -est для превосходной степени.Если прилагательное состоит из согласной + одинарной гласной + согласной орфографии, последняя согласная должна быть удвоена перед добавлением окончания.

Прилагательное Сравнительный Превосходная степень
высокий выше самый высокий
жир жирнее самый толстый
большой больше самый большой
грустный грустный грустный
Два слога

Прилагательные с двумя слогами могут образовывать сравнительное, либо добавляя -er , либо ставя перед прилагательным больше .Эти прилагательные образуют превосходную степень, либо добавляя – самое большое , либо ставя перед прилагательным – самое большее . Во многих случаях используются обе формы, хотя одно использование будет более распространенным, чем другое. Если вы не уверены, может ли двусложное прилагательное иметь сравнительную или превосходную степень, не рискуйте и используйте вместо этого больше и больше . Для прилагательных, оканчивающихся на y , измените y на i перед добавлением окончания.

Прилагательное Сравнительный Превосходная степень
счастлив счастливее самый счастливый
простой проще простейший
занято занят самый загруженный
наклонный более наклонный самый наклонный
запутанный более запутанный самый запутанный
Три и более слога

Прилагательные с тремя или более слогами образуют сравнительное, помещая перед прилагательным больше , и превосходную степень, помещая перед прилагательным больше всего .

Прилагательное Сравнительный Превосходная степень
важный более важный самое главное
дорогой дороже самый дорогой

Нерегулярные сравнительные и превосходные степени

Эти очень распространенные прилагательные имеют совершенно неправильные сравнительные и превосходные формы.

Прилагательное Сравнительный Превосходная степень
хорошо лучше лучший
плохо хуже худший
маленький менее не менее
намного более самый
далеко дальше / дальше самый дальний / самый дальний
Примеры
  • Сегодня худших дней, которые у меня были за долгое время.
  • Ты играешь в теннис лучше , чем я.
  • Это наименьших дорогих свитеров в магазине.
  • Этот свитер на дешевле, чем на .
  • Вчера я довольно далеко пробежал, а сегодня пробежал еще дальше .

Проверка грамматики, орфографии и т. Д. В Word для Интернета

Microsoft Editor запускается в Word для Интернета, чтобы проанализировать ваш документ и предложить предложения по орфографическим, грамматическим и стилистическим вопросам.

Если вы вошли в свою учетную запись Microsoft 365, редактор также предлагает предложения по уточнению, например, чтобы сделать предложения более краткими, выбрать более простые слова или написать более формально.

Чтобы использовать редактор, на вкладке Home выберите Editor .

Чтобы сосредоточиться на наиболее важных для вас вопросах, щелкните тип исправления или уточнения, например Grammar или Clarity .Затем используйте стрелки на карточке с предложениями, чтобы пройти по каждой проблеме этого типа.

Выберите предложение, чтобы включить его в документ, или выберите Игнорировать , если вы не хотите использовать предложение.

Примечание: Если вы передумали относительно проблемы, которую проигнорировали, закройте и снова откройте документ и вернитесь в редактор. Редактор снова найдет проблему.

Редактор работает, даже если панель закрыта

Вы можете заметить красные и синие подчеркивания в документе редактора, даже если панель редактора закрыта.Это связано с тем, что редактор всегда работает в фоновом режиме, проверяя орфографию, грамматику и некоторые проблемы со стилем.

Щелкните левой кнопкой мыши подчеркнутый текст, чтобы просмотреть предложение. Используйте трехточечное меню для:

  • Показать или скрыть синонимы, чтобы помочь вам выбрать правильное слово для орфографических ошибок.

  • Показать или скрыть контекст проблемы, если карточка с предложениями закрывает ваш текст.

Примечание. В Word для Интернета можно выбрать параметры для параметров редактора, перейдя в меню Review > Editor menu> Settings . Эти настройки применяются только тогда, когда панель редактора закрыта.

Проверка нескольких языков

Ваш документ может быть написан более чем на одном языке, или вы можете захотеть переключиться на другой язык, чтобы редактор мог его проверить.

Чтобы проверить текст на другом языке, выделите текст и перейдите в меню Review > Editor menu> Set Proofing Language , а затем выберите свой язык.

Editor не проверяет одни и те же проблемы на всех языках. Когда он проверяет более одного языка, редактор сообщает, какие уточнения доступны для каких языков.

Хотя редактор проверяет грамматику и уточнения на более чем 20 языках (и проверяет орфографию на 89), панель редактора теперь доступна только на английском, французском, немецком и испанском языках.Для получения информации о проблемах, которые Редактор проверяет на различных языках, см. Правописание, грамматика и доступность уточнений Редактора по языкам.

Редактор в вашем браузере

Если вы запускаете редактор как расширение в своем браузере при использовании Word в Интернете, предложения для вашего документа поступают из редактора в Word, а не из расширения браузера.

Дополнительные сведения о расширении браузера Editor см. В разделе Проверка грамматики и орфографии с расширением браузера Microsoft Editor.

Как орфография мешает детям учиться

Джонни из Топики не умеет читать, но Янне из Хельсинки без особых усилий заканчивает свои сборники рассказов. Такого несоответствия можно ожидать к настоящему времени, но причина может оказаться неожиданной: вероятно, это гораздо меньше связано со стилем и качеством преподавания, чем с языком. Проще говоря, письменный английский отлично подходит для каламбуров, но ужасен для обучения чтению или письму. Это все равно, что заставить детей со всего мира пройти полосу препятствий для полноценного участия в жизни общества, но при этом требовать, чтобы англоговорящие участники носили повязки на глазах.

Взрослые, которые уже освоили письменный английский, обычно забывают о его многочисленных причудах. Но учтите: в английском языке 205 способов произнести 44 звука. И не только одни и те же звуки могут быть представлены по-разному, но одни и те же буквы или комбинации букв могут также соответствовать разным звукам. Например, «кот», «кенгуру», «хром» и «очередь» начинаются с одного и того же звука, а «восьмерка» и «съел» звучат одинаково. Между тем, «это» не звучит, например, как первый слог «предмета», а «кашель» не рифмуется ни с «достаточно», ни с «до», ни с «отпуском», ни с «сук».«Даже некоторые слова с одинаковым написанием, такие как« tear », могут произноситься по-разному и означать разные вещи.

Маша Белл, вице-председатель English Spelling Society и автор книги« Understanding English Spelling », проанализировала 7000 наиболее распространенных английских слов. слов и обнаружил, что 60 процентов из них имели одну или несколько непредсказуемо употребляемых букв. Никто не знает наверняка, но Орфографическое общество предполагает, что английский может быть самым нерегулярным языком в мире.

Освоение такого языка занимает много времени и требует способностей, которые большинство детей не развивают до средней или последней части начальной школы.Многие дети изо всех сил пытаются оправдать нереалистичные ожидания, разочаровываются и никогда не достигают высокого уровня грамотности – и все это дорого обходится им и обществу. Чтобы исправить эту ситуацию, потенциальные реформаторы выдвинули предлагаемые решения, начиная от упрощения орфографии до, совсем недавно, использования технологии, чтобы полностью ее обойти.

Английское правописание не всегда было таким запутанным; в старом и даже среднеанглийском языке было гораздо больше рифмы и разума. Но разговорный язык эволюционировал, как и все другие языки: изменились произношения и были введены иностранные слова, иногда сохраняющие правила написания своих исходных языков.

Письменный английский также эволюционировал, но в основном не связанным с изменениями разговорного языка, отчасти благодаря махинациям и человеческим ошибкам. Первой английской типографией в 15 веке управляли бельгийцы, которые не знали языка и допускали множество орфографических ошибок (например, «занято» вместо «биси»). И поскольку им платили по строкам, они иногда дополняли слова дополнительными буквами; Например, «друг» стал «другом». В следующем столетии другие жители континентальной Европы, не говорящие по-английски, напечатали первые Библии на английском языке, допустив еще больше ошибок.Хуже того, эти Библии затем копировались, и письменность становилась все более искаженной с каждым последующим воспроизведением. Правописание английского языка превратилось в хаотичный беспорядок, и успешные попытки упростить написание после этого были компенсированы событиями, которые усложнили изучение языка, такими как включение множества альтернативных вариантов написания во влиятельный словарь английского языка Сэмюэля Джонсона. В отличие от многих других языков, английское правописание никогда не изменялось, чтобы устранить несоответствия. В некотором смысле англоговорящие теперь говорят на одном языке, а пишут на другом.

В результате нет систематического способа научиться читать или писать на современном английском языке – люди должны запоминать написание тысяч отдельных слов, сохранять их в своих мысленных базах данных и извлекать их при необходимости. Небольшой процент людей преуспевает в этом навыке, но для большинства детей в англоязычных странах обучение чтению и письму на родном языке является трудоемким и требует много времени.

носителей английского языка теперь говорят на одном языке, а пишут на другом.

Напротив, такие языки, как финский и корейский, имеют очень регулярную систему правописания; правила определяют способ написания слов, за некоторыми исключениями. У финского также есть дополнительный бонус в виде почти однозначного соответствия между звуками и буквами, что означает меньшее количество правил, которые нужно выучить. Поэтому после того, как финские дети выучат алфавит, научиться читать довольно просто – они могут хорошо читать в течение трех месяцев после начала формального обучения, говорит Белл. И не только дети, говорящие по-фински и по-корейски, имеют значительное преимущество: исследование 2003 года показало, что англоговорящим детям обычно требуется около трех лет, чтобы овладеть основами чтения и письма, в то время как их сверстникам в большинстве европейских стран требуется год или меньше.

Более того, англоговорящие дети затем годами продвигаются по разным уровням чтения и осваивают написание все большего и большего числа слов. Это означает, что обычно англоговорящим детям требуется не менее 10 лет, чтобы научиться писать примерно 400 новых слов в год, а поскольку они забывают и вынуждены пересматривать многие варианты написания, которые они выучили ранее, «обучение правописанию – это непросто. нескончаемая рутинная работа », – говорит Белл.

С другой стороны, американского понятия «уровень чтения» не существует даже в странах с более регулярными системами правописания.По словам Белла, в этих странах дети быстрее читают, поскольку узнают все больше и больше слов в лицо, но им не нужно иметь представление о том, как звучит слово, прежде чем они смогут читать. То же самое и с письмом: в таких странах, как Финляндия, дети «продолжают улучшать свой словарный запас и использовать язык, но, поскольку они пишут по правилам, а не запечатлевают правильный вид слов в своем мозгу, они могут произносить любое слово, независимо от того, они встречались с этим раньше или нет », – говорит она. Лицам, говорящим на немного более нерегулярных языках, таких как, например, испанский, все еще требуется небольшая часть времени, чтобы запомнить исключения на этих языках по сравнению с английским.

Это плохая новость для англоязычных обществ, которые составляют около 6 процентов населения мира. Во-первых, количество времени и энергии, потраченных на обучение чтению и письму, можно было бы потратить на изучение других вещей. Затем есть процент неудач – количество людей, которые так и не научились полностью владеть языком. «Одно предсказуемое последствие любой сложной системы – более высокая частота отказов», – пишет Белл на своем веб-сайте. “Навыки, требующие особых способностей, хорошо усваиваются лишь немногими.С настойчивостью многие другие тоже могут стать в них неплохо, но многие из них никогда не выходят за рамки основ, как бы они ни старались ». (Люди с определенными трудностями в обучении борются еще больше: исследование 2001 года показало, что люди с дислексией у них больше проблем с английским, чем с языками с более регулярной орфографией.)

Это не имело бы большого значения, если бы мы говорили о чем-то развлекательном, например о жонглировании. Но грамотность является неотъемлемой частью современного общества.Поэтому школы стараются учить детей читать и писать в младшем и младшем возрасте, но Белл говорит, что это проблематично, потому что дети взрослеют и учатся с очень разной скоростью. Это также позволяет отвлечься от занятий, более подходящих для детей младшего возраста.

Есть и побочный эффект: осуждение за недостаточное владение орфографией может подорвать уверенность детей в себе, заставить людей отказаться от чтения и, в конечном итоге, ограничить их общие академические достижения и перспективы трудоустройства.В конечном счете, примерно каждый пятый носитель английского языка является функционально неграмотным, что означает, что они «не могут читать или писать достаточно хорошо для повседневной потребности в грамотности», – сказал Белл. Может быть, они научились достаточно, чтобы работать с простыми предметами, такими как меню, но им все еще трудно расшифровать длинные отрывки из прозы и прочитать важные документы, такие как медицинские предупреждения.

Существуют и другие социальные и экономические издержки, включая социальное обеспечение бедных взрослых, которым препятствует функциональная неграмотность; три четверти получателей пособий попадают в эту категорию.В целом, по данным Literacy Project Foundation, неграмотность обходится американским налогоплательщикам примерно в 20 миллиардов долларов в год.

Время и энергия, потраченные на обучение чтению и письму, можно было бы потратить на изучение других вещей.

Ряд людей, некоторые из которых объединили свои усилия через такие группы, как Британское общество орфографии и Американский совет по грамотности, годами пытались изменить эту картину. Но различные предложения по реформе орфографии – с такими именами, как Neu Speling или NuEnglish – по разным причинам не реализовались.Люди, которые уже освоили письменный английский, не хотят тратить время на изучение новой орфографической системы, а многие из тех, кто еще не освоил ее, не хотят признавать это, усвоив сообщение о том, что это личная ошибка. Защитники статус-кво также утверждают, что сегодняшний письменный английский стоит сохранить – он похож на старый, продуваемый сквозняком дом, который требует много работы, но имеет историю и характер.

Bell не считает, что нужен полный пересмотр языка; скорее, она говорит, что хорошей «уборки» будет достаточно, чтобы гарантировать, что современная английская литература, насчитывающая почти 600 лет, останется доступной.Она выступает за корректировку 2828 наиболее распространенных слов с неправильным написанием, чтобы привести их в соответствие с основными моделями правописания английского языка.

В некотором смысле упрощенное написание, которое люди используют в текстовых сообщениях («R u going?»), Похоже на специальную, массовую версию реформы орфографии. Но станет ли такое написание стандартным английским, еще неизвестно.

Тем временем инженер и лингвист-прикладник Дмитрий Орлов придумал другое решение: избавиться от необходимости изучать орфографию на английском языке – временно, если не навсегда.По его словам, человеческий мозг настроен запоминать группы звуков речи, а не последовательности букв. Имея это в виду, он разработал свою собственную систему письма, Unspell, которая более или менее является фонетической интерпретацией разговорного английского языка. Он рассматривает слова как последовательности звуков, а не как последовательности букв, поэтому вы получаете то, что видите: как написано слово, так и произносится, и наоборот.

Unspell состоит из 13 основных символов, которые также имеют удлиненную форму; при необходимости они также могут быть украшены голосовым знаком, который выглядит как знак ударения на испанском языке, и / или полосой, которая означает «произнесите звук с более открытым ртом».«Существует один отличный способ представить каждый из 38 английских звуков, которые, по словам Орлова, необходимы для различения значений слов. Функция Unspell доступна в двух версиях, чтобы учесть дополнительные различия между североамериканским и британским английским языком; в техническом документе подробно рассказывается о том, как обрабатываются другие сложности, такие как омонимы и омографы.

Орлов также позаботился о разработке символов таким образом, чтобы, как он надеялся, минимизировать трудности для людей с дислексией и некоторыми другими нарушениями зрения или моторики – нет никаких петель или символов, которые можно было бы использовать. например, перевернутые версии других символов.

Начинающий читатель сможет научиться читать предложения на Unspell всего за несколько месяцев, говорит Орлов. Недавно он опубликовал учебник по Unspell с упражнениями и головоломками и начал выпускать версии классических детских книг, таких как Том Сойер, без текста. В конечном итоге он планирует опубликовать версии всех названий в Project Gutenberg без правописания.

Педагоги, опрошенные о Unspell, сказали, что они заинтригованы, но хотят увидеть, как теория реализуется на практике. Орлов неофициально протестировал его на небольшом количестве людей и в ближайшем будущем планирует опробовать его среди других студентов.Между тем, добавляет он, букварь был продан сотнями копий с тех пор, как он сделал его доступным в конце 2014 года; Насколько он может судить, большинство покупателей составляли родители, чьи дети страдают от чтения.

Он не ожидает, что Unspell полностью заменит «английский по буквам» для большинства людей. Скорее, он рассматривает его как доступную площадку для обучения грамоте для детей, прежде чем они научатся читать и писать на обычном английском языке. (По его словам, это похоже на китайскую и японскую системы письма, которые также требуют большого запоминания и изначально преподаются с использованием упрощенных сценариев.) «Научите [детей] читать простую систему, – говорит он, – а затем они смогут выучить сложную самостоятельно», когда они будут интеллектуально готовы, обычно в возрасте от восьми до 10 лет. Не менее важно, что на этом этапе. , они подошли бы к задаче с точки зрения грамотных, уполномоченных людей, которые «уже бегло говорят по-английски».

Орлов также ожидает, что Unspell поможет родившимся за границей взрослым, изучающим английское произношение, а также взрослым носителям языка, которые испытывают трудности с чтением или письмом.Он планирует представить приложение, которое позволит людям делать снимки текста на английском языке с помощью смартфона и «на лету» «отключать» (другое приложение будет переводить в другом направлении), а также плагин для браузера, который сможет отменить правку на что угодно. в интернете. Чтобы помочь с письмом, люди смогут набирать слова так, как они звучат, а программное обеспечение покажет слово или слова, соответствующие этому звуку, с подсказками относительно значений, если есть какие-либо двусмысленности. В идеальном мире Орлов также рассматривает Unspell, появляющееся на важных знаках вместе с шрифтом Брайля, как требование доступности.

Но он говорит, что технологи всегда должны быть готовы к тому, что их изобретения будут развиваться в неожиданных направлениях. Он уже слышал сообщения об одном таком приложении: дети используют Unspell для обмена записками, которые их учителя не могут расшифровать.

Обучение правописанию для взрослых и учеников зрелого возраста

Не все взрослые обладают идеальными навыками правописания. На самом деле, у многих за эти годы выработались неправильные орфографические привычки. Это тем более актуально сегодня, учитывая характер общения в социальных сетях и мобильных текстовых сообщениях.

Аббревиатуры широко используются для экономии места в сообщениях и цепочках сообщений, и люди игнорируют английские правила использования заглавных букв и пунктуации. Также бывает, что люди, бросившие школу, могли просто упустить возможность научиться писать по буквам.

И хотя орфография – это только один аспект продуктивного знания языка, он, как правило, довольно очевиден. Вы можете не знать полного значения термина, но когда вы ошибаетесь в написании слова, все это замечают.

Орфография не является отражением интеллекта.Тем не менее, чтобы добиться успеха в учебе и работе, по-прежнему необходимо уметь писать. Плохое правописание на английском языке может стать причиной негативной оценки взрослого другими.

Они могут потерять работу или возможности карьерного роста и часто испытывают чувство смущения и заниженной самооценки. Что еще хуже, плохие навыки правописания могут привести к тому, что люди не смогут полностью раскрыть свой потенциал в школе.

Это происходит потому, что, когда молодой взрослый находит определенные слова трудными для написания, он может полагаться на более общий и менее конкретный словарный запас в письменной форме или вообще избегать написания.Это означает, что их письменная работа кажется чрезмерно упрощенной и не отражает истинного объема их словарного запаса.

Хотя может быть неловко практиковать правописание во взрослом возрасте, часто требуется вмешательство, так как это не тот навык, который сам себя исправит. Обучение правописанию включает целенаправленную работу, в том числе упражнения на повторение и транскрипцию, и часто зачисление на курс базового образования для взрослых в местной школе, особенно если одним из факторов являются плохие навыки чтения.

Лица, не умеющие писать по буквам, могут также подписаться на программу проверки правописания для взрослых, которую можно использовать дома на компьютере.Кроме того, они могут помочь себе научиться писать по буквам и одновременно приобрести новый навык.

Так обстоит дело с освоением слепого набора текста с помощью компьютерного курса чтения и орфографии с сенсорным вводом, который с самого начала использует уникальный подход, основанный на словах.

Изучение правописания взрослыми и детьми

Из-за того, что английское правописание очень нерегулярно, дети изучают правописание в школе. Некоторые даже соревнуются в правописании пчелами, которые представляют собой соревнования, охватывающие одни из самых сложных для написания слов на английском языке.

Однако предполагается, что взрослые уже выучили написание большинства слов в школе. Таким образом, когда дело доходит до людей, работающих в специализированных областях, не всегда наблюдается одинаковый уровень внимания к предметной и предметной лексике, что может оказаться проблематичным.

Опять же, вот где сенсорное чтение и заклинание могут помочь, создавая индивидуальные модули, содержащие соответствующий словарь.

Более того, большинство детей учатся писать по буквам одновременно с изучением новых слов.

Это означает, что их навыки правописания развиваются вместе с их словарным запасом. С другой стороны, взрослый с плохими навыками правописания может хорошо знать разговорный язык, но испытывать трудности, когда дело доходит до записи всех слов, которые он или она знает.

Взрослый, изучающий английский как второй язык, может иметь проблемы с правописанием английского языка из-за отсутствия соответствия звуковых букв 1: 1. Другими словами, есть много способов записать один и тот же звук в английском языке.

Орфография еще более усложняется, если в родном языке взрослого учащегося нет определенной буквы или если в нем используется другой алфавит.

Навыки чтения и правописания взаимосвязаны, поскольку правописание является частью звуко-буквенного сопоставления, которое требуется детям для декодирования слов.

Но пока дети учатся в школе, взрослых, возможно, нужно научить правописанию. Это может включать в себя освоение трюков с памятью или понимание того, что повторение и мультисенсорное обучение могут улучшить запоминание.

Особые трудности в обучении

Страх быть разоблаченным из-за неправильных навыков правописания, чтения или письма может удерживать многих взрослых от улучшения своих навыков. Но иногда проблемы с правописанием у взрослых являются результатом невыявленных трудностей в обучении, из-за которых они упускают важные ранние навыки грамотности или бросают школу из-за разочарования в чтении и письме в классе.

Эти люди могут извлечь большую пользу из решения их конкретных трудностей в обучении и стратегий обучения, которые помогут им преодолеть препятствия на пути к грамотности и улучшить орфографию, независимо от их возраста.

Дислексия

Существует несколько типов дислексии, но наиболее частая причина трудностей с написанием коренится в недостаточной фонологической осведомленности. К счастью, есть стратегии, которые могут помочь взрослым с дислексией научиться писать.

Диспраксия

В отличие от дислексии, диспраксия больше связана с планированием и прерыванием мелкой моторики. Однако при написании слов от руки это может вызвать проблемы. Без достаточной практики письма у человека могут развиться плохие навыки правописания.Вот почему научиться печатать – отличное решение для людей с диспраксией, которые хотят улучшить свои навыки.

Дисграфия

Проблемы с письмом могут быть результатом дисграфии – состояния, при котором писать от руки сложно, а иногда и больно. Человек, который избегал письма на протяжении большей части своей жизни, скорее всего, будет иметь недостаточно развитые навыки правописания.

ДОБАВЛЕНИЕ / СДВГ

Людям с СДВ может быть трудно сосредоточиться, а взрослым с СДВГ может быть трудно сидеть на месте.Оба условия затрудняют концентрацию во время письменной деятельности, особенно когда дело доходит до изучения правил правописания. Тактильное обучение посредством слепого набора может быть решением в этих случаях.

Советы по правописанию

  1. Знать правила. Они непоследовательны, есть множество исключений, но все же стоит изучить некоторые правила орфографии на английском языке. Изучая правило, обязательно просмотрите набор распространенных примеров, демонстрирующих его, а также слова, нарушающие правило.Вы можете выбрать страницу с английским текстом и подчеркнуть все слова, соответствующие правилу. Когда вы закончите, ищите исключения, так как вы обязательно найдете несколько!
  2. Изучение слов Дольча. Также называемые контрольными словами, они являются одними из наиболее часто используемых слов в английском языке и составляют до 50% большинства текстов. Они включают в себя предлоги, глаголы, прилагательные, артикли и наречия, и их повторное изучение позволит вам тратить больше времени на изучение правописания более сложных и менее часто используемых слов.
  3. Распознавать префиксы и суффиксы. Когда одна или две буквы появляются в начале слова и последовательно меняют значение, это называется префиксом. Например, повторно означает сделать что-то еще раз, например, re view , re generate , r e iterate . Суффикс, добавляемый в конец слова, действует аналогичным образом. Например, мы используем –s или –es для образования множественного числа существительного. Английский полон общих суффиксов и префиксов, которые вы можете выучить.Ознакомление с ними поможет вам увидеть различные части слова и улучшить написание.
  4. Читайте как можно чаще. В каждом языке есть общие сочетания согласных и гласных. Чем больше вы читаете, тем больше вы будете знакомиться с ними и тем более знакомыми они станут. Легче выучить написание слова, которое вы уже знаете.
  5. Ищите выкройки. Человеческий мозг очень хорошо распознает узоры.Если вы представите ему примеры слов, которые содержат похожую комбинацию букв, вы сможете косвенно изучить правила орфографии английского языка. Попробуйте использовать маркер и подчеркивать слова с одинаковым или похожим написанием на странице газеты. Затем посмотрите, сможете ли вы написать правило, описывающее то, что вы видите. Принятие правил таким образом облегчает их запоминание благодаря дополнительной когнитивной энергии, которую вы тратите, выясняя их самостоятельно.
  6. Используйте мнемонику. Трудно произносимые слова иногда могут поддаваться визуальным или слуховым сигналам, которые создают более прочную память.Например, слово среда может быть сложно написать, потому что d молчит. Чтобы помочь вам правильно произнести это слово, вы можете представить себе невесту и подумать, что она должна выйти замуж , , , среда, .
  7. По буквам вслух. Иногда написание слова вслух может облегчить людям с трудностями в обучении, которым трудно писать буквы на бумаге. Составьте список слов, которые вы хотите выучить, и попрактикуйтесь в их написании, пока вы в душе или по дороге на работу.Произнося их и слушая себя, вы говорите, что каждая буква создает слуховые воспоминания, которые особенно полезны для людей, не обучающихся зрительному восприятию.
  8. Изучите происхождение слов. Английский – германский язык, но он заимствовал лексику из различных других языков, с которыми он контактировал на протяжении многих лет. Например, он содержит множество слов французского происхождения благодаря норманнам, правившим Англией в течение нескольких сотен лет. Когда вы исследуете происхождение слова, вы можете увидеть похожие шаблоны написания для других слов того же происхождения, например, греческих слов, которые, как правило, встречаются в лексике, связанной с наукой.
  9. Используйте мультисенсорный подход. Когда вы изучаете написание слова и кодируете его физически, как в случае с рукописным вводом или слепым набором текста, вы добавляете мышечную память в этот процесс. Чем больше вы создаете слово, тем больше вероятность того, что вы автоматизируете его написание.

Слепой набор и проверка орфографии

Курс слепого набора часто является отличной идеей для взрослых, которые хотят улучшить свои навыки. Это потому, что набор текста влечет за собой многократное воспроизведение слов на клавиатуре, когда они видят и слышат, как они читаются вслух.Этот процесс кодирует орфографические шаблоны мультисенсорным способом и улучшает распознавание общих буквенных комбинаций.

Узнать больше

Кроме того, слепой набор текста – это навык, который открывает возможности для работы и учебы и может быть освоен всего за несколько недель. Когда курс является модульным, как, например, в случае с программой чтения и орфографии сенсорным вводом, он также удобен для занятого взрослого, который совмещает работу и семейную жизнь и должен перемещаться по материалу в своем собственном темпе.Самое приятное то, что это способ улучшить навыки правописания, не привлекая внимания к способностям, поскольку основное внимание уделяется вводу текста.

Есть ли у вас какие-нибудь советы для взрослых, которые учатся писать? Присоединяйтесь к обсуждению в комментариях!

Меньше или меньше? (Разница)

Наша история

Меньше или меньше?

Когда следует использовать «меньше» и «меньше»?
Понятно? Сделайте быстрый тест.

Обзор видео

Вот минутное видео, в котором резюмируется этот урок на тему «меньше» и «меньше»:

Щелкните два правильных предложения


(Интерактивная игра)

Готовимся…

Готовимся …

Подготовка …

Подготовка …

Подготовка …

Подготовка …

Подготовка …

Подготовка …

Подготовка …

Подготовка …

Подробнее о «Меньше» и «Меньше»

Писатели часто неправильно используют слова «меньше» и «меньше». Слово «меньше» следует использовать для одного элемента (например, меньше времени, меньше места).Слово «меньше» следует использовать, когда есть более одного элемента (например, меньше мышей, меньше пропусков).

Эти правила означают, что «меньше» всегда используется с неисчисляемыми существительными (поскольку они не могут иметь множественное число), а «меньше» всегда используется с исчисляемыми существительными.

Однако есть странность. Термин «меньше чем» используется с числами перед временем и размерами, например, меньше четырех миль. Подробнее об этом ниже.

Примеры предложений с «Меньше» и «Меньше»

«Меньше чем» со временем и измерениями

Используйте «меньше чем» (в отличие от «меньше чем») с числами, используемыми для времени и измерений.Например:
  • Безработный? Вы можете получить отличную работу менее чем за три месяца. Как? Научитесь программировать. (Автор Такер Макс)
  • Бабочки не могут летать, если температура их тела ниже 86 градусов.
Надо сказать, что эти правила размываются. Мало кто будет оспаривать использование слова «меньше» с числом, которое не дает количественной оценки даты или измерения. А пока, особенно в письменной работе, придерживайтесь правил.

Общие термины с «Меньше» и «Меньше»

Вот несколько общих терминов для слов «меньше» и «меньше»:

Меньше

  • меньше людей
  • меньше миль
  • меньше часов
  • калорий меньше
Менее
  • без персонала
  • меньше времени
  • меньше спешки

Принять решение «Меньше / меньше»

Многие считают, что решение «меньше / меньше» устарело.Это, конечно, плохо соблюдается некоторыми крупными компаниями с хорошей репутацией. Например:


меньше сумок (меньше сумок)
(Wall * Mart плакат)


меньше салфеток (меньше салфеток)
(Салфетка Starbucks)


меньше выбросов (меньше выбросов)
(Объявление Volvo)

Grammar Monster советует вам не рисковать и принять решение. Неправильное использование слова «меньше» может раздражать ваших читателей. Правильное использование слова «меньше» продемонстрирует ваши грамматические навыки.

Помогите нам улучшить грамматику Monster
  • Вы не согласны с чем-то на этой странице?
  • Вы заметили опечатку?
Сообщите нам, используя эту форму.

См. Также

неблагоприятный или противный? повлиять или повлиять? Мисс, мисс или миссис? месть или месть? голый или медведь? дополнение или комплимент? зависимый или зависимый? сдержанный или незаметный? бескорыстный или незаинтересованный? е.грамм. или т.е.? зависть или ревность? подразумевать или предполагать? это или это? материал или матчасть? ядовитый или ядовитый? практика или практика? принципал или принцип? арендатор или догмат? кто или чей? Существительные собирательные в единственном или множественном числе? Единственное число или глаголы во множественном числе после предложных фраз (например, коробка с магнитофонами) Список слов, которые легко спутать

ИСПРАВЛЕНИЕ ПРОПИСАНИЯ В ПОИСКОВОМ ПОИСКЕ

Inf Retr Boston. Авторская рукопись; доступно в PMC 2007 13 декабря.

Опубликован в окончательной редакции как:

PMCID: PMC2137159

NIHMSID: NIHMS22493

Национальный центр биотехнологической информации, Национальная медицинская библиотека, Национальные институты здравоохранения, Бетесда, Мэриленд, США

Для корреспонденции: Джон Уилбур, Национальная медицинская библиотека, корп. 38А, ком. 6S606, 8600 Rockville Pike, Bethesda, MD 20894, США. Телефон 301-435-5926. Факс 301-480-2288. Электронная почта [email protected] См. Другие статьи в PMC, в которых цитируется опубликованная статья.

Abstract

Известно, что пользователи поисковых систем в Интернете часто вводят запросы с ошибками в одном или нескольких поисковых запросах. Некоторые поисковые системы предлагают исправить слова с ошибками, но, насколько нам известно, используемые методы являются частными и неопубликованными. Здесь мы описываем разработанную нами методологию исправления орфографии для поисковой системы PubMed. Наш подход основан на модели зашумленного канала для исправления орфографии и использует статистику, собранную из пользовательских журналов, для оценки вероятности различных типов правок, которые приводят к орфографическим ошибкам.Обсуждаются уникальные проблемы, возникающие при исправлении запросов поисковых систем, и описываются наши решения.

Ключевые слова: модель канала с шумом , журналы пользовательских запросов, обнаружение ошибок, не связанных со словом, trie, расстояние редактирования

ВВЕДЕНИЕ

В ряде исследований запросов поисковых систем наблюдается высокая частота орфографических ошибок (Nordlie 1999; Spink, Wolfram et al. 2001; Ван, Берри и др. 2003). Ван и др. (2003) сообщают о 26% ошибок в словах на академических сайтах.Кажется возможным, что на общедоступном сайте процент орфографических ошибок может быть еще выше. Нордли (1999) отмечает, что две трети первоначальных запросов не удовлетворяют своей цели, а исследование NPD (2000) обнаруживает, что 77% случаев изначально неудачный поиск модифицируется и повторяется на том же сайте. Эти результаты предполагают потенциальную выгоду от выполнения некоторой коррекции запроса для пользователя. Правописание – очевидный кандидат на эту роль. Поэтому мы взяли на себя обязательство изучить, как такое средство можно создать для поисковой системы PubMed.PubMed, служба Национальной медицинской библиотеки, обеспечивает доступ к более чем 16 миллионам ссылок в MEDLINE с 1950 года и дополнительным журналам по естественным наукам (McEntyre and Lipman 2001).

Исправление орфографии было предметом исследований в течение многих лет, и проблема была разделена на три подзадачи (Kukich 1992; Jurafsky and Martin 2000) в порядке возрастания сложности: 1) обнаружение несловесных ошибок; 2) исправление ошибок отдельных слов; и 3) контекстно-зависимое исправление ошибок.Каждая из этих задач имеет отношение к проблеме исправления орфографии в поисковой системе, и каждая задача подлежит некоторым особым соображениям в этой настройке. Обнаружение несловесных ошибок обычно выполняется путем сравнения строки со списком допустимых слов в каком-либо словаре. В настройках поисковой системы словарь, потенциально доступный для поиска, служит целям словаря. Для целей этой статьи позвольте нам называть этот словарь словарем базы данных. Если термин отсутствует в базе данных, то для практических целей поиска данных можно предположить, что он написан с ошибкой.Если термин просто встречается в базе данных с низкой частотой, он все еще может иметь высокую вероятность неправильного написания, и мы можем принести пользу пользователю, предложив более частый термин в качестве исправления. Если запрос представляет собой отдельное слово, мы имеем дело со случаем исправления ошибок отдельных слов. С другой стороны, если запрос состоит из двух или более слов, существует вероятность, что мы имеем дело с полезным контекстом, который может помочь процессу исправления. Однако запросы обычно состоят не более чем из двух или трех слов (Silverstein and Henzinger, 1999), поэтому контекст будет в лучшем случае небольшим, а в худшем – бесполезным.В этой ситуации необходимо разработать стратегию, позволяющую использовать контекст, в котором это полезно, и игнорировать его в противном случае. Типичный и практический подход к использованию контекста при коррекции орфографии – это применение языковой модели к рассматриваемому жанру текста и ее использование для улучшения предсказания исправленной строки (Church and Gale 1991; Kukich 1992; Brill and Moore 2000). ; Джурафски и Мартин 2000). Наш подход похож на языковую модель в том, что, когда нам предлагают запрос, состоящий из более чем одного слова, мы пытаемся исправить фразу, которая распознается механизмом запросов, и частота этой фразы вступает в игру в процессе.

Наш основной подход – это форма модели зашумленного канала для исправления орфографии, которая очень похожа на метод, разработанный Черчем и Гейлом (1991). Основное отличие состоит в том, что мы включили букву контекста по обе стороны от предполагаемой поправки при вычислении ее вероятности. В этом мы движемся в направлении, выбранном Брилл и Мур (2000), только мы не допускаем столько контекста, сколько их подход. Модель зашумленного канала пытается оценить выражение

, где s представляет строку, которую необходимо исправить, а w – потенциальную коррекцию.В нашей реализации w пробегает словарь базы данных поисковой машины, а P ( w ) представляет вероятность того, что пользователь намеревался искать, используя слово w . Мы следуем Чёрчу и Гейлу (1991) в оценке P ( s | w ) как произведения вероятностей редактирования, необходимых для преобразования w в s . Одной из трудностей при построении нашего алгоритма исправления было получение полезных контекстно-зависимых оценок этих вероятностей редактирования.Наше решение предполагает сбор статистики из журналов поисковых систем.

Документ разбит на следующие разделы:

  • Сбор статистики редактирования – Как мы извлекаем вероятности редактирования из журналов запросов пользователей PubMed.

  • Основные допущения метода – Как мы интерпретируем модель зашумленного канала в настройке PubMed.

  • Алгоритм: основные функции – Четыре основные функции редактирования, которые применяются к строкам в зависимости от их характеристик.

  • Алгоритм – Как основные функции редактирования объединяются для обработки строк из одного, двух или более токенов.

  • Очистка данных PubMed – Как мы сокращаем неправильное написание в словаре поисковой системы PubMed с помощью статистического тестирования.

  • Проблемы производительности – Рисунки, описывающие текущую реализацию алгоритма и его производительность.

  • Обсуждение – Успехи и неудачи алгоритма и способы их улучшения.

  • Выводы.

Прежде чем идти дальше, несколько слов о терминологии. Под терминами «слово» или «токен» мы будем понимать то же самое, а именно, строку печатаемых символов ASCII, не включая пробелы внутри строки. Термины «слово» или «токен» обычно используются как синонимы (Jurafsky and Martin 2000). Таким образом, «дом» – это слово или жетон, как и «ххххх», хотя мы обычно не можем думать о «ххххх» как о слове. Мы также будем использовать слова «термин» и «фраза» как синонимы для обозначения строки, состоящей из одного или нескольких слов или лексем, разделенных пробелом.Опять же, это обычное употребление.

СБОР СТАТИСТИКИ РЕДАКТИРОВАНИЯ

Хотя исправление орфографии не было в центре внимания, ряд исследователей изучили методы анализа журналов запросов пользователей для поисковых систем с целью внесения полезных предложений по улучшению запросов пользователей. Биферман и Бергер (Beeferman and Berger, 2000) кластеризуют запросы, основанные на данных «по щелчку», которые показывают, какие записи фактически выбирает пользователь. Когда разные запросы приводят к щелчку одной и той же записи, это учитывает сходство между запросами.Вен и др. (2002) используют данные «переход по клику», а также показатель лексического сходства двух запросов для одной и той же цели. Такие методы можно использовать, чтобы предложить термины из одного запроса, чтобы дополнить запрос, который был найден рядом с ним в «пространстве для щелчка». Лерой и др. (2003) используют текст «нажал на», а не запись «нажали», и анализируйте слова в тексте, на который щелкнули, в качестве источника для дополнения запросов пользователей. Хуанг и др. (2003) анализируют пары терминов, которые одновременно встречаются в сеансе одного пользователя в веб-журналах, чтобы выявить взаимосвязи, которые могут использоваться для предложения новых терминов, которые можно добавить к запросу пользователя.Хотя ни одно из этих исследований не ставит своей целью исправление орфографии, все же есть некоторые общие черты.

Мы анализируем журнал запросов, чтобы обнаруживать отдельные пользовательские сеансы, содержащие пары терминов, которые мы определяем как термин запроса, и его исправление. Одиночный сеанс пользователя определяется одним IP-адресом и термином запроса, и его исправление должно происходить в пределах 300 секунд друг от друга. Порог в 300 секунд оказался полезным (Silverstein and Henzinger 1999; Huang, Chien et al. 2003). Данные показывают, что несколько пар запросов, разделенных более чем 300 секундами, поступают из одного сеанса (Huang, Chien et al.2003). Мы собираем эти пары терминов запроса, чтобы использовать их не в качестве прямого руководства по исправлению запроса, а для получения статистики изменений, приводящих к ошибкам. Метод определения таких пар зависит не только от одного и того же IP-адреса и близкого параллелизма во времени, но и от степени близости между словами запроса. Для этой цели мы используем расстояние редактирования в одно, два или максимум три редактирования. Мы также настаиваем на том, что если существует более одного редактирования, то разные изменения выполняются, разделенные по крайней мере одним символом, чтобы можно было определить надлежащий контекст для каждого редактирования, и само редактирование не подвергалось сомнению.Мы оправдываем это, основываясь на первоначальном наблюдении Дамерау (1964), что 80% орфографических ошибок возникают в результате одного редактирования (удаления, вставки, замены или транспозиции). Мы не утверждаем, что более сложные операции редактирования не выполняются, но мы пытаемся приблизить их к комбинации отдельных изменений.

Наше утверждение о том, что собранные нами данные представляют собой орфографические ошибки, подтверждается тем фактом, что если кто-то находит термин в журналах запросов, которого нет в базе данных PubMed, и просматривает термины, поступающие из запросов того же пользователя, предшествующих или следующих во времени и близко в лексическом пространстве, гораздо больше шансов найти такие термины, следующие, чем предшествующие во времени.Это видно из того, где очевидно, что, учитывая термин запроса, отсутствующий в базе данных PubMed, гораздо больше шансов найти потенциальное исправление, происходящее после термина, чем до него. Мы считаем, что единственное разумное объяснение этого наблюдения состоит в том, что эта асимметрия указывает на то, что люди постоянно исправляют ошибочные запросы, чтобы получить совпадения в базе данных. Тот факт, что некоторые правильные термины появляются перед их ошибочными аналогами, мы объясняем тем фактом, что люди нередко набирают термин правильно, а затем вынуждены повторять его и могут сделать типографскую ошибку со второй попытки, которой не было при первом наборе.Тем не менее мы предпочитаем доверять исправлению, которое следует за термином запроса. полностью основан на словах запроса, которых нет в базе данных PubMed. Однако есть убедительные доказательства того, что люди исправляют не только термины, которых нет в PubMed, но также исправляют термины, которые редко встречаются в данных PubMed. Это показано в. Здесь мы видим, что в частотном диапазоне от 1 до 100 терминов запроса, по крайней мере, на порядок более вероятно, что они будут сопровождаться высокочастотным лексически близким термином, чем им будет предшествовать такой термин.Опять же, асимметрия свидетельствует о родстве таких пар терминов запроса и о том, что второй член в паре присутствует как поправка для первого члена.

Сплошная кривая представляет количество пар терминов запроса, в которых термин, содержащийся в базе данных PubMed, следует за термином, которого нет в базе данных. Пунктирная кривая представляет те же данные, когда термин, содержащийся в PubMed, предшествует термину, которого нет в базе данных. Во всех случаях условия находятся в пределах трех редакций друг от друга.

Число терминов запроса с разной частотой в данных PubMed, за которыми следует лексически близкий термин, в десять раз превышающий частоту (сплошная кривая), или которому предшествует близкий термин, в десять раз превышающий частоту (пунктирная кривая).

Наши данные являются результатом сбора таких изменений, которые мы описали в файлах журнала PubMed за 63 дня. Мы собрали около 1 миллиона правок, как указано в. Все термины с множественным редактированием должны были содержать как минимум в четыре раза больше символов, чем редактируемые, чтобы гарантировать, что правки действительно будут исправлениями.Это в дополнение к условию, что исправления будут как минимум в десять раз чаще использоваться в PubMed, чем сроки, которые они, как предполагается, исправляют.

Таблица 1

Ошибки, собранные за 63 дня журналов пользователей PubMed.

Количество ошибочных слов Общее количество правок
1 ошибка редактирования 769128 (87%) 769128
2 ошибки редактирования 105860 (12%) 211720
3 ошибки редактирования 4932 (1%) 14796
Всего 879920 995644

Собранные данные были собраны с одной буквой контекста с обеих сторон редактирования.И начало, и конец слова были отмечены специальными символами, чтобы они также могли функционировать как контекст и делать процесс исправления специфичным для начала и конца слова, соответственно. Можно заметить, что наши данные показывают, что 87% всех слов с ошибками являются результатом единственной ошибки редактирования. Это несколько выше, чем показатель 80%, наблюдаемый Дамерау (1964), но согласуется с нашим требованием, чтобы происходило несколько ошибочных правок с разделением их контекстной буквой.Это, естественно, уменьшает количество замеченных ошибок более высокого порядка.

ОСНОВНЫЕ ПРЕДПОЛОЖЕНИЯ МЕТОДА

Чтобы оценить выражение (1), мы должны не только иметь информацию о вероятности редактирования. Мы также должны уметь оценивать априорные вероятности P ( w ). Это вероятности того, что различные слова, появляющиеся в базе данных PubMed, будут использоваться пользователями как термины запроса. Мы изучили термины, встречающиеся в базе данных PubMed, и обнаружили, что они используются в качестве терминов запроса прямо пропорционально их частоте в базе данных.Это показано там, где прямая линия указывает на прямую пропорциональность. Линия несколько зашумлена на высоких частотах из-за разреженности данных, а на низких частотах она немного изгибается, указывая на то, что на самых низких частотах в запросах используется меньше терминов. Мы ожидаем этого из-за того, что миллионы очень низкочастотных терминов, как правило, неизвестны большинству пользователей. Таким образом, мы можем использовать частоту термина в базе данных в качестве суррогата вероятности того, что этот термин будет использоваться в качестве термина запроса, вводимого пользователем, при условии, что мы дисконтируем значение при низких частотах.Фактически, наши скидки на низких частотах более резкие, чем изгиб кривой, потому что на этих низких частотах большая часть того, что вводят пользователи, является неправильным написанием, а не тем, что они намеревались. Мы дисконтируем по формуле

Условия запроса разделяются по логарифму (частоте запросов) по оси x, а среднее значение логарифма частоты MEDLINE по каждому бину откладывается по оси ординат.

f = f ∗ 10 0,075 ∗ ( f -80) , f <80

(2)

, где f – исходная частота базы данных и ф ′ дисконтированная частота.Таким образом, наше первое базовое предположение состоит в том, что мы можем позволить частоте использования термина в базе данных стоять вместо P ( w ) в (1) при условии, что мы применяем дисконтирование, данное в (2).

Наше второе базовое предположение состоит в том, что люди чаще делают орфографические ошибки при составлении запросов, чем при составлении текста для базы данных PubMed. Это подтверждается данными, приведенными во введении, о частоте орфографических ошибок в запросах поисковых систем (до 26%) по сравнению с данными о частоте орфографических ошибок в печатном тексте, составляющей менее 5% (Kukich 1992).Печатный текст, такой как в PubMed, обычно подлежит редакционному процессу, и во многих случаях также применяется автоматическая проверка орфографии. Кроме того, печатный текст часто является результатом усилий нескольких авторов, и по этой причине можно ожидать, что в нем будет меньше орфографических ошибок. Таким образом, мы считаем, что наше предположение небезосновательно. Мы используем это предположение, чтобы решить, когда исправить слово, которое уже есть в базе данных. Предположим, что s – это слово, которое появляется в базе данных, а w – это слово, определенное путем вычисления выражения (1) для s .Затем, чтобы решить, следует ли предлагать w в качестве поправки для s , мы спрашиваем, выполняется ли неравенство

. Если s – это в первую очередь неправильное написание w , мы можем ожидать равенства в (3) при условии, что P ( s | w ) оценивается на основе количества ошибок, преобладающих в базе данных PubMed. В том случае, когда мы оцениваем P ( s | w ) на основе более высоких частот ошибок, полученных из пользовательских журналов, мы ожидаем, что будет выполнено неравенство (3).Если это так, мы принимаем это как некоторое доказательство того, что s , вероятно, является неправильным написанием w . Конечно, одно только неравенство (3) дает обоснование для предложения w в качестве поправки для s , потому что левая часть неравенства – это вероятность того, что пользователь намеревается использовать s в качестве условия запроса, а правая сторона представляет собой вероятность того, что пользователь имел бы в виду w в качестве термина запроса, но, введя ошибки, произвел бы s .При фактическом применении (3) мы заменяем частоты базы данных с и w на вероятности P ( с ) и P ( w ) и используем дисконтирование в (2 ) где необходимо.

Чтобы применить формулы (1) и (3), мы также должны оценить вероятность, P ( s | w ), что при попытке получить w вводятся ошибки, которые фактически дают s Обычно мы следуем методу «выравнивания с максимальной вероятностью» или «минимального расстояния редактирования», как описано у Jurafsky and Martin (2000).Мы оцениваем P ( s | w ) как произведение вероятностей последовательности редактирования, которая даст s из w . Поскольку часто существует более одной такой последовательности, мы берем последовательность, которая дает наивысшую вероятность, в качестве нашей оценки для P ( s | w ).

АЛГОРИТМ: ОСНОВНЫЕ ФУНКЦИИ

Здесь мы начинаем описание алгоритма с описания того, как исправляется орфография на самом базовом уровне.Наша цель – предложить исправление только в том случае, если мы можем сделать это, будучи уверенными в правильности нашего предложения, по крайней мере, в 70% случаев. Это требование в некоторой степени влияет на построение основных функций. Предположим, что s – строка, которую нужно исправить.

OneEdit

Мы оцениваем P ( s ) и P ( s | w ) P ( w ) по всем w в базе данных, которые находятся в пределах одного редактирования . с .Это делается путем использования частот из базы данных (с соответствующим дисконтированием) и редактирования вероятностей, а затем нормализации полученных оценочных значений для суммирования к единице. Пусть c обозначает член с наибольшей оценочной вероятностью, а P c обозначает эту вероятность. Если P c > 0,7 или P ( s ) <0,05, примите c в качестве поправки. В противном случае не предлагайте никаких исправлений. Обоснование предложения c в качестве поправки, когда P ( s ) <0.05 заключается в том, что в этом случае мы можем отклонить на уровне 5% гипотезу о том, что s – это то, что намеревался сделать пользователь, и мы также должны были дать свое лучшее предположение в качестве поправки. Таким образом, наша стратегия состоит в том, чтобы предложить исправление, если мы совершенно уверены, что мы правы, а также когда мы совершенно уверены, что входная строка не предназначалась, даже если в последнем случае мы можем быть гораздо менее уверены в правильности исправления.

TwoEdit

Мы оцениваем P ( s | w ) P ( w ) по всем w в базе данных, которые находятся на расстоянии двух правок от s .Если такие строки есть, мы возвращаем наиболее вероятную в качестве принятой поправки. В противном случае исправление не предлагается.

RecursiveEdit

Если бы мы попытались произвести исправление с двумя правками и потерпели неудачу, мы бы произвели выравнивание начального сегмента s с начальным сегментом слова w в базе данных, включая два редактирования. Мы можем оценить такие попытки по тому, сколько букв в s они используют. Мы обозначим м как максимальную оценку, полученную при любом таком частичном выравнивании.Затем мы запрашиваем ту частичную трассу, которая получает рейтинг м , а также имеет самую высокую вероятность среди всех таких частичных трасс с рейтингом м . Мы называем это лучшим частичным выравниванием. Затем мы можем повторять эту процедуру каждый раз, начиная с наилучшего частичного выравнивания, полученного на предыдущей итерации. Если мы потребуем от алгоритма продвинуться по строке s на каждом этапе и прервать процесс, если он потерпит неудачу в какой-либо момент, мы тогда получим алгоритм, который либо произведет полное выравнивание, либо закончится без какого-либо выравнивания с помощью только несколько итераций.Если алгоритм завершается предложением, мы требуем, чтобы результат прошел проверку на сходство с s , что мы называем проверкой работоспособности (см. Ниже). Если это так, это считается исправлением. В противном случае исправление не предлагается.

StringSplit

Мы пытаемся ввести пробел в некоторой точке строки, чтобы преобразовать ее в два слова. Если оба результирующих слова найдены в базе данных, они становятся кандидатом разбиения для строки с рейтингом, равным наименьшей из частот базы данных двух слов, созданных разбиением.Если есть разделение, в качестве поправки может быть предложено разделение с наивысшим рейтингом. Обычно требуется, чтобы рейтинг был выше некоторого нижнего предела, чтобы быть принятым. Если это так, то разделение предлагается в качестве исправления. В противном случае исправление не предлагается.

Если слово, такое как «фосфатаза», разделено из-за ошибочного введения пробела внутри, как в случае «фосфатаза», это можно исправить с помощью одной операции редактирования, которая удаляет лишний пробел. Таким образом, не требуется никакого специального механизма для исправления, кроме функций OneEdit, TwoEdit или RecursiveEdit, описанных выше.Однако, если два слова случайно совпадают, как в «venombite», тогда операций редактирования может оказаться недостаточно, потому что строка «venom bite» не встречается среди строк, в которых выполняется поиск исправления. Именно по этой причине необходим StringSplit.

В дополнение к только что приведенным базовым функциям мы также используем два типа проверок, чтобы убедиться, что строка не была слишком сильно изменена в процессе исправления. Мы называем эти проверки здравомыслия.

Sanity1

Эта проверка сравнивает первые три символа s и предполагаемое исправление.Если при сравнении символов в позиции 0, символов в позиции 1 и символов в позиции 2 между строками есть не более одного различия, то исправление проходит этот тест.

Sanity2

Этот тест является более обширным тестом, в котором очко засчитывается, если символ заменяется, очко засчитывается, если один или два символа в строке либо вставлены, либо удалены, но транспонированиям назначается нулевая стоимость. Затем сравнивают строку s и предполагаемое исправление, сравнивая первое слово в каждом, второе слово в каждом и т. Д.Тест считается пройденным, если в любом таком сравнении можно увидеть стоимость преобразования, не превышающую двух баллов для каждой сравниваемой пары слов.

Оценка успешных областей

Хотя функций редактирования OneEdit, TwoEdit и RecursiveEdit достаточно для исправления строк, они не одинаково успешны для строк любой длины. Как правило, чем короче строка, тем труднее ее исправить. На это есть две причины. Во-первых, более короткая строка имеет менее полезный контекст, окружающий ошибки, по которым можно идентифицировать предполагаемую строку.Во-вторых, пространство всех струн гораздо более плотно заселено в области более коротких струн (Кукич, 1992). Эта проблема густонаселенного пространства явно является проблемой в базе данных PubMed, где очень много строк появляется в виде сокращений. Из-за этой проблемы мы исследовали производительность функций редактирования с помощью моделирования. Отдельные слова выбирались случайным образом из базы данных с вероятностью, пропорциональной их частоте в базе данных. После того, как слово было выбрано, одно, два или три изменения вносились случайным образом в слово с использованием контекстно-зависимых вероятностей редактирования, которые мы собрали из пользовательских журналов.Затем была предпринята попытка исправить орфографическую ошибку с помощью функций редактирования. Мы скомпилировали данные в таблицы, дающие подробные результаты для разного количества правок и в зависимости от длины строки, которую были даны алгоритмы для исправления. Результаты содержатся в -. Данные показывают, что очень короткие строки очень сложно исправить. Основываясь на этих данных, мы не пытаемся исправить отдельные слова длиной менее пяти или шести. Точно так же предполагается, что для надежного исправления двух правок нужна строка длиной примерно девять, и таким же образом предполагается, что строка длиной примерно двенадцать необходима для надежного исправления трех правок.Подобные данные могут быть смоделированы для двухсловных фраз. Мы использовали эти данные при построении нашего алгоритма.

Таблица 2

Для разных длин слов показано количество слов, отобранных и отредактированных для получения орфографических ошибок, а также процент таких слов, которые функции пытались исправить, и процент успеха, который они имели, когда было предложено исправление.

Длина 908 6701
Одиночный токен – одиночное редактирование
Всего слов % попыток % успеха
3 1786 99 24
4 73 45
5 10827 88 55
6 14823 86 72
7 13511 8860
8 12330 98 90

Таблица 3

Та же процедура, что и в предыдущей таблице, за исключением того, что здесь вводятся две правки в каждое слово.

Длина
Один токен – два редактирования
Всего слов % попыток % успеха
6 14408 78 13
7 13460 61 25
8 11938 96 65
9 10124 96 80
10 7974
11 5921 96 90

Таблица 4

Та же процедура, что и в предыдущей таблице, за исключением того, что здесь вводятся три изменения в каждое слово.

Длина
Одиночный токен – три редактирования
Всего ошибок % попыток % успеха
9 9485 84 39
10 7405 70 52
11 5496 69 67
12 4000 62 71
13 2835 59 900
14 1964 57 80

АЛГОРИТМ

Дерево – это древовидная структура, которая может содержать множество отдельных строк, и для любой новой строки дерево позволяет очень эффективно проверить, действительно ли это новая строка – одна из тех, что хранятся в дереве (Sedgewick, 1998).Чтобы эффективно искать лучшую коррекцию для строки запроса s , как требуется в выражении (1), мы используем структуру trie (Кукич, 1992; Брилл и Мур, 2000). Все термины базы данных для поиска загружаются в это дерево. Затем, как указали Холл и Доулинг (1980), доступны два основных подхода. Можно сгенерировать все строки, которые близки (скажем, в пределах одного или двух редактирований) к строке s , и посмотреть, какие из них находятся в дереве. Или можно попытаться выполнить поиск в дереве напрямую со строкой s , внося необходимые исправления для получения совпадения.Проблема с генерацией всех строк, близких к s в пространстве редактирования, заключается в том, что одна генерирует много бессмысленных строк, которые не представляют интереса, и затем необходимо искать каждую из них, чтобы увидеть, есть ли она в базе данных. Мы предпочитаем прямой поиск дерева из-за его эффективности. Например, если кто-то отслеживает совпадение первых k букв из s в дереве и не может расширить это совпадение до k + 1-й буквы, то можно сделать вывод, что в первых должна быть ошибка. k + 1 символ из s .Кроме того, необязательно проверять все возможные изменения, а только те, которые расширят совпадение в дереве. Это приводит к значительной экономии времени без упущения любой возможной совпадающей строки в дереве.

Поскольку мы должны исправлять ошибки во фразах переменной длины, мы фактически используем в алгоритме три разных попытки. Сначала мы создаем дерево Tr123 всех фраз, состоящих из одного, двух или трех токенов, которые распознаются поисковой системой. Если строка запроса s состоит из одного или двух токенов, мы ищем исправление в Tr123.Это позволяет исправлению иметь больше или меньше токенов, чем запрос. Например, запрос «апоптоз», ошибочно разбитый на два токена, даст исправление «апоптоз», состоящее из одного токена, а запрос «лимфома bcell», ошибочно выполненный вместе для образования двух токенов, даст исправление на три токена «b клеточная лимфома ». Если строка запроса s состоит из трех или более токенов, мы ищем фразу s ′, состоящую из ее первых двух токенов в дереве Tr2p. Tr2p – это дерево, содержащее все одну или две токен-фразы, которые являются начальными одним или двумя токенами фраз из трех или более токенов и распознаются поисковой системой.Если мы находим совпадение или даже исправление, мы пытаемся расширить это исправление в дереве Tr3 +, которое состоит из всех фраз, состоящих из трех или более токенов, распознаваемых поисковой системой. Например, система не вносит поправок в запрос «doman» (имя человека), но, учитывая запрос «dna binding doman», она сначала проверяет, что «dna binding» происходит в Tr2p, а затем расширяет это на исправление «dna binding domain» »В Tr3 +. Таким образом, мы избегаем попытки очень длинного совпадения, которое было бы дорогостоящим по времени, если у нас нет некоторых доказательств того, что длинное совпадение возможно на основе начальной части s .Если начальное совпадение s ′ в Tr2p не удается, мы ищем совпадение s ′ в Tr123 и т. Д. Таким образом, алгоритм организован вокруг количества токенов, содержащихся в строке поиска s .

Мы переходим к присвоению псевдокода для различных случаев или количества токенов в строке. Далее мы будем обозначать l ( s ) длину в символах, а f ( s ) обозначать частоту базы данных для любой строки s .Любая строка, не входящая в словарь поисковой системы, считается имеющей нулевую частоту в базе данных. Обратите внимание, что мы используем слово RETURN, чтобы сигнализировать об окончании вычислений, когда модуль либо возвращает предлагаемую коррекцию, либо нет, но в любом случае все строки, следующие за RETURN до конца модуля, игнорируются. Мы также использовали слово «этап» для обозначения различных частей алгоритма для удобства чтения, и есть некоторая корреляция в расходах на вычисления с более высокими номерами этапов, коррелирующими с более дорогостоящими вычислениями.

SingleTokenModule {

Stage 1

IF l ( s ) <5 ТОГДА ВОЗВРАЩЕНИЕ без корректировки.

IF f ( s )> 1000 ТОГДА ВОЗВРАТ без коррекции.

ELSE CALL OneEdit на с .

Этап 2

IF R = 0 и л ( с ) ≥ 9 ТО

  • CALL StringSplit

  • CALL TwoEdit на с .

ELSE IF R = 1 и л ( c ) ≥ 5 ЗАТЕМ ПОЗВОНИТЕ OneEdit для c .

Этап 3

IF R = 1

IF R = 2

Этап 4

IF л ( с ) ≥ 12 THEN CALL RecursiveEdit для с .

CALL StringSplit.

ВОЗВРАТ без исправлений.

}

В качестве примера предположим, что строка запроса – «ribonflaven». Затем, поскольку эта строка имеет длину больше 5 и не встречается в базе данных, SingleTokenModule попытается исправить.На этапе 1 вызывается OneEdit и производит коррекцию «рибонфлавин», которая встречается в базе данных 1 раз. На этапе 2 другой OneEdit пробует исправить и производит «рибофлавин», который встречается в базе данных 7380 раз. На этапе 3 из-за его высокой частоты в базе данных «рибофлавин» возвращается в качестве поправки. Этот пример иллюстрирует два руководящих принципа при разработке алгоритма проверки орфографии. Во-первых, небольшие изменения в строке запроса всегда предпочтительнее больших изменений.Во-вторых, изменения, которые производят слово, обнаруженное в данных, всегда более правдоподобны, чем изменения сопоставимой величины, которые этого не делают. Здесь одно редактирование переводит нас от строки «ribonflaven» к строке «ribonflavin», которая появляется в данных и поэтому имеет вероятность того, что в худшем случае это ошибка в написании чего-то в базе данных. Затем еще один монтаж добавляет «рибонфлавин» к высокочастотной струне «рибофлавин». Эта цепочка из двух небольших изменений имеет больше доказательств в свою поддержку, чем просто запрос результатов TwoEdit.В целом решения принимаются на основе правдоподобия результатов, где мы оцениваем правдоподобие по:

  1. Более мелкие изменения более правдоподобны.

  2. Изменения, приводящие к появлению строки в базе данных, более правдоподобны, чем изменения той же величины, которые этого не делают.

  3. Изменения, которые создают строку с высокой частотой в базе данных, предпочтительнее, чем изменения аналогичной величины, которые этого не делают.

SingleTokenModule следует этим принципам по мере того, как он спускается по этапам, сначала ища наиболее правдоподобное решение, но последовательно пробуя менее правдоподобные методы, пока либо решение не будет найдено, либо попытка не удастся произвести исправление.Присутствуют все различные методы исправления, потому что мы действительно сочли их необходимыми в определенных случаях. В SingleTokenModule (и в других модулях) есть определенные константы, которые были выбраны потому, что они дали разумные результаты в испытаниях. Они были выбраны эмпирически, формальной оценки не проводилось. Мы вернемся к этому вопросу ниже.

Весь поиск в SingleTokenModule выполняется в дереве Tr123. То же верно и для TwoTokenModule, который мы собираемся описать.Когда нам дается запрос из двух слов, в задачу вводится новый элемент. Это проблема контекста. Возможно, одно из слов правильное и может использоваться как контекст для более эффективного исправления другого. С другой стороны, эти два слова не обязательно должны быть тесно связаны, как это могло бы произойти в значимой фразе. Таким образом, у нас должна быть стратегия, которая говорит нам, когда пытаться использовать контекст, а когда избегать. Эта стратегия – важная часть общего плана исправления многословных.В следующем псевдокоде мы позволим запросу с двумя токенами обозначаться как s _ t , где s и t – это отдельные токены. В дальнейшем мы будем использовать основные функции редактирования, определенные в предыдущем разделе. Однако есть некоторые ограничения, которые мы сочли полезными, которые применяются к редактированию s и t независимо от l ( s _ t ).

Ограничение1

Если длина токена меньше трех, не редактируйте его.Предположим, что это правильно.

Ограничение2

Если длина токена меньше семи, сделайте в нем не более одного редактирования.

Эти ограничения применяются к данному токену независимо от длины другого токена во фразе. Мы считаем, что токены из одного или двух символов вряд ли будут ошибочно написаны, и мы используем их в качестве фиксированных точек для управления процессом исправления.

TwoTokenModule {

Stage 1

IF l ( s _ t ) <7 ТОГДА ВОЗВРАТ без коррекции.

Установить f m = min ( f ( s ), f ( t )).

IF f ( s _ t )> 5 и f m > 500 ТОГДА ВОЗВРАТ без коррекции.

IF f ( s _ t )> 0 и f m > 50 и либо l ( s ) ≤ 4, либо l ( t ) ≤ 4

Этап 2

ВЫЗВАТЬ OneEdit на с _ t и установить R = 0.

ЕСЛИ R = 1 ТОГДА ВЫЗВАТЬ OneEdit для c .

IF R = 0 ТОГДА ВЫЗЫВАЙТЕ TwoEdit на с _ t .

IF R = 0 и f m ≥ 100 ТОГДА ВЫЗЫВАЙТЕ SingleTokenModule для каждого из s и t отдельно и ВОЗВРАЩАЙТЕ результат.

ELSE IF R = 1 и f ( c ) ≥ f m ЗАТЕМ ВЕРНУТЬ c в качестве поправки.

Этап 3

CALL StringSplit для с _ t

IF l ( s _ t )> 20 и либо f m = 0, либо оба ( l ) s ) ≥ 7 и l ( t ) ≥ 7 THEN

ВЫЗВАТЬ SingleTokenModule для каждого из s и t отдельно и ВОЗВРАТИТЬ результат.

}

В качестве примера действия TwoTokenModule рассмотрим строку запроса «gammg globulin».Эта строка встречается в базе данных только 1 раз, и поскольку «gammg» встречается только 2 раза в базе данных, «gammg-глобулин» попадает на этап 1 обработки и является кандидатом на исправление. OneEdit производит коррекцию «гамма-глобулина», а повторный вызов OneEdit не дает никаких улучшений, поэтому это считается окончательной коррекцией. Поскольку строка перешла с частоты 2 за одно редактирование до конечной частоты 15 568, исправление имеет высокую правдоподобность. Теперь рассмотрим строку запроса «академическое отношение».Эта фраза не встречается в базе данных, поэтому она проходит этап 1 и становится кандидатом на исправление как фраза. Однако единственное исправление, которое было обнаружено, – это строка «академические способности», которая встречается в базе данных 30 раз. Из-за малой повторяемости этой фразы она не принимается в качестве исправления. Мы принимаем частоту как меру правдоподобия, и «академический» встречается 52 629 раз, а «отношение» 144 536 раз в базе данных. Мы сформулируем это как последний принцип правдоподобия при внесении исправлений.

Псевдокод для SingleTokenModule и TwoTokenModule дает подробное представление о том, как мы обрабатываем одну и две строки токенов. Наконец, мы дадим несколько сокращенное описание того, как мы обрабатываем строки с тремя и более токенами. Пусть s _ t _ u обозначает такую ​​строку, где u может обозначать более одного токена. Мы выполняем ряд шагов:

  1. Мы видим, происходит ли s _ t в Tr2p.В противном случае ищем поправку на s _ t в Tr2p. Поиск аналогичен поиску в TwoTokenModule, за исключением того, что на третьем этапе мы разрешаем RecursiveEdit только в качестве опции, и нам требуется только l ( s _ t )> 20 для его применения. StringSplit и двойное применение SingleTokenModule на данном этапе не являются вариантами, поскольку их успех преждевременно исключит другие предпочтительные варианты. Используется более слабое условие для применения RecursiveEdit, потому что результат не будет окончательным до тех пор, пока не будет получено более длительное совпадение (с большим контекстом).

  2. Если в I мы находим с _ t или поправку на с _ t в Tr2p, то мы пытаемся расширить это начальное совпадение до совпадения с _ t _ u в Tr3 +. Для этого расширения мы используем форму RecursiveEdit. Если это приводит к совпадению, которое проходит Sanity2, мы принимаем это как поправку на s _ t _ u и готово. Если он не дает совпадения, мы пытаемся вернуться к дереву решений, чтобы найти совпадение в Tr3 +, которое не включает все s _ t _ u и проходит Sanity2.Если это можно сделать, выполняется выравнивание исправления с исходной строкой запроса, чтобы определить, какая часть строки остается исправленной. Затем мы принимаем частичное исправление и рекурсивно вызываем процесс для исправления оставшейся строки.

  3. Если я нахожу совпадение или исправление c в Tr2p, но II не может дать совпадение в Tr3 +, и если c состоит из одного токена, мы пытаемся расширить его до совпадения в Tr123. Если это удастся и совпадение пройдет через Sanity2, мы примем это как исправление и снова должны найти любую оставшуюся строку для совпадения, как и в случае II.

  4. Если в I-III не достигается даже частичное решение, то мы пытаемся найти поправку для с _ t в Tr123. Это делается в основном путем применения TwoTokenModule, опять же с небольшими изменениями. Модификаций две. Сначала на этапе 2 с верхним пределом частоты, а затем снова на этапе 3 с нижним пределом делается попытка с помощью StringSplit разделить с _ t . Если это успешно, первая часть разбиения принимается как часть исправления, и процесс вызывается рекурсивно для второй части разбиения и любых оставшихся за ней токенов.Во-вторых, если ничего не помогает, то SingleTokenModule вызывается только для с , и результат принимается как частичное исправление (или, возможно, без исправления), а процесс вызывается рекурсивно для исправления t _ u .

На примере мы проиллюстрируем важность контекста, когда имеется три или более токенов. Рассмотрим строку запроса «amytrophic latel slersos». Первые два токена сначала корректируются на «боковой амиотрофический», а затем система пытается расширить его, исправляя «слерсо».Эта последняя строка «slersos» состоит только из семи символов, и три ошибки обычно затрудняют исправление, но здесь есть несколько строк, которые начинаются с «amyotrophic lateral», кроме правильной, и поэтому система легко исправляет «slersos» на « склероз”. Благодаря начальным токенам, которые предоставляют контекст, мы можем ослабить ограничения (Constraint1 и Constraint2) в процессе расширения.

В качестве заключительного комментария к построению алгоритма отметим, что в OneTokenModule и TwoTokenModule и менее заметно при обработке строк запроса из трех и более токенов существует ряд параметров.Эти параметры были выбраны эмпирически путем наблюдения за работой алгоритма на запросах, поступающих в поисковую систему PubMed, и внесения корректировок. Мы не утверждаем, что представленные здесь варианты являются оптимальными. Фактически, один из трудных вопросов – определить, что должно означать оптимальное в подобной обстановке. Можно было бы принять критерий максимизации количества сделанных разумных предложений по правописанию. С другой стороны, конечная цель – доставить удовольствие пользователям и оптимально облегчить их поиск.С этой точки зрения неправильные или даже нелепые предложения обходятся дорого. Если пользователи не верят в разумность предложений, они могут быть менее склонны их использовать. Наш подход был несколько консервативным, пытаясь избежать предложений с высоким риском и достичь высокой степени точности, а не общего максимального количества разумных предложений с более низкой степенью точности. Другими словами, нас больше заботила точность, чем отзыв.

На этом наше описание алгоритма завершено.

ОЧИСТКА ЗАПИСАННЫХ ДАННЫХ

Обычно слова с ошибками в базе данных PubMed имеют низкую частоту, и именно это свойство позволяет корректировать орфографию на основе словаря базы данных. Однако есть некоторые термины, написанные с ошибками или, по крайней мере, не оптимальные в качестве терминов запроса, которые относительно часто встречаются в PubMed. В связи с этим мы обязались попытаться решить эту проблему. Мы изучили все словосочетания из одного и двух слов, которые встречаются по крайней мере в пороговом количестве документов в PubMed, а также представляют собой одно изменение из другого термина в PubMed, частота которого в базе данных по крайней мере в десять раз выше.Мы сделали предположение, что если два таких термина имеют значительную тенденцию встречаться в одном и том же контексте, тогда более низкочастотный член пары был неправильным написанием или, по крайней мере, неоптимальной версией более высокочастотного члена. Для терминов с одним токеном мы использовали порог низкой частоты, равный 20. Для терминов с двумя токенами, которые встречаются реже, мы использовали порог низкой частоты, равный 9. Важное соображение при выборе порога низкой частоты состоит в том, чтобы просто иметь достаточно данных, чтобы позволить расчет надежной статистики.Мы сочли полезным обрабатывать один токен и два случая токена несколько по-разному, а также в том, как они были протестированы.

Одиночный токен

Предположим, что пара терминов, разнесенных на одно редактирование, представлена ​​как T 1 и T 2 . Затем мы применяем тест, основанный на гипергеометрическом распределении (Ларсон, 1982). Ситуация проиллюстрирована на. Мы вычисляем p -значение, при котором два термина будут совместно встречаться в том числе документов, в которых они наблюдаются, или более, если бы эти два термина были только случайными в их отношении друг к другу.Мы нашли 62 720 пар в базе данных, которые удовлетворяли требованиям по частоте и находились на расстоянии одного редактирования. Когда был применен только что описанный гипергеометрический тест, результатом было 10922 пары одиночных токенов, которые были связаны с p – значением меньше 0,01. Это означает, что мы можем ожидать, что 99% этих пар терминов будут существенно связаны. Пример таких пар показан на. В большинстве случаев низкочастотный член пары является неправильным написанием. В некоторых случаях это просто неоптимальный термин запроса, потому что существует гораздо более частый термин с практически таким же значением для целей поиска.

В пространстве всех документов прямоугольник представляет документы, содержащие термин T 1 , а маленький эллипс – набор документов, содержащих термин T 2 . Пересечение этих двух наборов представляет собой перекрытие, представленное I . Статистическая значимость этого перекрытия может быть вычислена как вероятность того, что это перекрытие является таким же большим или большим, чем фактически наблюдаемое, при условии, что два члена связаны не более чем случайным образом.Это известно как значение p , и его можно оценить с помощью гипергеометрического распределения.

Таблица 5

Слева несколько относительно общих слов, а справа поправки, предложенные гипергеометрическим тестом. Во многих случаях слова слева написаны с ошибками.

30 30 30 30 30 9198
Неоптимальные условия и частота Коррекции и частоты
ацетихолин 153 ацетилхолин 46852
ацетихолинэстераза
    30
329 98 ацетилхолина ацетиглюкозамин 20 ацетилглюкозамин 4995
ацетилат 287 ацетилхолин 6594
ацетилхолин 64 ацетилхолин 64
9188 9188
3879
ацетилхолин 20 ацетилхолин 46852
ацетилсалициклический 157 ацетилсалициловый 5186
ахалазит 98 73 ахалазия 2955
ахатин 27 ахатина 320
получено 42 достигнуто 179735
в этом случае найдено 11 762 пары двух токен-фраз, удовлетворяющих требованиям к частоте.Сначала мы применили тест гипергеометрической значимости так же, как и для случая с одним маркером. Это привело к идентификации 1836 пар, которые были существенно связаны. Если гипергеометрический тест не показал значимости на уровне 0,01, мы применили более строгий тест. Используемые конструкции изображены там, где мы изобразили случай пары фраз «инфаркт миокарда» и «инфаркт миокарда». Эти две фразы различаются только вторыми словами, и мы использовали общее первое слово «миокард» для определения контекста или набора интересующих документов.

Мы применяем наивное байесовское обучение, чтобы узнать разницу между положительным набором, обозначенным G , и отрицательным набором, состоящим из объединения наборов, обозначенных B1 и B2 . На основе полученных весов мы оцениваем B1 и B2 и оцениваем объединение двух наборов. Затем мы применяем тест WMW, чтобы спросить, является ли сумма рангов членов B1 выше, чем можно было бы ожидать на случайной основе. Для ответа на этот вопрос вычисляется значение p .

В этом наборе набор документов, содержащих неправильное написание «инфаркт миокарда», соответствует прямоугольнику, а набор, содержащий правильную фразу «инфаркт миокарда», соответствует эллипсу. Мы случайным образом отобрали три набора: B1 из документов, содержащих фразу с ошибкой, G из документов, которые содержат правильную фразу, но не фразу с ошибкой, и B2 из документов, не содержащих ни одной фразы, но содержащих слово «миокард».Каждый из этих наборов состоит из тысячи документов, выбранных случайным образом, если это количество попадает в категорию, для которой проводится выборка. Если набор имеющихся документов был меньше тысячи, за образец брался весь набор. Выборка использовалась для ограничения объема вычислений, необходимых для оценки любой пары фраз. Затем мы применили наивное байесовское обучение, чтобы узнать разницу между G и B1 B2 . Используя полученные таким образом веса, мы оценили все документы в B1 B2 и расположили их в порядке убывания оценки.Затем мы применили тест Вилкоксона-Манна-Уитни, чтобы увидеть, была ли сумма рангов членов B1 меньше ожидаемой. Это означало бы, что участники B1 имели более высокие баллы, чем ожидалось, или, другими словами, были более похожи на участников G , чем члены B2 . Мы применили этот тест к 9 926 парам, оставшимся после удаления 1836 пар, найденных с помощью гипергеометрического теста. В результате мы определили еще 5628 пар фраз, которые были значимыми при 0.01 уровень. Образец найденных таким образом пар фраз приведен в.

Таблица 6

Образец неоптимальных фраз запроса слева в паре с их гораздо более частыми аналогами справа. В некоторых случаях фраза слева содержит орфографические ошибки. В других случаях это просто не самая используемая форма и, следовательно, будет относительно плохим запросом для рассматриваемой концепции.

918 30 10
Неоптимальные сроки и частоты Коррекции и частоты
нейрон миокарда 9 нейроны миокарда 593
Инфаркт миокарда Инфаркт миокарда 34 Инфаркт миокарда 34
инфаркт миокарда 122 инфаркт миокарда 114638
ишемия миокарда 870 ишемия миокарда 27214
миокардиал 27214
миокард миокард
реваскуляризация миокарда 234 реваскуляризация миокарда 7343
миогенная экспрессия 10 экспрессия миогенина 119
миопия астигматизм миопический астигматизм 276
пациентов с миопией 19 пациентов с миопией 231

10 922 пары одиночных маркеров и 7 464 пары пар маркеров полностью не исключены из рассмотрения.Скорее их частоты уменьшены до единицы для целей вычислений с использованием выражений (1) и (2). Таким образом, они с гораздо большей вероятностью не будут выбраны в качестве поправки к запросу. Однако они остаются возможными промежуточными шагами в последовательности операций, ведущих к исправлению. Если они действительно выступают в качестве промежуточных звеньев, шансы на то, что окончательной поправкой будет являться часто встречающийся термин, с которым они связаны в только что описанном статистическом тестировании, увеличиваются.

Может возникнуть вопрос, почему мы не использовали тест WMW для пар одиночных токен-фраз. Причина в том, что мы обнаружили много ложных срабатываний, когда пытались его использовать. В нашей попытке была задействована картина, похожая на. Однако у нас не было контекстного слова, такого как слово «миокард» на этом рисунке, чтобы сфокусировать вычисления. Поэтому мы выбрали B2 из всех оставшихся данных PubMed за пределами тех документов, которые включали один из интересующих токенов. Тогда, если бы низкочастотный токен в паре не был неправильным написанием, образец B1 был бы из значимой темы, совершенно не связанной с G.В результате документы в B1 могли быть более или менее связаны с G, чем общая случайная выборка B2. Если бы они были более связаны, статистический тест мог бы быть легко удовлетворен на уровне 0,01, и все равно не было бы значимой взаимосвязи между B1 и G . Таким образом, мы отказались от усилий. Возможно, таким образом можно было бы использовать некоторую доработку теста. Если так, это может оказаться весьма полезным, потому что нельзя ожидать, что гипергеометрический тест будет работать во всех важных случаях.Это верно, потому что, когда в документе появляется орфографическая ошибка, это может быть постоянная ошибка, и правильно написанный термин может не отображаться. В таких случаях тест на основе контекста, такой как тест WMW, который мы использовали, имеет гораздо больше шансов обнаружить ошибку.

ПРОБЛЕМЫ ЭФФЕКТИВНОСТИ

Для базы данных PubMed попытки, используемые в алгоритме исправления орфографии, в настоящее время включают 14 267 366 строк с одной, двумя и тремя токенами в Tr123; 2775111 строк из трех и более токенов в Tr3 +; и 1,772,383 начальных сегментов строк из Tr3 + в Tr2p.В обычный рабочий день механизм запросов PubMed получает примерно 3 миллиона пользовательских запросов, и это генерирует более 3 миллионов запросов к алгоритму проверки орфографии. Это связано с тем, что многие запросы являются сложными и включают анализ знаков препинания и логических операторов, в результате чего создается несколько фрагментов и проверяется их орфография. Алгоритм проверки орфографии на самом деле предлагает исправления примерно для 10% пользовательских запросов, но любое выдвинутое предложение проверяется на предмет публикации (если он извлекает некоторые документы из базы данных).Любое исправление, которое не публикуется, игнорируется. В результате предлагаемое исправление вносится пользователю примерно в 7% пользовательских запросов. Когда мы впервые начали делать предложения пользователям, они принимались пользователем в 36% случаев. Примерно через шесть месяцев пользователи принимали предложения со скоростью 40%. Теперь, примерно через год после развертывания, в последний понедельник к поисковой системе PubMed было отправлено 3275624 запроса, и 243 853 предложения заклинаний PubMed были сделаны для 80 785 уникальных IP-адресов, и 109 526 (45%) вариантов заклинаний были выбраны с 45 285 уникальных IP-адресов.

Был изучен небольшой набор пользовательских запросов, 1323, и 110 из них содержали предложения, сделанные алгоритмом проверки орфографии. Из 110 предложенных исправлений 96 были оценены двумя судьями (совместно консультировавшимися) как хорошие и 14 как плохие. Это 87% успеха с 95% доверительным интервалом (81%, 92%). Это намного выше целевого показателя в 70% правильных, к которому мы стремились, и мы считаем, что отчасти это связано с тем, что предлагаемые исправления, которые не публикуются, игнорируются системой.

В настоящее время алгоритм проверки орфографии работает на шести машинах Dual Intel Xeon 3,6 ГГц, каждая из которых имеет 6 ГБ ОЗУ. Он написан на C ++ и работает под Linux в 64-битном режиме. Его использование увеличило время отклика механизма запросов PubMed в среднем примерно на 25%, но с практической точки зрения оно очень мало увеличивает время отклика правильно написанных запросов. Алгоритм проверки орфографии реализован на шести серверах, потому что теперь он используется для исправления запросов в четырнадцати различных базах данных NCBI, из которых PubMed является просто самой большой.

ОБСУЖДЕНИЕ

дает примеры исправлений, которые алгоритм может сделать. Эти примеры выбраны потому, что они иллюстрируют влияние контекста и некоторые крайности патологии, а не потому, что орфографические ошибки являются типичными. Конечно, не все предлагаемые исправления так хороши, и было бы интересно посмотреть, какие ошибки допускаются. Мы изучили немногим более 500 предложений, внесенных средством проверки орфографии, которые не были приняты пользователями, и обнаружили, что мы считали наиболее вопиющими ошибками.Они содержатся в файлах.

Таблица 7

Примеры фраз, которые алгоритм проверки орфографии, обрабатывающий запросы PubMed, может исправить, и предлагаемые исправления.

60 9
Опечатка Коррекция по алгоритму
Инфаркт миокарда Инфаркт миокарда
Инфаркт уха Инфаркт уха
Инфракция миокарда неизлечимая болезнь
жидкостная хроматография высокого давления жидкостная хроматография высокого давления
фактор некроза опухоли фактор некроза опухоли
Гмголбин гемоглобин
гемоглобин
Филар Таблица 8

Примеры ошибок, допущенных алгоритмом проверки орфографии при обработке запросов PubMed.

скромный
Фраза Ошибочная коррекция
Sapna Baht баня в сауне
периостин периодов в
Daniel KE danieluk86 x 900 biseual
поджелудочная железа и трансплантация поджелудочная железа И трансляция
стволовых клеток потеря стволовых клеток
медные волосы верхний воздух

Можно отметить, что пять из семи происходят в фразы, в которых было предпринято два или более правок.Тот факт, что имя человека «Sapna Baht» – это два отредактированного слова «сауна в бане», – это просто совпадение, которое встречается нечасто. Проблема с «периостином» возникает из-за фразы «периоды в», которая не должна входить в словарный запас поисковой системы.

Проблемы с «Daniel KE» и «ros стволовых клеток» являются следствием того, что мы не применяем Constraint1 и Constraint2 соответственно, когда фраза содержит более двух токенов. Если бы мы сделали это, алгоритм мог бы выиграть с точки зрения точности, но был бы более сложным.И для «бисексуального приставания», и для «поджелудочной железы и трансплантации» доступный контекст не используется. Это потому, что ни один из них не исправляет фразу в системе. Скорее «трансплантация» и «приставание» исправляются изолированно. Конечно, слово «приставание» написано правильно, но в документах PubMed оно встречается только 23 раза, в то время как «скромный» встречается более 28 тысяч раз. Можно видеть, что «приставать» более разумно, чем «скромно» из-за другой части запроса, однако в настоящее время система использует контекст только в том случае, если он является частью допустимой фразы в системе.Наконец, есть «медные волосы». Здесь слово «cupper» встречается в PubMed десять раз (на момент написания статьи, не считая поля автора). Один раз это имя человека, а в других девяти случаях неправильное написание слова «медь». Алгоритм исправляет «медь» на «медь» (более 53 тысяч вхождений), за исключением того, что он предпочитает исправления фраз, когда контекст может более эффективно направлять процесс. Однако на этот раз он дает ошибку. Пользователь вполне мог интересоваться болезнью Менке, которая вызвана кишечной мальабсорбцией меди и характеризуется курчавыми волосами (которые бесцветны).К сожалению, «медные волосы» не являются характеристикой болезни Менке, и эта фраза даже не встречается в базе данных PubMed.

Кто-то может спросить, как наша точность исправления орфографии сравнивается с точностью других, которые использовали модель зашумленного канала. Черч и Гейл (1991) указывают на точность 87% в исправлении набора из 332 орфографических ошибок, выявленных утилитой Unix spell и исправление которых было согласовано по крайней мере двумя из трех человек-судей. Все эти орфографические ошибки характеризовались наличием ровно двух возможных исправлений одного редактирования в списке слов, составленном исследователями из стандартных источников.Когда модель коррекции орфографии была дополнена контекстной информацией с помощью языковой модели, они получили улучшение до 89,5%. Здесь мы можем сказать, что наш показатель точности аналогичен их показателям, хотя есть много вопросов относительно того, насколько сопоставимым является тестирование. Во-первых, мы используем не языковую модель, а нечто меньшее, хотя в нашем процессе полностью не игнорируется контекст. Во-вторых, они ограничили свой процесс отдельными правками, тогда как мы разрешили редактировать несколько. Наконец, они ограничили свое тестирование исправлением, где было только два варианта ответов, и это, казалось, повысило их точность.Таким образом, из такого сравнения трудно делать выводы.

Вторая версия модели шумного канала для исправления орфографии была предложена Брилл и Мур (2000). Они используют более сложную модель редактирования, в которой одно редактирование может привести к исправлению нескольких символов. Они также обращаются к более широкому контексту, чем одиночный символ, предшествующий исправлению, используемый Черчем и Гейлом, или одиночный символ с каждой стороны, который мы используем. Они изучили корпус из 10 000 слов распространенных орфографических ошибок английского языка в сочетании с их правильным написанием.Они обучили подмножество из 8000 из них и протестировали свою систему на оставшихся 2000. В процессе тестирования они использовали словарь из 200 000 словарных статей, в который вошли все слова из тестового набора. Они обнаружили точность 95% без языковой модели. Чтобы оценить эффект языковой модели, они вычислили поправки для тех же тестовых слов, которые были внесены в контекст Коричневого корпуса. Это привело к показателю точности 95% и соответствующему показателю 93,9% без языковой модели (поскольку результаты вычисляются для каждого токена, а не для каждого типа).Поскольку точность нашей коррекции также рассчитывается для каждого токена, именно эти последние цифры наиболее сопоставимы. В качестве контекста для получения этого результата они использовали контекст из трех символов по обе стороны от редактирования. Здесь их показатели лучше, чем у нас. Но нужно спросить, как исправление только самых распространенных ошибок в английском повлияет на их работу. Для сравнения, мы имеем дело с полным спектром ошибок, которые могут возникать при использовании нескольких токенов, хотя наиболее распространенные ошибки будут иметь наибольшее влияние на нашу точность.Другой фактор, связанный с этим, – это размер словаря, используемого в процессе исправления. В нашем случае количество уникальных токенов превышает 2,5 миллиона, в то время как Брилл и Мур используют список из 200 000 слов. Таким образом, наш словарь более чем на порядок больше их. Если словарь содержит правильные ответы, чем меньше словарь, тем проще процесс исправления. Чем меньше количество правильных ответов, тем менее плотно они упакованы (Kukich, 1992) и тем меньше вероятность того, что разные словарные статьи будут конкурировать за исправление неверно написанной строки.

Из-за различий в том, как контекст может использоваться в запросе поисковой системы, в отличие от текста на естественном языке, а также из-за различий в размере словаря, нелегко сделать четкие выводы из этих сравнений. Одна вещь, которая кажется интересной, – это более широкий контекст внутри строки, который Брилл и Мур используют для обработки редактирования. Они обнаружили повышение точности примерно на 2% при использовании окна из трех символов с каждой стороны редактирования вместо окна только из одного символа с каждой стороны.Это говорит о том, что мы могли бы увидеть подобное улучшение, если бы наш алгоритм использовал более широкий контекст. Мы не знаем, как такое изменение повлияет на скорость работы алгоритма. Этот вопрос требует дальнейшего изучения.

Еще одним возможным способом улучшения алгоритма является некоторая форма фонетической коррекции. Признано, что большинство орфографических ошибок (примерно 80%) представляют собой единичные ошибки редактирования, когда редактирование понимается в смысле Дамерау (Damerau 1964) вставки буквы, удаления буквы, замены буквы или транспозиции две соседние буквы.Однако фонетические ошибки часто связаны с большим количеством букв и их труднее исправить (Kukich 1992). Зобель и Дарт (1995) сравнили Soundex и Phonix (Gadd 1990) с методами, основанными на расстоянии редактирования, и пришли к выводу, что фонетические методы уступают подходу расстояния редактирования в поиске подходящих совпадений для строк в большом лексиконе. Мы исследовали алгоритм Metaphone (Philips 1990) и попытались использовать его для исправления орфографических ошибок в симуляциях, где ошибки генерировались как в -. Во всех случаях мы обнаружили, что результаты хуже того, что мы смогли получить, используя модель зашумленного канала и выражения (1) и (2).По нашему опыту, в некоторых случаях фонетическая коррекция работает хорошо, но в других она идентифицирует строки как похожие, которые не следует идентифицировать, или не может произвести такую ​​идентификацию, когда мы этого хотели бы. Например, Зобель и Дарт указывают, что «безумный» и «не» кодируются в одну и ту же строку в Soundex и Phonix. Точно так же мы отмечаем, что при использовании Metaphone «фаланги» кодируются в «flnjs», а «hpalanges» кодируются в «hplnjs». Таким образом, единственная ошибка редактирования может увеличиваться при кодировании. Другой вопрос, который следует задать при этой настройке, – сколько орфографических ошибок встречается в запросах PubMed, которые нельзя исправить одним или двумя изменениями.Это актуально, потому что наш алгоритм уже достаточно хорошо работает с ошибками, состоящими из одного или двух правок. Чтобы изучить этот вопрос, мы обработали те же файлы журнала пользователей PubMed за 63 дня, из которых мы получили наши вероятности редактирования, и при аналогичной обработке собрали все пары одиночных токенов, где первый член пары не находился в пределах двух правок любой строки в база данных PubMed, но вторая появилась в базе данных, в то время как две строки производили одинаковую кодировку в Metaphone (обратите внимание, что мы используем полную кодировку без усечения).Мы идентифицировали 5781 такое парное вхождение, включающее 2 894 уникальных пары. Если оптимистично предположить, что можно исправить ошибочную строку запроса во всех случаях, используя кодировку Metaphone таким образом, это принесет максимум 92 дополнительных исправления в день к тому, что мы уже делаем. Учитывая, что мы обычно находим пользователей, принимающих более

исправлений в день, мы ожидаем увеличения количества поправок не более чем на 0,1%, а более реалистично, вероятно, менее чем вдвое. Таким образом, неясно, стоит ли фонетическая коррекция накладных расходов, которые она потребует.

ВЫВОДЫ

Мы разработали алгоритм проверки орфографии, который выполняет довольно точную коррекцию (≥87%) и обрабатывает одно или два редактирования, а также большее количество правок, если строка, которую нужно исправить, достаточно длинная. Он обрабатывает слова, которые фрагментированы или объединены. Если запросы состоят из более чем одного токена, алгоритм пытается использовать дополнительную информацию в качестве контекста, чтобы помочь процессу исправления. Алгоритм реализован в поисковой системе PubMed, и там он часто делает более 200 000 предложений в день, и около 45% этих предложений принимаются пользователями.Алгоритм эффективен в добавлении только около 25% к среднему времени ответа на запрос для пользователей, и большая часть этого наблюдается только для запросов с ошибками. Есть возможность улучшить алгоритм за счет использования большего количества контекста вокруг сайтов с ошибками в словах. Существует также возможность улучшить алгоритм, научившись лучше использовать контекст, предоставляемый запросами, состоящими из нескольких токенов. В обоих случаях такие усилия должны учитывать, как поддерживать эффективность в свете огромного словаря фраз (> 14 миллионов) и отдельных слов (> 2.5 миллионов), признанных поисковой системой. Также существует возможность использовать фонетические кодировки для улучшения обработки некоторых ошибок, которые в настоящее время бросают вызов системе. Однако предварительные расчеты показывают, что было бы трудно добиться значительных улучшений с помощью фонетических кодировок.

Благодарности

Авторы хотели бы поблагодарить Дэвида Кентона и Прамода Парантамана за содержательные обсуждения и их работу по оценке алгоритма, а также Владимира Сиротинина и Гришу Старченко за их работу по включению алгоритма в обработку запросов поисковых систем.Также выражаем благодарность анонимным рецензентам за полезные предложения по улучшению статьи. Это исследование было поддержано [частично] Программой внутренних исследований Национальной медицинской библиотеки NIH.

Ссылки

  • Биферман Д., Бергер А. Агломеративная кластеризация журнала запросов поисковой системы. Шестая международная конференция ACM SIGKDD по открытию знаний и интеллектуальному анализу данных; Бостон, Массачусетс, ACM Press. 2000. [Google Scholar]
  • Brill R, Moore RC.Улучшенная модель ошибок для исправления орфографии зашумленных каналов. ACL 2000 2000 [Google Scholar]
  • Church KW, Gale WA. Оценка вероятности исправления орфографии. Статистика и вычисления. 1991; 1: 93–103. [Google Scholar]
  • Damerau FJ. Методика компьютерного обнаружения и исправления орфографических ошибок. Коммуникации ACM. 1964. 7 (3): 171–176. [Google Scholar]
  • Gadd TN. PHONIX: Алгоритм. Программа: Автоматизированные библиотечно-информационные системы. 1990. 24 (4): 363–366.[Google Scholar]
  • Hall PA, Dowling GR. Приблизительное соответствие строк. Вычислительные обзоры. 1980. 12 (4): 381–402. [Google Scholar]
  • Хуанг К.К., Чиен Л.Ф. и др. Предложение релевантного термина в интерактивном веб-поиске на основе контекстной информации в журналах сеанса запросов. Журнал Американского общества информационных наук и технологий. 2003. 54 (7): 638–649. [Google Scholar]
  • Jurafsky D, Martin JH. Обработка речи и языка. Верхняя Седл-Ривер; Нью-Джерси, Прентис-Холл: 2000.[Google Scholar]
  • Кукич К. Приемы автоматического исправления слов в тексте. ACM Computing Surveys. 1992. 24 (4): 377–439. [Google Scholar]
  • Larson HJ. Введение в теорию вероятностей и статистический вывод. Нью-Йорк: John Wiley & Sons; 1982. [Google Scholar]
  • Leroy G, Lally AM, et al. Использование динамических контекстов для улучшения обычного поиска в Интернете. ACM-транзакции в информационных системах. 2003. 21 (3): 229–253. [Google Scholar]
  • Макэнтайр Дж., Липман Д.PubMed: восполнение информационного разрыва. Cmaj. 2001. 164 (9): 1317–9. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Нордли Р. «Раскрытие информации о пользователях» – сравнение первоначальных запросов и последующей разработки вопросов при онлайн-поиске и при взаимодействии с людьми. SIGIR’99: 22-я Международная конференция по исследованиям и разработкам в области информационного поиска, Калифорнийский университет; Беркли, ACM Press. 1999. [Google Scholar]
  • Филипс Л. На метафоне. Компьютерный язык.1990; 7 (12) [Google Scholar]
  • Седжвик Р. Алгоритмы на языке C (части 1–4) Бостон: Аддисон-Уэсли; 1998. [Google Scholar]
  • Silverstein C, Henzinger M. Анализ очень большого журнала запросов поисковой системы. СИГИР Форум. 1999. 33 (1): 6–12. [Google Scholar]
  • Спинк А., Вольфрам Д. и др. Поиск в сети: публика и их запросы. Журнал Американского общества информационных наук и технологий. 2001. 52 (3): 226–234. [Google Scholar]
  • Обзор. Поиск NPD и исследование сайта на портале.2000. Получено 26 сентября 2005 г. с сайта http://www.searchenginewatch.com/sereport/article.php/2162791.
  • Ван П., Берри М.В. и др. Майнинг лонгитюдных веб-запросов: тенденции и закономерности. Журнал Американского общества информационных наук и технологий. 2003. 54 (8): 743–758. [Google Scholar]
  • Вен JR, Nie JY, et al. Кластеризация запросов с использованием пользовательских журналов. ACM-транзакции в информационных системах. 2002. 20 (1): 59–81. [Google Scholar]
  • Зобель Дж., Дарт П. Поиск приблизительных совпадений в больших словарях.Программное обеспечение – практика и опыт. 1995. 25 (3): 331–345. [Google Scholar]

Как увеличение отпуска по уходу за ребенком означает уменьшение дискриминации в отношении женщин | Кэролайн Криадо-Перес

Несколько месяцев назад моя подруга вышла замуж. Для этого она переехала в Лондон из Германии, оставив своих друзей, семью и работу. Она не слишком беспокоилась об этом: она накопила более десяти лет опыта и достижений. Она прекрасно говорила по-английски. Она будет скучать по семье, но в финансовом отношении все будет в порядке.

К сожалению, у Лондона были другие идеи. Она ходила на собеседование за собеседованием. Все они закончились отказом.

Наконец, она пошла на собеседование, где ей задали несколько странных вопросов. Ее спросили, в какой части Лондона она живет. Ее спросили, чем занимается ее муж. И наконец интервьюер только что сказал: «Послушайте, у вашего мужа, очевидно, все хорошо, вы только что поженились, зачем вам вообще нужна работа?»

Несомненно, этот вопрос содержал сексистскую (не говоря уже об устаревшей в экономическом отношении) идею о том, что женщины работают только за мелкие деньги.Но это также намекало на другую проблему: проблему младенцев. Вопрос об отпуске по беременности и родам. Вопрос «зачем мне нанимать вас, если вы, вероятно, в конечном итоге обойдетесь мне в тысячи фунтов потраченной впустую заработной платы через несколько месяцев?»

Комиссия по вопросам равенства и прав человека только что получила 1 миллион фунтов стерлингов от министра по делам женщин и равноправия Марии Миллер для расследования того, насколько плоха эта ситуация. Это следует из изобличающего опроса Slater & Gordon, показывающего, что многие женщины возвращались из декретного отпуска на худшую работу, а иногда и вовсе не работали.

Разумеется, исследования в этой области приветствуются. Но я не могу не чувствовать, что мы игнорируем наиболее очевидную причину, по которой женщины подвергаются такой дискриминации. По сути, вопрос невероятно прост: речь идет о деньгах.

На женщин в возрасте от 30 до 45 лет смотрят с подозрением и считают обузой. Это ожидаемая плодотворная плата. Так почему, думают эти компании, мы должны рисковать этой высококвалифицированной женщиной, если мы можем сделать беспроигрышную ставку на этого мужчину.Возможно, он не так эффективен на работе, но, по крайней мере, через полгода он будет там. И так цикл продолжается, когда блестящие женщины барахтаются в своей карьере, а мужчины обгоняют их не из-за заслуг, а в результате разумного решения о затратах. И, пожалуй, самое раздражающее в этом цикле то, насколько легко его исправить.

В настоящее время законом закреплено, что женщины являются основными лицами, обеспечивающими уход. Женщины получают 26 недель обычного отпуска по беременности и родам и 26 недель дополнительного отпуска по беременности и родам.Мужчины получают одну или две недели обычного отпуска по уходу за ребенком и 26 недель дополнительного отпуска по уходу за ребенком. У этого неравенства нет никаких причин, кроме традиционного представления о том, что женщины каким-то образом обладают более высокой квалификацией, чем мужчины, для воспитания детей.

Замечательно, что правительство наконец-то взялось за эту проблему. Приятно видеть, что принятие законов против дискриминации не означает ее прекращения. Но что нам нужно сейчас увидеть, так это какие-то действия, чтобы это изменить. И разделение отпуска между двумя родителями ребенка поровну – очевидный и справедливый способ сделать это.

До тех пор, пока мужчины не станут с равной вероятностью брать отпуск из-за ребенка, которого они родили в мир, такая скрытая дискриминация подмигивает и подмигивает – и она будет по-прежнему влиять на женщин, которые не намерены или не могут иметь детей, как и те, у кого есть.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *