Volovich Mikhail. Hur det är skrivet på Internet. Versaler och punkter i rubriker

Hur skrivs det på internet?

Mikhail Volovich. Hur skrivs det på internet?


Tillägnad Rambler

Många redaktioner har "interna standarder" - skrivna eller oskrivna tillägg till de vanliga reglerna för stavning och skiljetecken. De reglerar skrivning av nya ord, placering av versaler och citattecken och andra svåra fall och varnar för vanliga misstag.

2001 var jag själv tvungen att etablera och implementera sådana interna standarder på Rambler Internet holding. Men då, tyvärr, förblev reglerna oskrivna. Denna korta artikel är ett försök att sammanfatta den samlade erfarenheten (bättre sent än aldrig). Jag hoppas att det kommer att vara användbart för någon - inklusive, kanske, på Rambler.

Och en personlig dedikation, också kopplad till Rambler, till minnet av Sergei Brovtsyn, en av de mest tacksamma lyssnarna av mina rekommendationer.

Spelar det ingen roll hur

Populariteten och den kommersiella framgången för en internetresurs beror på "redaktionella" egenskaper - såväl som på kvalitet i allmänhet - men inte primärt. Få människor, när de kommer till webbplatsen, uppmärksammar sådana små saker som stavfel (särskilt om de inte är för grova), inkonsekvenser och dålig design.

Och ändå platsen för ett välrenommerat företag, där i mitten av orden träffa extra bindestreck (spår av manuella bindestreck) ser inte längre så solida ut. Jag åtar mig inte att bevisa det, men jag är personligen säker på att redaktionellt arbete och helt enkelt god smak lönar sig överallt, inklusive på Internet.

Internet, Internet, Internet

Låt oss börja med det mest pressande: trots allt Internet eller Internet?

I Russian Spelling Dictionary från 1999 spelades det in Internet; Språkövningar är också mer benägna att vara på hans sida, men trenden går helt klart mot att "sänka" bokstaven. Till exempel skriver tidningen Vedomosti (för nu?) konsekvent Internet- men Kommersant förlag tillkännagav offentligt övergången till Internet; Till och med tidigare gjorde vissa internetresurser detta.

De viktigaste argumenten för små bokstäver (”små”) är:

Det ryska språket tenderar att förvandla egennamn till vanliga substantiv, och med Internet detta har redan hänt (som hänt tidigare med kopiator Och blöja); Internet- inget annat än en kommunikationsmiljö (alternativ: "sändningsmetod", "informationskultur"), på samma sätt som telefon, TV eller Tryck.

De viktigaste argumenten för stora bokstäver:

Internet fortfarande är namnet på ett unikt objekt, ett egennamn - samma, till exempel som Mars, Interpol eller talibanerna. Internet är inte bara ett "medium" och absolut inte en "sändningsmetod" (mitt öra vägrar att uppfatta uttryck som * rapportera online). Detta är ett specifikt datornätverk; under de senaste 10 åren har det vuxit mycket, men har behållit sin individualitet, det har sina egna lagstiftande organ, infrastruktur, etc.; det är inte svårt att föreställa sig ett annat globalt datornätverk, parallellt eller alternativ till Internet.

(Förresten, på engelska Internet- nästan alltid Internet, med den bestämda artikeln, och det verkar inte finnas någon debatt om versaler.)

Om anhängarnas argument Internet verkar övertygande för dig, eller så är du helt enkelt rädd för att hamna på efterkälken i livet - skriv Internet. Men jag tror fortfarande på det Internet- riktigt namn. Så jag skulle rekommendera:

  • Internet, oönskat * Internet;
  • Netto(när det kommer till internet), World Wide Web; Men World Wide Web;
  • Runet, fel * Runet(det kan absolut inte betraktas som en "översättningsmetod").

Dock i sammansatta ord som internetleverantör, onlinebibliotek ord Internet fungerar som en definition. Att skriva det i sådana fall med stor bokstav är ett ganska allvarligt misstag. Ett annat mycket vanligt misstag är att skriva sådana formationer i två ord, utan bindestreck.

  • Internetkafé, Internetresurs, Internet offentligt och så vidare.; fel * Internetresurs, *Internetresurs.

Ord Internet- såväl som Interpol Med talibanerna- bör böja sig om man står ensam. Skrivet med latinska bokstäver, Internet, Interpol, talibanerna, naturligtvis, de bugar sig inte; men alla dessa ord har länge antagits av det ryska språket, och det finns ingen anledning att skriva dem på latin.

  • på internet, Internetanvändare, Internetanvändare; fel * på internet, *Internetanvändare; oönskat * på internet.

Webbläsare, tagg, offline

Det finns många ord som du stöter på varje gång på Internet i en mängd olika stavningar, men som tills helt nyligen inte fanns i ordböcker.

Många av dem är som jag själv Internet- inkluderad i Russian Spelling Dictionary 1999, redigerad av V.V. Lopatin. Många andra ingick i de mer än ett och ett halvt tusen ord som har lagts till i den elektroniska versionen av denna ordbok sedan 1999.

  • webbläsare, webbläsare(fel * webbläsare, *webb);
  • märka, HTML-tagg(fel * märka), varumärke, märkesvaror(fel * varumärke); cache, cache(fel * cache); hashtabell;
  • uppkopplad, uppkopplad Och i onlineläge,uppkopplad; off-line, off-line; offshore, offshore(rekommenderas inte * uppkopplad, *off-line, *off-line, *offshore);
  • trafik(fel * trafik);
  • spelare, internetspelare(rekommenderas inte * spelare, även om det här alternativet finns inspelat i vissa ordböcker);
  • PR(fel * PR), PR-byrå(eller PR-byrå), PR, PR-man;
  • fastighetsmäklare(fel * fastighetsmäklare, *fastighetsmäklare; För tio år sedan försökte jag fixa det fastighetsspecialist, men han vann); distributör(samtidigt som jag kämpade för distributör, men också misslyckat);
  • roaming; Halloween; helgen; ljudspår;
  • prislista(även om det är bättre att använda ett ord som också är lånat, men tidigare rotat på det ryska språket prislista; fel * prislista); bästa sändningstid.

Ordboken "övertar" på något sätt den etablerade litterära normen och fokuserar i förväg på de förändringar som den ortografiska kommissionen under ledning av V.V. Lopatin avser att göra i rysk ortografi. Dessutom kan något förändras från den nuvarande elektroniska versionen till den nya upplagan av ordboken. Strängt taget är det inte nödvändigt att lyda hans rekommendationer; till exempel i Kommersant skriver man konsekvent distributör Och fastighetsmäklare, A spelare förekommer inte mindre ofta än spelare.

Men om det finns "avvikelser" förefaller det mig rimligt att lyssna på rekommendationerna från den mest auktoritativa stavningsuppslagsboken hittills.

CD-ROM, e-post, Java

  • e-post, e-post", e-post "om; Ryska motsvarigheten, bättre än E-post eller e-postadress, inte än (men om du verkligen vill ha något konverserande är det bättre enligt "tvål" eller via e-post, hur * via e-post eller * via e-post);
  • cd-rom, cd-rom; CD, och om "på ryska", då CD;
  • Ord, i ord(skrift * i ord vardagligt och därför oacceptabelt i anständiga texter); Excel, om Excel, ...;
  • Java applet(språknamn Java på ryska är det inte avgjort, så det är bättre att skriva det på latin).

Det viktigaste är att vara konsekvent

I slutändan är det inte det som spelar någon roll Hur vi skriver och hur konsekvent. Ord Internet Du kan skriva med stor bokstav, eller så kan du skriva med liten bokstav (se ovan). Men det betyder inte att det är möjligt att göra båda. Vi måste fatta ett beslut och följa det.

När jag på en skärmsida (på en utskriven sida, tack och lov, behövde jag inte) ser två nyheter - en om bin Laden Och al-Qaida, och den andra om Bin Laden Och Al Qaeed(och en nämner en palestinsk stad Ramallah, och i den andra Ramallah), - Jag klättrar på väggen.

Det är dåligt när det finns perioder i slutet av rubrikerna (se nedan) - men det är ännu värre när det ibland finns perioder, ibland inte.

Du kan inkludera följande skiljetecken i dina länkar, eller så kan du inte inkludera dem - men det är bättre att inte göra det eller det.

Text dekoration

  • Nej! - stora ostrukturerade volymer text.

Den maximala längden på ett stycke som jag (användaren) är redo att läsa från skärmen är 6-8, ja, 10 rader. Då hoppar jag ändå: i bästa fall till nästa stycke, i värsta fall till nästa sida.

Det är också mycket lämpligt att dela upp texten i små fragment (kapitel) med separata rubriker.

  • Nej! - radbrytningar (
    ). Ja! - fullständiga stycken (

    Eller

    ).

Standard HTML lämnar webbplatsens skapare med väldigt lite valmöjligheter: antingen följer stycken i rad och håller ihop, eller så hoppas en hel rad över och texten blir svullen. Av två ondska är det första mycket värre. Gränserna för stycken som följer efter varandra utan luckor är mycket dåligt synliga, texten ser ut att vara odelad. Och om den sista raden i ett stycke är tillräckligt lång kan gränsen försvinna helt.

  • Ja! — numrerade och onumrerade listor (punktlistor)

Du behöver bara se till att du tydligt kan se var varje element börjar och slutar. I det här fallet är listan lätt att skumma, vilket är väldigt viktigt när man läser från skärmen.

  • Ja! - att markera viktiga platser i fetstil eller kursiv stil (men inte i alltför stora mängder). Nej! - understryker externa länkar.

Det är bekvämt när ögat har något att ta tag i; detta hjälper dig att snabbt skanna texten och förstå vad du behöver läsa i den och vad du inte borde - en mycket värdefull kvalitet för Internet. Understrykning är dock felaktig: den är reserverad för länkar och all annan användning av den kommer att förvirra webbplatsbesökare.

Versaler och punkter i rubriker.

Den här rubriken innehåller medvetet ett fel som är mycket vanligt på Internet och mycket kränkande i ett land med så rika kulturella traditioner. I den (du har säkert märkt) börjar alla ord med stora bokstäver.

Så här är det vanligt att formatera rubriker inte på ryska utan på engelska. (Och på engelska är det vanligt att skriva veckodagar och månader, namnen på folk och adjektiv från dem med versaler. Och kommatecken på engelska placeras helt annorlunda än på ryska. Och orden är annorlunda. Och till och med bokstäver... Och på tyska, i allmänhet, skrivs alla substantiv med versaler.)

Den ryska traditionen att designa tryckta texter kräver att man bara anger en stor bokstav i rubriker - i början (plus egennamn etc.). Rubriker skiljer sig från vanliga meningar på bara ett sätt: det är inte vanligt att sätta punkt i slutet av rubriker (liksom bildtexter under fotografier).

Yo

Internet är arvtagaren till tryck, inte skriven text. Oavsett om det är bra eller dåligt, pricka prickarna i tryckt text. e accepteras inte (förutom ordböcker, utbildningslitteratur etc.). En kemibok innehållande e, skulle se ovärdigt ut - och lika ovärdiga är sajter där e inte värt det e. (Därför, innan du publicerar ett dokument i en bok eller på Internet, måste du ofta göra ett till synes onödigt och absurt arbete: hitta det markerade e och ersätt dem med e.)

Naturligtvis böcker och webbplatser där e Ibland är det markerat, ibland är det inte, de ser ännu mer ovärdiga ut.

Men om punkterna ovan e hjälpa till att klargöra innebörden, lösa homonymi ( gjorde allt - gjorde allt), rekommenderas de fortfarande att installeras. Jag brukar gå e i ett ord Allt, även när den förväxlas med Allt svårt nog.

Citat och streck

När jag arbetar i Word sätter jag alltid ett streck och nästan alltid - fiskbenscitattecken, och i engelsk text - fotcitattecken (jag har den automatiska ersättningsfunktionen inaktiverad, så jag gör detta medvetet "för hand") mig att formatera de dokument jag skapar i enlighet med "bok"-standarder, och de korrekta bindestreck och citattecken är en integrerad del av dem.

Jag måste dock se till att i mina dokument och andras dokument ersätts citattecken med enkel (", ") och bindestrecket med ett vanligt bindestreck (-) innan de publiceras på webben överväganden (kompatibilitet med andra kodningar och operativsystem) är viktigare än skönhet.

Poängen är att strecket - , Julgran citat « » och tassar (dubbla “ ” och singel ‘ ’ ) och några andra tecken (till exempel nummer E, paragraf § , ellips , ppm , mittpunkt , plus eller minus ± ), som finns i "Windows"-kodningen (Windows-1251), i koi8-r och andra ryska kodningar, där användaren mycket väl kan ta emot dem, saknas eller är på fel ställen. När text matas ut med en annan kodning än Windows-1251 kan dessa tecken bli förvrängda (Cheburashkas börjar köras i texten). Det är möjligt att du i detta stycke inte ser de tecken som jag nämnde ovan, utan några obegripliga ikoner; om inte, har du utan tvekan sett sådana ikoner på andra webbplatser.

Specialtecken som - (streck) och ‰ (ppm) räddar inte situationen, eftersom det helt enkelt inte finns några motsvarande tecken i koi8. Den vackraste vägen ut ur situationen är att publicera texter i Windows-1251 och konfigurera programmen så att vid byte till koi ersätts bindestrecket automatiskt av ett bindestreck, siffertecknet ersätts med bokstaven N, och så vidare. Detta kräver dock speciell programmering och är inte alltid möjligt. Därför måste vi motvilligt ge följande rekommendation.

  • Innan du publicerar text på Internet, såvida inte din server har särskilda åtgärder för korrekt visning av "specialtecken", måste du ersätta alla typer av citattecken med enkla citattecken, ett bindestreck med ett bindestreck och ett siffertecken med en bokstav. N eller ordet "nummer" och så vidare.

Och än en gång om Rambler

  • "Vandrare", på Rambler; oönskat * Vandrare.

Rambler valde ett ryskt namn för sig själv i början av 2000, det är inskrivet i dess officiella namn (JSC Rambler Internet Holding). Vandrare de som minns det från mycket gamla tider fortsätter att kalla Rambler Stekovskij.

  • med Internet som håller Rambler, mycket oönskat * med Rambler Internet Holding!

Det råkade bara vara så att ett inte helt korrekt namn lagstiftades (för vem det inte händer - titta Ashmanov och partnersäven skrivet på engelska sätt med två versaler). Detta officiella namn på Rambler kan och bör användas som ett citat, till exempel: i OJSC (företag) Rambler Internet Holding. men* på Rambler Internet Holding låter monstruöst!

  • Rambler's Top100 Så här ska det skrivas. Fel * Rambler Top100, *Rambler Top100, *Topp 100, *Topp 100 och så vidare.

Anteckningar

Jag citerar Artemy Lebedev från sajten redactor.ru: "Det är anmärkningsvärt att de flesta skriver Internet Med stor bokstav avböjer de ofta inte detta ord och lägger till konstruktionen "internationella globala datornätverk", som är ett exempel på uppenbart gammaldags tänkande. (

Vid första anblicken är de helt oviktiga för kommersiella förfrågningar. Det finns korrelationer med position i Yandex endast för en liten del av textparametrarna, och även då är de svaga. I de första tre och i de tredje tio sökresultaten är antalet förekomster av frågan i texten på sidan ungefär detsamma - och detsamma kan sägas om titeln, om rubrikerna h1-h4 osv.

Men i verkligheten, trots allt detta, är textmässiga faktorer kritiskt viktiga. Om vi ​​jämför TOP 30 av Yandex för kommersiella frågor och lika relevanta sidor som inte ingick i den (från TOP 30 av Google och Mail.ru), visar det sig att värdena för nästan alla textparametrar i TOPPEN av Yandex är statistiskt signifikant - och mycket märkbart - högre.

Detta innebär med största sannolikhet att textfaktorer fungerar i de preliminära stadierna av rangordningen - när cirka tusen resultat väljs ut, som sedan rankas ytterligare i detalj.

Det vill säga, om du inte har tillräckligt många förekomster av en fråga (eller enskilda ord från en fråga) på din sida, minskar dina chanser att komma in i Yandex TOP kraftigt.

Så för frågan "ljuskronor" i TOP 30 av Yandex finns det bara två resultat där ordet "ljuskrona" visas mindre än 40 gånger - lutron.ru med 23 förekomster och ljuskrona.rf med fyra (plus en till i domännamnet). Medan i TOP 30 Google finns det 5 sidor där "ljuskrona" förekommer mindre än 10 gånger. Det genomsnittliga antalet förekomster av "ljuskrona" i texten på en sida för Yandex TOP 30 är 64, mot 48 för Google och 30 för sidor från Google och Mail.ru-topparna som inte ingick i Yandex TOP.

Hur skiljer sig situationen med textfaktorer i Google från Yandex?

I Google finns det tvärtom märkbara korrelationer mellan textfaktorer och position – ju närmare TOPP 1, desto högre värden. Men å andra sidan är "indatafiltret" inte synligt, som i Yandex, och medelvärdena för textparametrar är vanligtvis något lägre.

Men det finns mycket gemensamt. Så i båda sökmotorerna är rankningsfaktorerna starkare ju längre vi går från "bokstaven" i frågan. Den exakta formen av begäran, verkar det som, inte längre särskiljs av sökmotorer från alla andra. Antalet enskilda frågeord utspridda i texten är viktigare än hur många gånger de förekommer tillsammans. Viktiga är också synonymerna till frågeorden och i ännu högre grad "tillägg" - de ord som sökmotorerna själva lyfter fram i utdragen.

Läs mer om detta i vår stora analytiska rapport om rankningsfaktorer, förberedd inför konferensen Optimization 2017.

Låt oss återvända direkt till Yandex. Sökmotorns blogg säger att "Baden-Baden" är fokuserad på överoptimerade texter. Du analyserar sajter under "Baden". Baserat på dina observationer, vilka specifika funktioner fokuserar Yandex-algoritmen på? Varför faller webbplatser under "Baden-Baden"?

I princip är allt ganska tydligt formulerat i Yandex-bloggen: "De innehåller många upprepade nyckelord och onaturliga talmönster, men lite användbar information. Vi kallar sådana texter för överoptimerade...”

Det är lätt att se att Yandex förstår omoptimering på ett brett sätt - inklusive inte bara "sökordsspam", utan också låg naturlighet och värdelöshet för användaren.

Yandex gillar med andra ord inte SEO-texter. Dessutom har han inte gillat dem på länge (se mantran om webbplatser "gjorda för människor"), men nu har han lärt sig att känna igen dem och bestämt sig för att straffa dem för dem.

Hur han exakt känner igen dem är en separat och mycket mindre viktig fråga. Det kan vara många faktorer, och de relaterar till alla tre komponenterna i SEO-text – ett överflöd av sökord, onaturlighet och låg användbarhet. Olika frekvensparametrar (både relaterade till förfrågningar och inte relaterade); ordförråd typiskt för SEO-texter; textblockets längd och position; förekomst av dold text; textens struktur. Och det här är inte en komplett lista.

Troligtvis löstes problemet på ett rent praktiskt sätt. Faktorer som redan används av Yandex för andra uppgifter (till exempel vid rankning) användes maximalt; ett antal nya faktorer lades till dem, utvecklade specifikt för denna uppgift. Maskininlärning kördes så många gånger som nödvändigt för att uppnå den nödvändiga fullständigheten och noggrannheten. Sedan genomförde vi A/B-tester – och in i strid.

Vi försökte inte ta reda på exakt vad Yandex tar hänsyn till - det finns uppenbarligen inte tillräckligt med data för detta, och i slutändan är det inte så viktigt. Vi försökte lära oss att identifiera och utvärdera SEO-texter. Och jag tycker att vi gjorde det bra. Dessutom är det viktigt att vi inte bara ger en sammanfattande bedömning, utan lägger ner allt i detalj och på så sätt visar vad som skulle vara bra att rätta till.

Hur stor procentandel av innehåll av låg kvalitet är acceptabelt på en sida? Hur mycket ska det vara för att vara försiktig med ett sidfilter? Och hur lång tid tar det för hela webbplatsen att filtreras?

Procentsatser spelar ingen speciell roll. För att börja slåss mot SEO-texter måste Yandex först lära sig att förstå strukturen på en webbsida - markera navigeringsområden, en "showcase", recensioner, annonser, olika andra block - och SEO-text. Storleken på "honungstunnan" (innehållsdelen av sidan) spelar ingen roll. Storleken på "flugan i salvan" är viktig. Ju större den är, desto värre är den. Men den kan också vara relativt liten. Låt oss säga att två tusen tecken definitivt räcker. Kanske räcker det tydligen med ett par stycken av medelstorlek - mindre än tusen tecken, ett hundratal ord. Det är svårt att säga mer exakt. Faktum är att det finns tre typer av sidor som är viktiga för B.-B.:

1) de som föll under sidfiltret;

2) de som faller under webbplatsfiltret;

3) de som anges av Yandex tekniska support.

Och ingen av dem ger fullständig klarhet.

Tyvärr vet vi ganska lite om sidfiltret: det fanns inga sådana personer bland Ashmanovs och Partners kunder; Turgenev-användare rapporterar oftare om ett webbplatsfilter, det finns få publikationer "i öppna källor" etc. De fall som vi känner till delas in i två kategorier - grova (stora "frotté" SEO-texter, mycket "tjära") och tvivelaktiga (trafiken föll strax före tillkännagivandet av den nya algoritmen, så webbplatsägaren tror att detta är "Baden" -Baden”, men vi är mycket vi tvivlar på det).

Mycket mer är känt om webbplatsfiltret. Men det är nästan omöjligt att avgöra exakt vilka sidor som beaktades vid sanktioner, så de är inte heller lämpliga för att bestämma trösklar. De berörda sajterna har sidor med stora SEO-texter som helt klart förtjänar "Baden-Baden" - och dessa inkluderar ofta sajtens huvudsida och sidorna i huvudsektionerna. Och det finns också sidor med väldigt korta textblock, och utan dem alls. Vad sajten straffades för är lätt att förstå utifrån dessa data, men var Yandex drar gränsen är svårt.

Slutligen är den tredje typen av sidor de som Yandex själv pekar på när de svarar på förfrågningar från webbansvariga. Dessa sidor verkar vara specifika, och ett antal av dem är kända, men problemet är att de ofta inte är särskilt avslöjande. Grovt sett, om alla sådana (och värre) sidor var under sanktioner, skulle Yandex helt enkelt inte ha något att hitta. Man kan tänka sig att sådana sidor orsakar robotar några påståenden, men i alla fall som vi känner till på samma webbplatser som det fanns mycket värre sidor (inklusive ofta webbplatsens chef). Dessa webbplatser förtjänar verkligen "B.-B." - men de sidor som Yandex anser nödvändiga att visa spelade inte den första rollen i detta.

Om vi ​​pratar om marknaden, enligt dina observationer, hur många webbansvariga "kom till sina sinnen" efter lanseringen av Baden-Baden?

Förvånansvärt många, trots den mycket riktade tillämpningen av sanktioner hittills.

Nu är två huvudsakliga konkurrerande strategier tydligt synliga - spela säkert eller vänta på att den stekta tuppen ska picka. Vi rekommenderar verkligen inte den andra.

För att undvika sanktioner räcker det att ta bort eller redigera uppriktigt sagt onaturliga texter. De är vanligtvis synliga för blotta ögat – men du kan kolla med Turgenev. För att bli av med sanktionerna som redan har utfärdats till dig måste du slutföra ett uppdrag - för att gissa varför Platon inte gillade sidan han skickade, och hur många fler det finns. Att förebygga är billigare än att bota.

I december tillkännagav du Turgenevs textanalysator. Berätta för oss hur och på vilken data du tränade analysatorn? Vad var provet?

Det finns egentligen ingen maskininlärning där. Det finns algoritmer och ordböcker. De har utvecklats och felsökt på materialet på flera hundra sidor som faller under "Baden-Baden", från cirka fem dussin olika webbplatser, såväl som många tusen andra texter, vars kvalitet vi bedömde oberoende.

Strängt taget såg vi vår uppgift som att lära oss hur man effektivt automatiskt identifierar överoptimerade texter – och, lika viktigt, förklara exakt vad som är fel på dem. Maskininlärning skulle inte tillåta detta.

Förresten, även i fall där ett direkt hot mot "B.-B." nej, Turgenev är användbart för webbansvariga och copywriters, eftersom det hjälper till att uppmärksamma och korrigera onaturliga upprepningar, stilfel och andra liknande problem.

Hur avgör Turgenev att det eller det innehållet måste läggas till/ta bort? Vilka material jämför tjänsten texten med vid analys? Till exempel med liknande som redan finns i databasen; hämtade från sökresultat i realtid; baserat på medelvärden av allt innehåll etc.?

Vi utvecklade först parametrarna som ansvarar för Baden-Baden-risken inom Search Analytics Laboratory, och först då kom idén att göra en allmänt tillgänglig tjänst. Därför har vi två olika versioner av "Turgenev": den som publiceras på turgenev.ashmanov.com, för alla, och den "inre Turgenev", för våra kunder. Den interna versionen av algoritmen fungerar med webbsidor och tar hänsyn till sammanhanget för förfrågningarna de ska finnas på. Till exempel uppskattar den storleken på ett textblock och vatteninnehåll baserat på prestanda för sidor i Yandex TOP för specifika frågor.

Den offentliga versionen fungerar endast med texter (denna begränsning gjorde det möjligt att göra tjänsten gratis) och har därför inget att jämföra materialet som testas med. Den bedöms helt enkelt enligt flera parametrar, får straffpoäng om det finns några och som ett resultat bedöms risken utifrån summan av poäng för olika parametrar. Vi rekommenderar inte att du lägger till eller tar bort innehåll - vi identifierar helt enkelt problem, och vad vi ska göra åt det är upp till författaren till texten eller webbplatsägaren att bestämma.

På fliken "Repetitioner" beräknas frekvensen av ord och fraser, och en enkel modell byggs för att utvärdera förekomsten av "superfrekventa" ord. I SEO-text är det vanligtvis orden som den är (om)optimerad för. Det totala antalet repetitioner i texten bedöms också - för detta använder vi en parameter älskad av SEO:are med det konstiga namnet "akademiskt illamående", som vi var tvungna att återuppfinna, eftersom dess recept, som det visade sig, hålls hemligt. Tröskelvärdena för det är ganska höga - straffpoäng börjar från akademiskt illamående 10.5, det vill säga bara texter med ett riktigt stort antal repetitioner "bestraffas". Och texten kan också få en poäng för den mycket höga frekvensen av konjunktionen "och" - det här handlar mer om stilistik för att fånga texter där "erfarna och kunniga läkare garanterar kodning och att bli av med ett beroende."

På fliken "Stylister" räknas helt enkelt förekomster av flera typer av ord och fraser i texten. Dessa är, för det första, siffror som är karakteristiska för dåliga SEO-texter. Till exempel fragment För att vara säker på detta val föreslår vi att du granskar produktens nyckelegenskaper eller alla vet att en tvättmaskin är en viktig egenskap hos badrummet sorterades av oss i nästan spårlöst citattecken, och nu kommer varje text där "var övertygad om detta val" finns att få för detta en viss mängd "stilistiska kvanta", som efter en viss tröskel förvandlas till straffpoäng. Dessutom noteras olika stilfel, klerikalism, överdrivet talspråkiga uttryck och mycket mer. De är också hämtade från SEO-texter, och även om många av dem inte i sig gör texten onaturlig, om det är många av dem, blir detta ett problem, vars svårighetsgrad uttrycks i straffpoäng.

På fliken "Requests" noteras förfrågningar som finns i texten från en medelstor "kommersiell" lista (cirka två och en halv miljon). Om förfrågningstäckningen är hög kan detta tyda på överoptimering.

De återstående två flikarna ger poäng mer sällan och mycket lite åt gången. "Vattenhalt" - för en låg andel meningsfull text. "Läsbarhet" - för text som innehåller många långa meningar och långa ord.

Hur mycket kan data för samma text variera från dag till dag?

Vanligtvis en hel del. Vi fortsätter att förbättra algoritmer och utöka ordböcker, men sannolikheten att något kommer att förändras märkbart för din text är mycket liten. Ett sällsynt undantag är om vi använde din text idag för att fylla på ordböcker.

Hur noggrant avgör Turgenev risken för att en webbplats faller under Baden-Baden?

Varje gång vi lär oss om ett nytt exempel på en webbplats eller sidor som faller under filtret, kontrollerar vi Turgenevs arbete med dem. I 95% av fallen klarar det sig - det visar en kritisk eller hög risk. I den meningen är allt bra - bara vi rekommenderar att du kontrollerar flera texter från sajten (och definitivt SEO-texter, och inte hela sidor).

Men detta betyder naturligtvis inte att någon text som Turgenev visade en hög risk för kommer att falla under filtret i morgon. Höga poäng indikerar helt enkelt att texten är uppstyltad, överoptimerad och i behov av redigering. Det finns fortfarande många av dem i Yandex TOP - inklusive i de första positionerna, särskilt för informationsförfrågningar. Varför är inte en fråga för oss.

Yandex-representanter, när de är omgivna av SEO-specialister och tävlar med varandra och frågar varför min sida är under ett filter, och sådant och sådant, ännu värre, är gratis, brukar svara: "Det är inte kväll än, allt har sin tid."

Vi kan bara ansluta oss till detta svar.

Det är sant att falska positiva resultat är möjliga om texter kontrolleras som Turgenev inte är designad för. Till exempel får många lagar och andra juridiska dokument många poäng för upprepning och några fler för stil och läsbarhet. Ja, lagar är inte heller de mest naturliga texterna, skrivna i långt ifrån den bästa stilen, om än inte överoptimerade.

"Turgenev" är endast utformad för kommersiella webbplatser? Eller passar den även för informationsportaler? När allt kommer omkring verkar det som att SEO-text finns både där och SEO-text.

SEO-texter är olika, och problemen, främst stilistiska, i överoptimerad informationstext är något annorlunda än i kommersiell text. Från texter som Innan du svarar på frågan: "Doxycyklin - vad är dessa tabletter för?", bör du berätta vilken sammansättning detta läkemedel har du måste samla markörer som är karakteristiska för dem.

Vi gör det här lite i taget, och sådana texter fångas också upp, om än något värre än kommersiella. Till exempel fick sidan från vilken citatet i föregående stycke togs bara 5 poäng, även om det naturligtvis förtjänar mer. Men å andra sidan visas den här texten i Yandex TOP i den allra första positionen (för frågan "doxycyklintabletter" i skrivande stund). När Yandex börjar tillämpa "Baden-Baden" på "textdumpar", kommer vi att ge dem den uppmärksamhet de förtjänar, och de kommer att fångas väl.

Vi känner fortfarande inte till ett enda bekräftat exempel på användningen av "B.-B." till informationssajter. Vi blir väldigt tacksamma om någon av läsarna ger oss sitt kommer skicka- som faktiskt alla exempel på "Baden-Baden". Intresset här är ömsesidigt - vi diskuterar gärna ditt ärende med dig, och det hjälper oss att förbättra tjänsten för alla.

Hur planerar du att utveckla Turgenev, i vilken riktning?

Vi har inte på allvar tänkt på globala planer ännu, men lokalt arbetar vi med flera flikar samtidigt. Till exempel kommer vi att radikalt förbättra fliken "Förfrågningar" - och samtidigt påskynda utfärdandet av svar (faktorer relaterade till förfrågningar anses nu vara längre än alla andra).

Verkställande partner i företaget

En av de mest kända cheferna i Runet, en specialist inom området artificiell intelligens, mjukvaruutveckling och projektledning. Managing partner för företaget "Ashmanov and Partners". Utexaminerad från fakulteten för mekanik och matematik vid Moscow State University, kandidat för tekniska vetenskaper.

Igor Ashmanov har varit involverad i informationsteknologi sedan 1983. Han ledde utvecklingen av Orfos stavningskontrollprogram inom informatik, var delägare och generaldirektör för företaget MediaLingua, som producerade MultiLex-ordböcker, och var verkställande direktör för Rambler Internet holding. Under denna tid släppte han flera dussin projekt, inklusive:

  • Språkmodul ORFO (program för stavning och stilkontroll, synonymordbok, avstavningsmodul) i den ryska versionen av Microsoft Office, som används av miljontals människor i hela Ryssland;
  • Elektroniska ordböcker "MultiLex", som fortfarande är det bästa professionella översättarverktyget i Ryssland;
  • En version av Ramblers sökmotor som släpptes 2001, och de flesta webbplatser och tjänster på Rambler-portalen innan de uppdaterades 2012.
  • Spamfilter "Spamtest", som skyddar tiotals miljoner användare (säljs nu under varumärket "Kaspersky Antispam").
  • Nyhetssökmotorn Novoteka, som samlar och samlar nyheter från hundratals källor.
  • People's search "Flexum" är en tjänst för att skapa tematiska sökmotorer.

Igor Ashmanov är medlem i International Union of Internet Activists "EZHE", två gånger vann nomineringen "Person of the Year" i ROTOR-nätverkstävlingen (i ROTOR 2004 och i ROTOR-2006), inom ramen för "EZHE" rörelse finns ett galleri av framstående nätverksfigurer, där har FRI Igor Ashmanov.

Företagspartner

Välkänd specialist inom området för mjukvaruproduktion. För närvarande engagerad i utvecklingen och utvecklingen av Semantic Mirror-teknologin och ett antal andra. Utexaminerad från fakulteten för fysik vid Moscow State University. Han undervisar i programmering på fysikavdelningen.

1999–2001 arbetade Alexey som sökprojektledare på Rambler, där en ny version av sökmotorn utvecklades och togs i drift under hans ledning.

1995–1999 var Alexey Ivanov teknisk chef för företaget MediaLingua, där han ledde utvecklingen av MultiLex-familjen av datorlexikon och många andra projekt.

2001–2005 deltog han i utvecklingen av Spamtest-spamfiltret på företaget Ashmanov and Partners.

2004–2007 - chef för Semantic Mirror-projektet och sökmotorprojektet Ashmanov and Partners.

2006–2012 - utvecklingsledare för projektet Search Engine Analyzers.

2010–2011 - chef för projektet "socialt sökning" Flexum.ru.

Från 2011 till 2016 var han projektledare för Wada.vn, en sökmotor för det vietnamesiska segmentet av Internet.

Under 2015–2016 - utvecklingschef för WadaMarket.com, en produktsamlare för vietnamesiska online- och offlinebutiker).

Företagspartner

Specialist i Ryssland på internetteknik, utveckling av komplexa sajter, hög belastning, stora datamängder. På Ashmanov and Partners utvecklar han en sökmotor.

De mest kända var Russian Internet Surveys egna projekt och den ryska Apache-webbservern som driver mer än hälften av alla Runet-sajter.

En av de bästa specialisterna i Ryssland inom internetteknik, utveckling av komplexa webbplatser och internettjänster, hög belastning, stora datamängder. Utexaminerad från geologiska fakulteten vid Moskvas statliga universitet.

Alexey är mest känd för sina egna projekt, Russian Internet Survey och den ryska Apache-webbservern.

1999-2001 var Alexey chef för Rambler's Top100-projektet på Rambler Internet holding.

Sedan 2001 - anställd och delägare i företaget "Ashmanov and Partners".

2004-2006 var han teknisk direktör för Search Technologies-företaget, författaren till Novotek-nyhetssökmotorn och nyhetsutbytesnätverket.

Sedan 2008 har han varit teknisk chef för LibRaw LLC, som utvecklar mjukvara och utvecklingsverktyg för digital fotografering.

För närvarande finns inga projekt i företaget.

Alexey Tutubalin är medlem i International Union of Internet Activists "EZHE", vann tre gånger i kategorin "Årets forskare": i nätverkstävlingen ROTOR 2006, i tävlingen ROTOR++ 2007 och i tävlingen ROTOR 2008, inom ram för rörelsen "EZHE" finns ett galleri av framstående nätverksfigurer, som innehåller .

Företagspartner

En specialist på produktion av IT-applikationer, som kombinerar kunskaper och färdigheter hos en chef, programmerare och lingvist. På Ashmanov and Partners är han ansvarig för artificiell intelligensteknologi.

Utexaminerad från fakulteten för filologi vid Moscow State University, Institutionen för tillämpad lingvistik.

1996–1999 arbetade Kirill Zorkiy som chef för lingvistikavdelningen på MediaLingva och producerade MultiLex-ordböcker. Handledde framställningen av data för elektroniska ordböcker, utvecklade datormorfologier för flera språk.

1999–2001 arbetade Kirill som chef för avdelningen för innehållsprojekt på Rambler, under vilken tid han släppte flera dussin Rambler-innehållsprojekt.

Sedan 2001 har Kirill Zorkiy varit anställd och delägare i Ashmanov and Partners.

2001–2005 var han chef för projektet Spamtest.

2005–2007 - chef för antispamavdelningen på Kaspersky Lab, chef för Kaspersky Antispam-projektet.

För närvarande är han teknisk direktör för företaget Nanosemantics.

Företagspartner

Kandidat för fysikaliska och matematiska vetenskaper, en av de bästa experterna i Ryssland inom utveckling av tekniskt komplex programvara, teknisk revision och IT-projektledning.

Utexaminerad från fakulteten för fysik vid Moscow State University, kandidat för fysikaliska och matematiska vetenskaper.

Åren 1996–1999 var Dmitry anställd i MediaLingua-företaget och deltog i utvecklingen av de flesta MediaLingua-projekt: elektroniska ordböcker, söktjänster, serverapplikationer, internetprojekt, etc.

2000–2001 arbetade Dmitry Pashko på Rambler Internet holding, först som chef för driftavdelningen och sedan som teknisk direktör. Under denna tid utvecklades, testades och publicerades mer än 30 projekt under hans ledning. I synnerhet år 2000 ledde Dmitry det unika internetspelprojektet "Vad? Var? När?”, i vilka team av experter som tävlade med det ”universella sinnet”.

Sedan 2001 har en anställd och delägare i Ashmanov och Partners deltagit i projekten Spamtest, SeoRate, Semantic Mirror, samt i utvecklingen av företagets webbtjänster.

Sedan 2013 har han lett Ashmanovs och Partners tekniska utveckling. Deltar i dotterbolagsprojekt till företaget relaterade till internetanalys och skydd av användare från oönskad information.

Företagspartner

Språkforskare, lexikograf, specialist på intellektuell teknik och webbanvändbarhet. Han har arbetat på Ashmanov and Partners sedan starten. Leder för närvarande sökanalyslaboratoriet.

Han arbetade som produktionsredaktör för Kommersant (då en veckotidning). Utvecklade den bästa avstavningsalgoritmen för det ryska språket hittills. Skrev den engelsk-ryska ordboken "Christianity". Förberedde data för MultiLex-ordböcker. Han var chefredaktör för Rambler-portalen. Han deltog (och fortsätter att delta) i skapandet av den utmärkta populärvetenskapliga webbplatsen Elementy.ru.

Sedan 2007 har han arbetat med projektet AnalyzeThis.ru - det här är mer än 70 automatiska analysatorer som utvärderar kvaliteten på sökningar på ryska, engelska, kinesiska och vietnamesiska. Han studerade fenomenet sökspam och utvecklade metoder för att bekämpa det. Hanterade beredningen av data och lingvisternas arbete för den vietnamesiska sökmotorn Wada.vn och Wada-marknaden.

2014-2015 arbetade hon som direktör för marknadsföring och extern kommunikation på Kribrum där hon ansvarade för tjänsteutveckling.

Sedan 2015 leder han kommunikationsbyrån Ça Va Agency.

Sedan 2017 har han varit generaldirektör för Ashmanov och Partners St. Petersburg.