Volovich mikhail. Hvordan det er skrevet på Internett. Store bokstaver og prikker i overskrifter

Hvordan staves det på Internett

Mikhail Volovich... Hvordan staves det på Internett


Dedikert til Rambler

Mange utgaver har «interne standarder» – skriftlige eller uskrevne tillegg til de vanlige stave- og tegnsettingsreglene. De regulerer staving av nye ord, plassering av store bokstaver og anførselstegn, andre vanskelige tilfeller, og advarer mot hyppige feil.

I 2001 måtte jeg selv sette og implementere slike interne standarder i Rambler Internet holding. Men så, dessverre, reglene forble uskrevne. Denne korte artikkelen er et forsøk på å oppsummere erfaringene (bedre sent enn aldri). Jeg håper det vil være nyttig for noen - inkludert, kanskje, i Rambler.

Og en personlig dedikasjon, også knyttet til Rambler, til minnet om Sergei Brovtsyn, en av de mest takknemlige lytterne til mine anbefalinger.

Spiller det noen rolle hvordan

Populariteten og den kommersielle suksessen til en Internettressurs avhenger på ingen måte av de "redaksjonelle" kvalitetene - så vel som av kvaliteten generelt - i utgangspunktet. Få mennesker, som har kommet til nettstedet, legger merke til slike bagateller som stavefeil (spesielt hvis de ikke er for grove), inkonsekvenser og dårlig design.

Og likevel stedet for et anerkjent selskap, som i midten av ordene møte unødvendige bindestreker (spor av manuelt innstilte bindestreker), ser ikke så solid ut lenger. Jeg skal ikke påta meg å bevise det, men personlig er jeg sikker på at redaksjonelt arbeid og bare god smak lønner seg overalt, også på Internett.

Internett, internett, internett

La oss starte med det mest brennende: tross alt Internett eller internettet?

I Russian Spelling Dictionary 1999 er det nedtegnet Internett; språkpraksis er også mer sannsynlig på hans side, men trenden går helt klart i retning av å «senke» bokstaven. For eksempel skriver avisen Vedomosti (for nå?) konsekvent Internett– men forlaget «Kommersant» annonserte offentlig overgang til internettet; enda tidligere gjorde noen Internett-ressurser det.

Hovedargumentene for en liten ("liten") bokstav:

det er vanlig at det russiske språket gjør egennavn om til vanlige substantiv, og med internettet dette har allerede skjedd (som skjedde med kopimaskin og bleie); internettet- ikke annet enn et kommunikasjonsmiljø (alternativer: "kringkastingsmetode", "informasjonskultur"), det samme som telefon, TV eller trykk.

Hovedargumenter for en stor bokstav:

Internett fortsatt forblir navnet på et unikt objekt, et egennavn - det samme, for eksempel som Mars, Interpol eller Taliban... Internett er ikke bare et "medium" og enda mindre en "måte å kringkaste" (øret mitt nekter å oppfatte uttrykk som * rapportere på internett). Dette er et spesifikt datanettverk; i løpet av de siste 10 årene har den vokst mye, men har beholdt sin individualitet, den har sin egen lovgiver, infrastruktur osv.; det er ikke vanskelig å forestille seg et annet globalt datanettverk, parallelt eller alternativt til Internett.

(Forresten, på engelsk Internett- nesten alltid internettet, med den bestemte artikkelen, og det ser ikke ut til å være noen debatt om den store bokstaven.)

Hvis argumentene til støttespillerne internett virke overbevisende for deg, eller du er rett og slett redd for å ligge bak tiden - skriv internettet... Men jeg tror fortsatt på det Internett- riktig navn. Så jeg vil anbefale:

  • Internett, uønsket * internettet;
  • Nettverk(når det kommer til Internett), Verdensveven; men verdensveven;
  • Runet, ikke riktig * runet(det kan absolutt ikke betraktes som en "overføringsmetode").

Imidlertid i sammensatte ord som Internett-leverandør, internett bibliotek ord internettet fungerer som en definisjon. Å skrive det i slike tilfeller med stor bokstav er en ganske grov feil. En annen veldig vanlig feil er å skrive slike formasjoner i to ord, uten bindestrek.

  • Internett-kafé, Internett-ressurs, offentlig internett etc.; ikke riktig * Internett-ressurs, *Internett-ressurs.

Ord Internett- som Interpol med Taliban- bør være tilbøyelig hvis du står isolert. Skrevet med latinske bokstaver, Internett, Interpol, Taliban, selvfølgelig, ikke bøy; men alle disse ordene har lenge vært mestret av det russiske språket, og det er ingen grunn til å skrive dem i det latinske alfabetet.

  • på internett, Internett-brukere, Internett-brukere; ikke riktig * på Internett, *Internett-brukere; uønsket * på internett.

Nettleser, tag, offline

Det er mange ord du møter på Internett ved hvert trinn i en lang rekke stavemåter, men som inntil helt nylig ikke var i ordbøker.

Mange av dem - som meg selv Internett- gikk inn i Russian Spelling Dictionary i 1999, redigert av V.V. Lopatin. Mange andre er inkludert i de 1500+ ordene som har blitt lagt til den elektroniske versjonen av denne ordboken siden 1999.

  • nettleser, nettleser(ikke riktig * nettleser, *web);
  • stikkord, HTML-tag(ikke riktig * stikkord), merket, br "endovy(ikke riktig * merke); penger, cache(ikke riktig * cache); hasjtabell;
  • på nett, på nett og i online-modus,på nett; offline, offline; offshore, offshore(uønsket * på nett, *off-line, *offline, *offshore);
  • trafikk(ikke riktig * trafikk);
  • spiller, Internett-spiller(uønsket * spiller, selv om dette alternativet er registrert i noen ordbøker);
  • PR(ikke riktig * PR), PR-byrå(eller PR-byrå), PR, PR mann;
  • Eiendomsmegler(ikke riktig * Eiendomsmegler, *Eiendomsmegler; for ti år siden prøvde jeg å bestemme det eiendomsspesialist, men han vant); distributør(da kjempet jeg for distributør, men også mislykket);
  • roaming; Halloween; helg; lydspor;
  • pris liste(selv om det er bedre å bruke også et lånt, men tidligere forankret i russisk ord pris liste; ikke riktig * pris liste); beste tid.

Ordboken "overgår" på noen måter den eksisterende litterære normen, og fokuserer på forhånd på endringene som rettskrivningskommisjonen ledet av V.V. Lopatin har til hensikt å innføre i den russiske rettskrivningen. I tillegg kan noe endre seg fra dagens elektroniske versjon til den nye utgaven av ordboken. Strengt tatt er det ikke nødvendig å adlyde anbefalingene hans; for eksempel i «Kommersant» skriver de konsekvent distributør og Eiendomsmegler, a spiller forekommer ikke sjeldnere enn spiller.

Likevel, i nærvær av "avvik", virker det for meg som det er rimelig å lytte til anbefalingene fra den mest autoritative rettskrivningsboken i dag.

CD-ROM, e-post, Java

  • e-post, e-post "på, e-post "ohm; Russisk tilsvarende, bedre enn E-post eller epostadresse, ikke ennå (men hvis du virkelig vil ha noe dagligdags, så er det bedre av "såpe" eller via post, hvordan * via epost eller * via epost);
  • CD ROM, CD-ROM "a; CD, og hvis "på russisk", da CD;
  • Ord, i ordet "e(staving * i Word i daglig tale og derfor uakseptabelt i anstendige tekster); utmerke, om Excel, ...;
  • Java-applet(språknavn Java på russisk er ikke avgjort, så det er bedre å skrive det på latin).

Det viktigste er å være konsekvent

Til syvende og sist er det viktig å ikke hvordan vi skriver, og hvor konsekvent... Ord Internett du kan skrive med stor bokstav, men du kan skrive med liten bokstav (se over). Men dette betyr ikke at det er mulig og så og så. Du må ta en avgjørelse og følge den.

Når jeg på én skjermside (på en trykt side, gudskjelov, det behøvde jeg ikke) ser to nyheter – en om bin laden og Al-Qaida og en annen om Bin Laden og Al-Qaida(med en som nevner en palestinsk by Ramallah og i den andre Ramallah), - Jeg klatrer på veggen.

Det er ille når det er perioder på slutten av overskrifter (se nedenfor) - men enda verre når det er perioder som er og ikke er det.

Du kan inkludere følgende skilletegn i lenkene, du kan utelate - men det er bedre å ikke gjøre dette eller det.

Tekstformatering

  • Nei! - store ustrukturerte tekstvolumer.

Maksimal lengde på et avsnitt som jeg (brukeren) er klar til å lese fra skjermen er 6-8, vel, 10 linjer. Da hopper jeg over uansett: i beste fall til neste avsnitt, i verste fall til neste side.

Det er også svært ønskelig å dele teksten inn i små fragmenter (kapitler) med separate overskrifter.

  • Nei! - linjeinnmating (
    ). Ja! - hele avsnitt (

    Eller

    ).

Standard HTML gir nettstedskaperen svært lite valg: enten følger avsnitt etter hverandre og henger sammen, eller så hopper de over en hel linje og teksten blåser opp. Av de to ondskapene er den første mye verre. Grensene til avsnitt som følger hverandre uten hull er svært vanskelig å se, teksten ser ut som den ikke er delt. Og hvis den siste linjen i et avsnitt er lang nok, kan grensen forsvinne helt.

  • Ja! - punktlister og nummererte lister

Du trenger bare å sørge for at du tydelig kan se hvor hvert element begynner og slutter. I dette tilfellet er listen lett å skumme gjennom øynene, noe som er veldig viktig når du leser fra skjermen.

  • Ja! - utheving av viktige steder med "fet" eller kursiv type (men ikke i overdrevne mengder). Nei! - understreker utenfor lenker.

Praktisk når øyet har noe å fange på; det hjelper å raskt skanne teksten og forstå hva som må leses i den og hva som ikke er det - kvaliteten er veldig verdifull for Internett. Det er imidlertid feil å understreke understreking: det er reservert for lenker og annen bruk vil desorientere besøkende på nettstedet.

Store bokstaver og prikker i overskrifter.

Denne overskriften er bevisst gjort en feil, som er veldig vanlig på Internett og svært støtende i et land med så rike kulturelle tradisjoner. I den (har du sikkert lagt merke til) begynner alle ord med store bokstaver.

Så det er vanlig å designe overskrifter ikke på russisk, men på engelsk. (Og på engelsk er det vanlig å skrive med store bokstaver ukedagene og månedene, navn på folk og adjektiver fra dem. Og kommaene på engelsk er plassert på en helt annen måte enn på russisk. Og ordene er forskjellige . Og til og med bokstavene ... På tysk er alle substantiv stavet med store bokstaver.)

Den russiske tradisjonen med å formatere trykte tekster krever at man bare setter én stor bokstav i overskriftene – i begynnelsen (pluss egennavn osv.). Overskrifter skiller seg fra vanlige setninger på bare én ting: det er ikke vanlig å sette punktum på slutten av overskrifter (samt bildetekster under fotografier).

Yo

Internett er arvingen til den trykte teksten, ikke den skrevne teksten. På godt og vondt, prikk over i trykt tekst e ikke akseptert (bortsett fra ordbøker, undervisningslitteratur osv.). En bok om kjemi, som inneholder e, ville det se uverdig - og nettsteder som på plass e ikke verdt det e... (Derfor, før du publiserer et dokument i en bok eller på Internett, må du ofte gjøre tilsynelatende overflødig og absurd arbeid: finne e og erstatte dem med e.)

Selvfølgelig, bøker og nettsteder hvor e det er påført, så nei, de ser enda mer uverdige ut.

Men hvis punktene ovenfor e bidra til å klargjøre betydningen, å løse homonymi ( gjorde alt - gjorde alt), anbefales det fortsatt å installere dem. Jeg pleier å dra e i ordet alle selv når forvirret med alle hardt nok.

Anførselstegn og bindestreker

Når jeg jobber i Word setter jeg alltid en bindestrek, og nesten alltid - fiskebeinsanførselstegn, og i engelsk tekst - anførselstegn. Datamaskinen lærte meg å tegne opp dokumentene jeg lager i henhold til "bok"-standardene, og rette bindestreker og anførselstegn er en integrert del av dem.

Likevel må jeg sørge for at i mine og andres dokumenter, før de publiseres på nettet, erstattes sitater med enkle ("","), og en bindestrek - med en vanlig bindestrek (-). Dette er tilfellet. når sikkerhet (kompatibilitet med andre kodinger og operativsystemer) er viktigere enn skjønnhet.

Poenget er at streken - , sildebeinssitater « » og føtter (dobbel “ ” og singel ‘ ’ ) og noen andre tegn (for eksempel tall NS, avsnitt § , ellipse , ppm , midtpunkt, pluss eller minus ± ), som er i "Windows"-kodingen (Windows-1251), i koi8-r og andre russiske kodinger, der brukeren enkelt kan få dem, er fraværende eller er på feil steder. Når du viser tekst i en annen koding enn Windows-1251, kan disse tegnene bli forvrengt ("Cheburashka" begynner å kjøre i teksten). Det er mulig at du i dette avsnittet ikke ser tegnene som jeg nevnte ovenfor, men noen uforståelige ikoner; hvis ikke, har du utvilsomt sett slike ikoner på andre nettsteder.

Spesialtegn som - (bindestrek) og ‰ (ppm) redder ikke situasjonen, siden det rett og slett ikke er tilsvarende tegn i koi8. Den vakreste veien ut av denne situasjonen er å publisere tekster i Windows-1251 og konfigurere programmene på en slik måte at når du bytter til koi, blir bindestreken automatisk erstattet med en bindestrek, talltegnet - med bokstaven N, og så videre. Dette krever imidlertid spesiell programmering og er ikke alltid mulig. Derfor er det nødvendig, motvillig, å gi følgende anbefaling.

  • Før du publiserer tekst på Internett, med mindre serveren din gir spesielle tiltak for riktig visning av "spesialtegn", er det nødvendig å erstatte alle typer sitater med enkle anførselstegn, bindestreker - med bindestrek, talltegn - med en bokstav N eller ordet "nummer", og så videre.

Og nok en gang om "Rambler"

  • Rambler, på Rambler; uønsket * Rambler.

Rambler valgte et russisk navn for seg selv i begynnelsen av 2000, det er nedfelt i det offisielle navnet (Rambler Internet Holding OJSC). Rambler Rambler fortsetter å bli kalt av de som husker ham fra veldig eldgamle tider, til og med Stack sin.

  • med Rambler Internet holding, svært uønsket * med Rambler Internet Holding!

Det skjedde rett og slett at et ikke helt leselig navn er lovlig nedfelt (med hvem det ikke skjer - ut Ashmanov og partnere også skrevet på engelsk med to store bokstaver). Dette offisielle navnet på Rambler kan og bør brukes som et sitat, for eksempel: i OJSC (i selskapet) Rambler Internet Holding... Men * hos Rambler Internet Holding høres monstrøst ut!

  • Rambler's Top100 skal skrives på den måten. Ikke riktig * Rambler Top100, *Rambler Top100, *Topp 100, *Topp 100 etc.

Notater (rediger)

Jeg siterer Artemy Lebedev fra nettstedet redactor.ru: «Det er bemerkelsesverdig at flertallet av folk som skriver internettet med stor bokstav bøyer de ofte ikke dette ordet og legger til konstruksjonen av "internasjonalt globalt datanettverk", som er et eksempel på åpenbar gammeldagshet." (

Ved første øyekast er de helt irrelevante for kommersielle henvendelser. Det er korrelasjoner med posisjonen i Yandex bare for en liten del av tekstparametrene, og selv da er de svake. I de tre første og i de tredje ti søkeresultatene er antallet forekomster av søket i teksten på siden omtrent det samme - og det samme kan sies om tittel, om overskrifter h1-h4 osv.

Men i virkeligheten, til tross for alt dette, er de tekstlige faktorene kritisk viktige. Hvis vi sammenligner TOP 30 i Yandex for kommersielle forespørsler og like relevante sider som ikke var inkludert i den (fra TOP 30 av Google og Mail.ru), viser det seg at verdiene til nesten alle tekstparametere i TOPPEN av Yandex er statistisk pålitelige - og veldig merkbart - høyere.

Dette betyr mest sannsynlig at tekstfaktorer fungerer i de foreløpige stadiene av rangering - når det velges rundt tusen resultater, som deretter er ytterligere detaljert rangering.

Det vil si at hvis du ikke har nok forekomster av søket på siden (eller individuelle ord fra søket), faller sjansene dine for å komme inn i Yandex TOP kraftig.

Så for søket "lysekroner" i TOP 30 av Yandex, er det bare to resultater der ordet "lysekrone" forekommer mindre enn 40 ganger - lutron.ru med 23 forekomster og lysekrone.rf med fire (pluss én til i domenenavnet). Mens i TOP 30 Google er det 5 sider hvor "lysekronen" vises mindre enn 10 ganger. Gjennomsnittlig antall forekomster av en "lysekrone" i teksten på en side for Yandex TOP 30 er 64, mot 48 for Google og 30 for sider fra Google- og Mail.ru-toppene som ikke kom til Yandex TOP.

Hvor forskjellig er situasjonen med tekstfaktorer i Google fra Yandex?

Tvert imot, i Google er det merkbare korrelasjoner mellom tekstfaktorer og posisjon – jo nærmere TOP 1, jo høyere verdier. Men på den annen side kan du ikke se "inndatafilteret", som i Yandex, og gjennomsnittsverdiene for tekstparametere er vanligvis litt lavere.

Men det er også mye til felles. Så, i begge søkemotorene er rangeringsfaktorene sterkere, jo lenger vi går fra "bokstaven" i søket. Den nøyaktige formen for forespørselen, ser det ut til, ikke lenger skiller seg ut blant resten av søkemotorene. Antall individuelle søkeord spredt utover teksten er viktigere enn hvor mange ganger de vises sammen. Viktig er også synonymene til søkeordene og i enda større grad «additions» – de ordene som søkemotorene selv fremhever i snutter.

Les mer om dette i vår store analyserapport om rangeringsfaktorer for Optimalisering 2017.

La oss gå direkte tilbake til Yandex. Bloggen til søkemotoren sier at «Baden-Baden» er fokusert på overoptimaliserte tekster. Du analyserer nettsteder under "Baden". Basert på resultatene av observasjonene dine, hvilke spesifikke funksjoner fokuserer Yandex-algoritmen på? Hvorfor faller nettsteder inn under "Baden-Baden"?

I prinsippet er alt formulert i Yandex-bloggen ganske tydelig: «De har mange repeterende søkeord og unaturlige fraser, men lite nyttig informasjon. Vi kaller slike tekster overoptimaliserte ... ”.

Det er lett å se at Yandex forstår overoptimalisering på en bredere måte – inkludert ikke bare «over-spam med søkeord», men også lav naturlighet og ubrukelighet for brukeren.

Yandex liker med andre ord ikke SEO-tekster. Dessuten har han ikke likt dem på lenge (se mantraene om nettsteder "laget for mennesker"), men nå har han lært å gjenkjenne dem og bestemt seg for å straffe dem for dem.

Hvordan han gjenkjenner dem nøyaktig, er et eget og mye mindre viktig spørsmål. Det kan være mange faktorer, og de relaterer seg til alle tre komponentene i SEO-tekst – en overflod av søkeord, unaturlighet og lav nytteverdi. Ulike frekvensparametere (både relatert til forespørsler og ikke relatert); vokabular typisk for SEO-tekster; lengden og plasseringen av tekstblokken; tilstedeværelsen av skjult tekst; strukturert tekst. Og dette er ikke en fullstendig liste.

Mest sannsynlig ble problemet løst på en rent praktisk måte. Vi brukte maksimalt faktorene som allerede er brukt av Yandex for andre oppgaver (for eksempel ved rangering); en rekke nye faktorer ble lagt til dem, utviklet spesielt for denne oppgaven. Maskinlæring ble kjørt så mange ganger som det tok for å oppnå den nødvendige fullstendigheten og nøyaktigheten. Så gjennomførte vi A/B-testing – og ut i kamp.

Vi prøvde ikke å finne ut hva Yandex tar i betraktning - det er tydeligvis ikke nok data for dette, og dette er til syvende og sist ikke så viktig. Vi prøvde å lære å identifisere og evaluere SEO-tekster. Og jeg synes vi klarte det bra. Dessuten er det viktig at vi ikke bare gir en totalvurdering, men legger alt i hyllene og dermed viser hva som kan være nyttig å fikse.

Hvor stor prosentandel av lavkvalitetsinnhold er akseptabelt på siden? Hvor mye bør det være å være på vakt mot et sidefilter? Og hvor mye - slik at hele nettstedet faller inn under filteret?

Prosentandeler spiller ingen spesiell rolle. For å begynne å bekjempe SEO-tekster, måtte Yandex først lære å forstå strukturen til en nettside - for å fremheve navigasjonsområder, "showcase", anmeldelser, annonser, diverse andre blokker - og SEO-tekst på den. Størrelsen på "honningfatet" (innholdet på siden) spiller ingen rolle. Størrelsen på "fluen i salven" er viktig. Jo større den er, jo verre. Men den kan også være relativt liten. La oss si at to tusen tegn definitivt er nok. Kanskje, tilsynelatende, vil et par mellomstore avsnitt være nok - mindre enn tusen tegn, hundre og noe ord. Det er vanskelig å si mer presist. Poenget er at det er tre typer sider som er viktige for B.-B.:

1) fanget under sidefilteret;

2) fanget under nettstedsfilteret;

3) de som ble pekt på av Yandex teknisk støtte.

Og ingen av dem gir fullstendig klarhet.

Dessverre vet vi ganske mye om sidefilteret: det var ingen slike kunder blant Ashmanov & Partners-kunder; brukere av "Turgenev" rapporterer oftere om nettstedsfilteret, publikasjoner "i åpne kilder" osv. er få. Sakene vi kjenner til, faller inn i to kategorier - grove (store "doble" SEO-tekster, det er mye "tjære") og tvilsomme (trafikken falt kort tid før kunngjøringen av den nye algoritmen, så eieren av nettstedet mener at dette er "Baden-Baden", men vi er veldig vi tviler på det).

Mye mer er kjent om nettstedsfilteret. Men det er nesten umulig å fastslå nøyaktig hvilke sider som ble tatt i betraktning ved ileggelse av sanksjoner, så de egner seg heller ikke til å fastsette terskler. Berørte nettsteder har sider med store SEO-tekster som helt klart fortjener «Baden-Baden» – og disse inkluderer ofte hovedsiden til nettstedet og sider til hoveddelene. Og det er sider med veldig korte tekstblokker, og uten dem i det hele tatt. For hva nettstedet blir straffet, ifølge disse dataene, er det lett å forstå, men hvor Yandex trekker grensen er vanskelig.

Til slutt, den tredje typen sider er de som Yandex selv peker på når de svarer på forespørsler fra nettredaktører. Disse sidene ser ut til å være spesifikke, og noen av dem er kjente, men problemet er at de ofte er lite avslørende. Grovt sett, hvis alle slike (og verste) sider ble sanksjonert, ville Yandex rett og slett ikke ha noe å finne. Du kan tenke deg at slike sider får roboter til noen krav, men i alle tilfeller kjent for oss på de samme nettstedene var mye verre sider (inkludert ofte lederen av nettstedet). Disse nettstedene fortjener virkelig "B.-B." - men sidene som Yandex anser det som nødvendig å vise spilte ikke den første rollen i dette.

Hvis vi snakker om markedet, ifølge dine observasjoner, hvor mange webmastere "ombestemte seg" etter lanseringen av Baden-Baden?

Overraskende mange, til tross for svært målrettet bruk av sanksjoner så langt.

Nå er to konkurrerende hovedstrategier tydelig synlige - å spille det trygt eller å vente på at en stekt hane skal bite. Den andre av disse er sterkt motløs.

For ikke å falle inn under sanksjonene, er det nok å fjerne eller redigere de ærlig talt unaturlige tekstene. De er vanligvis synlige for det blotte øye - men du kan sjekke med Turgenev. For å bli kvitt sanksjonene som allerede er skrevet til deg, må du gå gjennom søket - for å gjette hvorfor Platon ikke likte siden han sendte, og hvor mange flere. Forebygging er billigere enn kur.

I desember annonserte du Turgenev-tekstanalysatoren. Fortell oss hvordan og på hvilke data trente du analysatoren? Hva var prøven?

Det er egentlig ingen maskinlæring. Det finnes algoritmer og ordbøker. De ble utviklet og feilsøkt på materialet på flere hundre sider som falt under "Baden-Baden", fra rundt fem dusin forskjellige nettsteder - samt mange tusen andre tekster, hvis kvalitet vi vurderte på egen hånd.

Strengt tatt så vi vår oppgave i å lære hvordan vi effektivt automatisk identifiserer overoptimaliserte tekster – og, ikke mindre viktig, å forklare nøyaktig hva som er galt med dem. Maskinlæring ville ikke tillate dette.

Forresten, selv i tilfeller der den direkte trusselen om "B.-B." nei, Turgenev er nyttig for webmastere og tekstforfattere, da det hjelper å legge merke til og rette opp unaturlige repetisjoner, stilfeil og andre lignende problemer.

Hvordan fastslår Turgenev at dette eller det innholdet må legges til/fjernes? Hvilke materialer sammenligner tjenesten teksten med når de analyserer? For eksempel med lignende som allerede er i databasen; hentet fra utstedelsen i sanntid; basert på gjennomsnitt av alt innhold osv.?

Vi utviklet først parametrene som er ansvarlige for risikoen for "Baden-Baden" innenfor rammen av Search Analytics Laboratory, og først da dukket ideen om å lage en offentlig tjeneste opp. Derfor har vi to forskjellige versjoner av Turgenev: den som er publisert på turgenev.ashmanov.com, for alle, og den "indre Turgenev", for våre kunder. Den interne versjonen av algoritmen fungerer med nettsider og tar hensyn til konteksten til forespørslene de skal finnes på. For eksempel estimerer den størrelsen på en tekstblokk og "vanninnhold" basert på indikatorene på sidene i Yandex TOP for spesifikke spørsmål.

Den offentlige versjonen fungerer kun med tekster (denne begrensningen gjorde tjenesten gratis) og har derfor ingenting å sammenligne materialet som sjekkes med. Han blir rett og slett vurdert etter flere parametere, får straffepoeng, hvis det er noe, og som et resultat blir risikoen vurdert ved summen av poeng for ulike parametere. Vi anbefaler ikke å legge til eller fjerne innhold - vi identifiserer bare problemer, og hva vi skal gjøre med det er opp til forfatteren av teksten eller eieren av nettstedet å bestemme.

På fanen "Repetisjoner" telles frekvensene til ord og setninger, en enkel modell er bygget opp ved å vurdere tilstedeværelsen av "superhyppige" ord. Vanligvis i SEO-kopi er dette ordene den er (om)optimalisert for. Det totale antallet repetisjoner i teksten er også estimert - for dette brukes en favoritt SEO-parameter med et merkelig navn "akademisk kvalme", ​​som vi måtte finne på nytt, siden oppskriften, som det viste seg, holdes hemmelig. Tersklene for det er satt ganske høyt - straffepoengene starter med akademisk kvalme på 10,5, det vil si at bare tekster med et virkelig høyt antall repetisjoner blir "straffet". Og teksten kan også få et poeng for en svært høy frekvens av konjunksjonen «og» – dette handler mer om stilistikk, for å fange opp tekster der «erfarne og kunnskapsrike leger garanterer koding og å bli kvitt avhengigheten».

På fanen "Stylistics" telles forekomster av ord og uttrykk av flere typer ganske enkelt. For det første er dette talevendingene som er typiske for dårlige SEO-tekster. For eksempel fragmenter for å bli overbevist om dette valget, foreslår vi at du ser på nøkkelegenskapene til produktet eller alle vet at vaskemaskinen er en viktig egenskap på badet ble analysert av oss for sitater nesten uten rest, og nå vil enhver tekst der man møter "forsikre deg om dette valget" få et visst antall "stilistiske kvanter" for dette, som etter en viss terskel blir til straffepoeng . I tillegg noteres en rekke stilfeil, byråkrati, overdrevent snakkesalige fraser og mye mer. De er også hentet fra SEO-tekster, og selv om mange av dem ikke i seg selv gjør teksten unaturlig, blir det et problem hvis det er mange av dem, hvor alvorlighetsgraden uttrykkes i straffepoeng.

På fanen "Forespørsler" er forespørslene som oppstår i teksten fra den gjennomsnittlige "kommersielle"-listen (omtrent to og en halv million) markert. Hvis forespørselsdekningen er stor, kan dette tyde på overoptimering.

De resterende to fanene gir poeng sjeldnere og svært lite. "Vanninnhold" - for en lav andel meningsfull tekst. "Lesbarhet" - for en tekst der det er mange lange setninger og lange ord.

Hvor mye data for samme tekst kan variere fra dag til dag?

Vanligvis ikke mye. Vi fortsetter å forbedre algoritmer og fylle på ordbøker, men sannsynligheten for at noe merkbart vil endre seg for teksten din er svært liten. Et sjeldent unntak - hvis det er teksten din som vi brukte i dag for å fylle på ordbøker.

Hvor nøyaktig bestemmer Turgenev risikoen for at et nettsted faller inn under Baden-Baden?

Hver gang vi lærer om et nytt eksempel på et nettsted eller sider som faller inn under filteret, sjekker vi arbeidet til "Turgenev" på dem. I 95% av tilfellene takler han - viser kritisk eller høy risiko. Slik sett er alt i orden - bare vi anbefaler at du sjekker flere tekster fra siden (og det er absolutt SEO-tekster, og ikke hele siden).

Men dette betyr selvfølgelig ikke at enhver tekst som Turgenev viste høy risiko for vil falle under filteret i morgen. Høy score indikerer bare at teksten er unaturlig, overoptimalisert og må redigeres. Det er fortsatt mange slike i TOPPEN av Yandex - inkludert i de første posisjonene, spesielt for informasjonsforespørsler. Hvorfor er ikke et spørsmål for oss.

Representanter for Yandex, når de er omgitt av SEO-er og konkurrerer med hverandre, spør hvorfor nettstedet mitt er under filteret, og slikt og slikt, enda verre, er på frifot, svarer vanligvis: "Det er ikke kveld ennå, alt har sin tid ."

Vi kan bare slutte oss til dette svaret.

Riktignok er falske positiver mulig hvis de sjekker tekster som Turgenev ikke er designet for. For eksempel får mange lover og andre juridiske dokumenter mange poeng for repetisjon og noen flere for stil og lesbarhet. Ja, lover er heller ikke de mest naturlige tekstene, skrevet i langt fra den beste stilen, men ikke overoptimalisert.

Er Turgenev kun rettet mot kommersielle nettsteder? Eller egner den seg også for informasjonsportaler? Tross alt, ser det ut til, SEO-tekst - den er der, og det er SEO-tekst.

SEO-tekster er forskjellige, og problemene, først og fremst stilistiske, i den overoptimaliserte informasjonsteksten er noe annerledes enn i den kommersielle. Fra tekster som før du svarer på spørsmålet: "Doxycycline - hva er disse pillene fra?", bør du fortelle hvilken sammensetning denne medisinen har du må samle markører som er karakteristiske for dem.

Vi gjør dette litt etter litt, og slike tekster fanges også opp, om enn noe dårligere enn kommersielle. For eksempel fikk siden som sitatet i forrige avsnitt ble hentet fra bare 5 poeng, selv om den absolutt fortjener mer. Men på den annen side, denne teksten flaunts i TOPPEN av Yandex i den aller første posisjonen (for søket "doxycycline tabletter" i skrivende stund). Når Yandex begynner å bruke Baden-Baden på "tekstdumper", vil vi gi dem den oppmerksomheten de fortjener, og de vil bli godt fanget.

Vi kjenner fortsatt ikke til et eneste bekreftet eksempel på bruken av "B.-B." til informasjonssider. Vi vil være veldig takknemlige hvis noen av våre lesere vil sende- som imidlertid, og eventuelle eksempler på "Baden-Baden". Interessen her er gjensidig – vi diskuterer gjerne din sak med deg, og det vil hjelpe oss å forbedre tjenesten for alle.

Hvordan planlegger du å utvikle Turgenev, i hvilken retning?

Vi har ikke tenkt seriøst på globale planer ennå, men lokalt jobber vi med flere faner samtidig. For eksempel skal vi drastisk forbedre «Forespørsler»-fanen – og samtidig fremskynde utsendelsen av svar (faktorer knyttet til forespørsler regnes nå som lengre enn andre).

Administrerende partner i selskapet

En av de mest kjente lederne i Runet, en spesialist innen kunstig intelligens, programvareutvikling, prosjektledelse. Administrerende partner i Ashmanov & Partners. Uteksaminert fra fakultetet for mekanikk og matematikk ved Moscow State University, kandidat for tekniske vitenskaper.

Igor Ashmanov har vært involvert i informasjonsteknologi siden 1983. Han ledet utviklingen av Orfo-stavekontrollen hos Informatika, var medeier og administrerende direktør i MediaLingua, som produserte MultiLex-ordbøker, og administrerende direktør i Rambler Internet holding. I løpet av denne tiden ga han ut flere dusin prosjekter, inkludert:

  • Den språklige ORFO-modulen (stave- og stilkontroll, synonymordbok, orddelingsmodul) i den russiske versjonen av Microsoft Office, som brukes av millioner av mennesker i hele Russland;
  • Elektroniske ordbøker "MultiLex", som fortsatt er det beste profesjonelle oversetterverktøyet i Russland;
  • Versjonen av Rambler-søkemotoren, utgitt i 2001, og de fleste nettstedene og tjenestene til Rambler-portalen før de ble oppdatert i 2012.
  • Spamfilter "Spamtest", som beskytter titalls millioner brukere (selges nå under merkenavnet "Kaspersky Anti-Spam").
  • Nyhetssøkemotor "Novoteka", samler og grupperer nyheter fra hundrevis av kilder.
  • People's search "Flexum" er en tjeneste for å lage tematiske søkemotorer.

Igor Ashmanov er medlem av International Union of Internet Figures "EZHE", to ganger vunnet i nominasjonen "Person of the Year" i ROTOR-nettverkskonkurransen (i ROTOR 2004 og i ROTOR-2006), innenfor rammen av EZHE-bevegelsen det er et galleri med fremtredende nettverksfigurer, der Igor Ashmanovs FRI er.

Partner i selskapet

Kjent spesialist innen programvareproduksjonsstyring. Nå er han engasjert i utvikling og utvikling av «Semantic Mirror»-teknologien og en rekke andre. Uteksaminert fra fysikkavdelingen ved Moscow State University. Underviser i programmering ved Fysisk avdeling.

I 1999-2001 jobbet Alexey som leder for søkeprosjektet på Rambler, hvor en ny versjon av søkemotoren ble utviklet og satt i drift under hans ledelse.

I 1995-1999 var Aleksey Ivanov teknisk direktør for MediaLingua-selskapet, hvor han ledet utviklingen av MultiLex-familien av dataordbøker og mange andre prosjekter.

I 2001-2005 deltok han i utviklingen av Spamtest-spamfilteret hos Ashmanov & Partners.

I 2004-2007 - leder av Semantic Mirror-prosjektet og Ashmanov & Partners søkemotorprosjekt.

2006–2012 - Utviklingssjef for prosjektet Search Engine Analyzers.

I 2010–2011 - leder av det sosiale søkeprosjektet på Flexum.ru.

2011–2016 - Prosjektleder for Wada.vn, en søkemotor for det vietnamesiske segmentet av Internett.

2015–2016 - Utviklingssjef hos WadaMarket.com, en vareaggregator for vietnamesiske nett- og offlinebutikker).

Partner i selskapet

Spesialist i Russland innen Internett-teknologi, kompleks utvikling av nettsider, høy belastning, store datamengder. Hos Ashmanov & Partners utvikler han en søkemotor.

De mest kjente er deres egne prosjekter Russian Internet Survey og den russiske Apache-nettserveren, som driver mer enn halvparten av alle Runet-nettsteder.

En av de beste spesialistene i Russland innen Internett-teknologi, utvikling av komplekse nettsteder og Internett-tjenester, høy belastning, store mengder data. Uteksaminert fra det geologiske fakultetet ved Moscow State University.

Alexey er mest kjent for sine egne prosjekter Russian Internet Survey og den russiske Apache-nettserveren.

I 1999-2001 var Alexey leder for Rambler's Top100-prosjektet ved Rambler Internet holding.

Siden 2001 - ansatt og medeier i Ashmanov & Partners.

I 2004-2006 var han teknisk direktør for Search Technologies-selskapet, forfatteren av Novoteka-nyhetssøkemotoren og nyhetsutvekslingsnettverket.

Siden 2008 - CTO for LibRaw LLC, som utvikler programvare og utviklingsverktøy for digital fotografering.

Foreløpig leder han ingen prosjekter i selskapet.

Alexey Tutubalin er medlem av International Union of Internet Figures "EZHE", han vant tre ganger i nominasjonen "Researcher of the Year": i nettverkskonkurransen ROTOR 2006, i konkurransen ROTOR ++ 2007 og i konkurransen ROTOR 2008 , innenfor rammen av bevegelsen "EZHE" er det et galleri med fremtredende nettverksfigurer der det er.

Partner i selskapet

En spesialist i utgivelsen av IT-applikasjoner, som kombinerer kunnskapen og ferdighetene til en leder, programmerer og lingvist. Hos Ashmanov & Partners er han ansvarlig for kunstig intelligens-teknologier.

Uteksaminert fra fakultetet for filologi ved Moscow State University, Institutt for anvendt lingvistikk.

I 1996-1999 jobbet Kirill Zorkiy som leder for lingvistikkavdelingen ved MediaLingve, og publiserte MultiLex-ordbøker. Veiledet utarbeidelse av data for elektroniske ordbøker, utviklet datamorfologier for flere språk.

I 1999-2001 jobbet Kirill som leder for innholdsprosjektavdelingen på Rambler, i løpet av denne tiden ga han ut flere dusin innholdsprosjekter av Rambler.

Siden 2001 har Kirill Zorkiy vært ansatt og medeier i Ashmanov & Partners.

I 2001-2005 var han leder for Spamtest-prosjektet.

2005–2007 - Leder for Anti-Spam-avdelingen ved Kaspersky Lab, prosjektleder hos Kaspersky Anti-Spam.

For tiden - den tekniske direktøren for selskapet "Nanosmantics".

Partner i selskapet

Kandidat for fysiske og matematiske vitenskaper, en av de beste ekspertene i Russland innen utvikling av teknisk kompleks programvare, teknisk revisjon, IT-prosjektledelse.

Uteksaminert fra fysikkfakultetet ved Moscow State University, kandidat for fysiske og matematiske vitenskaper.

I 1996-1999 var Dmitry ansatt i MediaLingua-selskapet, deltok i utviklingen av de fleste av MediaLinguas prosjekter: elektroniske ordbøker, søketjenester, serverapplikasjoner, Internett-prosjekter, etc.

I 2000-2001 jobbet Dmitry Pashko i Rambler Internet holding - først som leder for operasjonsavdelingen, og deretter som teknisk direktør. I løpet av denne tiden, under hans ledelse, ble mer enn 30 prosjekter utviklet, testet og publisert. Spesielt i 2000 var Dmitry ansvarlig for det unike prosjektet med Internett-spill "Hva? Hvor? Når?", I hvilke team av eksperter konkurrerte med det "universelle sinnet".

Siden 2001 har en ansatt og medeier i Ashmanov & Partners deltatt i Spamtest, SeoRate, Semantic Mirror-prosjektene, samt i utviklingen av selskapets webtjenester.

Siden 2013 har han vært ansvarlig for teknologisk utvikling hos Ashmanov & Partners. Deltar i selskapets datterselskapsprosjekter knyttet til internettanalyse og beskyttelse av brukere mot uønsket informasjon.

Partner i selskapet

Lingvist, leksikograf, spesialist i intellektuelle teknologier og nettstedbrukbarhet. Har jobbet for Ashmanov & Partners siden oppstarten. Han driver for tiden søkeanalyselaboratoriet.

Han jobbet som utøvende redaktør for Kommersant (den gang fortsatt ukentlig). Utviklet den beste orddelingsalgoritmen for det russiske språket i dag. Skrev den engelsk-russiske ordboken "Christianity". Forberedt data for MultiLex-ordbøker. Var sjefredaktør for Rambler-portalen. Deltok (og fortsetter å delta) i etableringen av det utmerkede populærvitenskapelige nettstedet Elementy.ru.

Siden 2007 har han jobbet med AnalyzeThis.ru-prosjektet, som er mer enn 70 automatiske analysatorer som vurderer kvaliteten på søk på russisk, engelsk, kinesisk og vietnamesisk. Studerte fenomenet søkemotorspam og utviklet metoder for å bekjempe det. Veiledet utarbeidelse av data og arbeidet til lingvister for den vietnamesiske søkemotoren Wada.vn og Wada-markedet.

I 2014-2015 jobbet hun som markeds- og eksternkommunikasjonsdirektør i Kribrum, hvor hun var ansvarlig for tjenesteutvikling.

Siden 2015 har han ledet kommunikasjonsbyrået Ça Va Agency.

Siden 2017 har han vært administrerende direktør i Ashmanov & Partners St. Petersburg.